【元脑技术详解】改进三大关键环节，构建高精度大模型RAG知识库_科技新闻

反馈问题或建议

博客园 » 新闻 » IT博客

投递人 itwriter 发布于 2025-02-13 14:42 [收藏] « »

　　在大模型技术浪潮中，检索增强生成（RAG）技术结合了大型语言模型（LLMs）的生成能力与信息检索系统，成为解决大模型“幻觉”，并高效利用企业积淀的专业知识提升智能生产力的关键方案。

　　然而，企业级 RAG 应用的开发涉及知识向量化、检索优化、模型调整等多个环节，构建高效、准确的知识库并不简单。特别是在处理海量数据时，LLMs 往往难以精准检索并召回关键信息，且低质量输入会直接影响生成结果的准确性。因此，要充分发挥 RAG 系统的生产力，必须在多个环节解决一系列技术难题。

　　本文从文档解析、数据向量化再到信息检索三大核心环节，解读了提升 RAG 系统性能的关键技术路径。经过企业大模型开发平台元脑企智 EPAI 实战检验，通过在上述环节的技术优化，能够为企业级 RAG 应用提供精准可靠的技术支撑，帮助企业更好地利用沉睡的数据，驱动业务创新。

　　一、RAG 系统搭建痛点：释放企业数据价值为何这么难？

　　RAG（Retrieval Augmented Generation，检索增强生成）是大模型应用的重要方向。从本质上来说，它是一种结合了检索和生成的技术方法，通过以下两个步骤实现增强生成：

检索相关信息：基于用户查询，从知识库中提取相关文档。
上下文生成：利用检索到的信息作为上下文，为用户生成连贯且信息丰富的回答。

　　RAG 巧妙地将传统基于检索的问答系统与自然语言生成技术相互融合，这样的方式，既保留了生成模型本身的灵活性，又有效增强了其在领域知识方面的覆盖面以及回答的准确性，大幅缓解了大模型幻觉、信息更新不及时、专业域或私有域知识匮乏等问题。

　　然而，构建一套高效的 RAG 系统并将其融入企业生产流程，使其在企业环境中发挥实效、创造价值，却远非轻而易举。首先，企业所积累的专业知识通常既分散又复杂，要将这些知识精确地整合成高质量的知识库，无疑是一道棘手的难题。其次，在应对海量且非结构化的数据时，RAG 系统需要经过精细的检索优化和模型调校，以保证输出的答案既准确又相关。此外，企业知识的动态变化特性，还要求 RAG 系统必须具备灵活的更新机制，以适应不断变化的知识环境。

　　这些因素共同构成了 RAG 系统搭建的高难度门槛，带来了以下开发挑战：

　　1. 数据质量：知识库中的错误或不完整信息直接影响回答的准确性与可靠性，必须确保数据的高质量和全面性。

　　2．检索效率：如何平衡检索结果的相关性与数量，既要保证结果的精准匹配，又要避免冗余信息，从而提高检索效率。

　　3．生成准确性：避免生成内容中的“幻觉”问题，确保生成的信息真实可靠，不包含虚构或错误的内容。

　　4. 可扩展性：面对大规模并发用户时，如何确保系统能够稳定运行，并持续提供高性能的服务。

　　5. 安全性与合规性：特别是涉及敏感数据时，必须采取严密的安全措施，确保数据安全，同时遵守相关法律法规，确保合规性。

　　二、决定 RAG 知识库构建精准度的三大关键环节

　　（一）解决文档解析难题，从源头实现精准数据录入

　　文档解析是 RAG 系统预处理的第一步，解析准确性直接影响知识库内容的质量和效果。如果文档解析存在问题，知识库中将包含大量不准确的信息，将直接影响后续的检索和生成环节，导致整个 RAG 系统的性能下降。

　　纵观业界最优秀的解决方案，一定是建立在视觉信息与文本解析技术相结合的基础上，通过对不同类型文档进行深度理解，优化信息提取和结构化处理，可以精确提取文本、表格、图像、公式等多种信息。整个处理流程可以简化为以下几个步骤：文档转图片 -> 版面分析 -> 表格识别 -> 文字识别 -> 合并段落 -> 后处理。接下来，我们将逐一解读其中的核心环节。

　　1、布局分析

　　【布局分析与检测】是文档解析的关键第一步，旨在区分页面上不同类型的元素及其对应区域。现有的开源布局检测模型针对常规文档(单列、图文布局简单、非印刷版等)表现尚可，但在处理商业分析简报、教科书、影印版本等多样化文档时效果不佳，即使是开源 SOTA 模型也存在检测精度不达标的情况，因此需要通过构建多样化布局检测训练集来解决这一问题。

　　2、表格识别

　　【表格识别】表格是呈现结构化数据的有效方式，但从视觉表格图像中提取表格数据具有挑战性。TSR 模型（Table Structure Recognition）是专门为识别、分析与提取表格信息训练的模型，能够自动提取表格中的数据，并将其转化为结构化的数据格式，以适应不同规模和类型的表格识别任务。

　　3、公式检测与识别

　　【公式检测与识别】由于公式（尤其是内联公式）在视觉上可能与文本难以区分，若不提前检测公式，后续文本提取可能出现乱码，影响文档整体准确性。因此，在整个文档解析流程中还需要考虑使用 MFD（Mathematical Formula Detection）与 MFR（Mathematical Formula Recognition）模型，并通过使用大规模数据训练与调优，提升各种类型公式的检测和识别的准确率。

　　4、 OCR 识别

　　【文本区域识别】在排除文档中的特殊区域（表格、公式、图像等）后，需要使用 OCR 模型进行文本识别。为避免整页 OCR 导致的文本顺序错误，需要基于布局分析检测到的文本区域（标题、文本段落）进行信息识别操作，确保文本识别的准确性和阅读顺序，对于影印版材料、复杂页面结构、旋转字体等文本内容才可以准确识别与提取。

　　5、文档内容后处理

　　1）部分重叠关系：对于部分重叠的文本框，通过垂直和水平收缩来避免相互覆盖，确保最终位置和内容不受影响，方便后续排序；对于文本与表格/图像的部分重叠，暂时忽略表格和图像以确保文本完整性。

　　2）基于阅读顺序的分割算法：在处理完嵌套和部分重叠的边界框后，通过基于 “从上到下，从左到右” 人类阅读顺序的分割算法，可以将整个页面划分为多个区域，每个区域包含多个边界框，且每个区域最多包含一列，确保文本按自然阅读顺序逐行读取。然后根据位置关系对分割后的组进行排序，确定 PDF 中每个元素的阅读顺序。

　　（二）领先的 Embedding 嵌入式模型，提供最佳的知识检索性能

　　在 RAG 系统搭建中，文档解析完成后，需要通过 Embedding 模型（嵌入式模型）将解析内容转化为机器可理解的向量格式，为后续的检索和处理提供支持。

　　Embedding 模型（嵌入式模型）是一种将词语或句子转化为数字向量的技术，它将高维、离散的输入数据（如文本、图像、声音等）映射为低维、连续的向量表示，从而有效地捕捉数据中的语义和特征关系。这些向量不仅能揭示单词或短语之间的复杂关系，还能捕捉深层的语义信息，使计算机能够进行数学运算，例如比较词语的相似性或分析句子的含义。

　　Embedding 模型在 RAG 流程中扮演着关键角色，它应用在整个检索和比对过程中，包括了企业既有知识和检索问题的向量化，模型精度直接影响到基于文档检索结果的准确性和数量，以及大模型生成的内容与推理性能。

　　Embedding 模型贯穿 RAG 流程多环节

　　通过优化 Embedding 模型，RAG 流程能够在多个方面得到显著改进，包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、提升对长文档的处理能力以及增强模型的鲁棒性等，从而最大化提升 RAG 流程的整体性能和应用效果。

　　（三）混合检索与重排序技术，实现信息精准召回

　　在 RAG 系统中，向量知识库建立完成后，当用户选定知识库提出检索问题时，随即进入到知识检索环节。当用户提出一个问题时，系统并非直接将问题提交给大模型来回答，而是首先在知识库中进行向量搜索，通过语义相似度匹配的方式查询相关内容，然后再将用户问题和搜索到的相关知识提供给大模型，因此，检索环节在 RAG 中的作用不可忽视，直接决定了生成过程的质量、效率和系统的可用性。

　　向量检索在处理复杂语义、多语言和多模态理解上具有优势，但在搜索人名、物体名、缩写词等精确匹配时，传统的关键词检索更有效。目前，领先的混合检索技术可以结合上述两者的优势，通过预建立向量和关键词索引，在查询时分别提取最相关内容，弥补了单一方法的不足，在多种检索技术间找到最佳平衡，提升信息召回的全面性。

　　为了使大模型能够基于更加准确的检索信息进行推理，可以在混合检索获取候选文档后，引入重排序模型（Rerank Model）对文档进行评分和排序，确保最相关的文档排在前面。重排序模型的核心原理是根据用户问题与候选文档的语义匹配度，重新排列文档列表。通过计算相关性分数，系统返回按相关性排序的文档，从而提高检索结果的准确性。

　　这一技术组合在多个应用场景中展现强大潜力。在企业智能知识库中，混合检索快速识别相关文档，重排序模型确保展示精准的文档，提升知识管理效率。

　　混合检索和重排序技术架构

　　四、精准 RAG 系统构建：简化复杂流程，提升知识管理效率

　　搭建精准的 RAG 系统是一个极为复杂的过程，涉及知识提取、切片、量化、检索及生成等多个技术环节的深度优化，往往需要通过不断的试错和调整，才能结合企业实际业务需求，真正实现高效的智能知识管理。

　　为了帮助企业提高知识利用效率，浪潮信息深入分析并结合多环节的技术优化实践，在企业大模型开发平台元脑企智 EPAI 中提供端到端的 RAG 系统解决方案。该方案内置了经过验证的最佳实践，帮助企业减少复杂的技术试错成本，快速构建企业知识库，提升知识管理效率与性能。

支持包含 PDF、TXT、DOCX、EXCEL 等 10+ 种类的文档格式，全面覆盖企业私有数据类型，实现各类数据的无缝整合与高效利用，为企业知识库的构建和管理提供了坚实的基础。
内置业界领先的文档解析模型（EPAI-Parser），精确提取文本、表格、图像、公式等多种信息文字，表格内容识别正确率超过 95%，各种类型公式的检测和识别达到业界 SOTA 水准。
内置专为增强中文文本检索能力而设计的嵌入式模型（Embedding 模型）Yuan-EB，在权威的嵌入模型测试榜单C-MTEB 中斩获检索任务冠军，能够有效提升 RAG 系统的检索精度。
结合领先的混合检索与结果重排技术，端到端检索精度超过 90%。同时支持检索信息溯源、跨知识库和跨语言检索，既能智能提取和精准定位原始信息，提高系统透明度和验证性，又能跨领域整合知识，满足全球化业务需求。
实现多级过滤和审核体系，基于敏感词词典（含黑白名单）、多级语义模型、外部 API 过滤（可选）、大模型价值观对齐等核心手段，对用户输入、模型输出进行快速、准确审核，保障生成内容的安全性与隐私性。

　　EPAI 知识库检索基本流程

　　借助元脑企智 EPAI，企业仅需三步即可高效创建大模型 RAG，构建全面、高效、可靠的知识管理平台，充分挖掘和利用数据资产。未来，元脑企智 EPAI 将持续优化 RAG 系统的核心技术，精细提升各环节性能，确保为企业提供稳定、先进的解决方案，帮助企业在技术变革中提升知识管理和应用的效率与精准度，将沉淀的知识真正转化为企业的智能生产力。

　　元脑企智 EPAI (Enterprise Platform of AI)是浪潮信息的大模型应用落地解决之道，能够为企业 AI 大模型落地应用提供高效、易用、安全的端到端开发平台，提供数据准备、模型训练、知识检索、应用框架等系列工具，支持调度多元算力和多模算法，帮助企业高效开发部署生成式 AI 应用、打造智能生产力。在大模型技术持续演进的进程中，元脑企智 EPAI 将以持续创新，助力企业智能应用创新与效率提升。

周边店上新！博客园淘宝店上架机械键盘

博客园 » 新闻 » IT博客

热门评论

24小时阅读排行

最新新闻

编辑推荐

相关新闻