
在大模型技术浪潮中,检索增强生成(RAG)技术结合了大型语言模型(LLMs)的生成能力与信息检索系统,成为解决大模型“幻觉”,并高效利用企业积淀的专业知识提升智能生产力的关键方案。
然而,企业级 RAG 应用的开发涉及知识向量化、检索优化、模型调整等多个环节,构建高效、准确的知识库并不简单。特别是在处理海量数据时,LLMs 往往难以精准检索并召回关键信息,且低质量输入会直接影响生成结果的准确性。因此,要充分发挥 RAG 系统的生产力,必须在多个环节解决一系列技术难题。
本文从文档解析、数据向量化再到信息检索三大核心环节,解读了提升 RAG 系统性能的关键技术路径。经过企业大模型开发平台元脑企智 EPAI 实战检验,通过在上述环节的技术优化,能够为企业级 RAG 应用提供精准可靠的技术支撑,帮助企业更好地利用沉睡的数据,驱动业务创新。
一、RAG 系统搭建痛点:释放企业数据价值为何这么难?
RAG(Retrieval Augmented Generation,检索增强生成)是大模型应用的重要方向。从本质上来说,它是一种结合了检索和生成的技术方法,通过以下两个步骤实现增强生成:
- 检索相关信息:基于用户查询,从知识库中提取相关文档。
- 上下文生成:利用检索到的信息作为上下文,为用户生成连贯且信息丰富的回答。
RAG 巧妙地将传统基于检索的问答系统与自然语言生成技术相互融合,这样的方式,既保留了生成模型本身的灵活性,又有效增强了其在领域知识方面的覆盖面以及回答的准确性,大幅缓解了大模型幻觉、信息更新不及时、专业域或私有域知识匮乏等问题。
然而,构建一套高效的 RAG 系统并将其融入企业生产流程,使其在企业环境中发挥实效、创造价值,却远非轻而易举。首先,企业所积累的专业知识通常既分散又复杂,要将这些知识精确地整合成高质量的知识库,无疑是一道棘手的难题。其次,在应对海量且非结构化的数据时,RAG 系统需要经过精细的检索优化和模型调校,以保证输出的答案既准确又相关。此外,企业知识的动态变化特性,还要求 RAG 系统必须具备灵活的更新机制,以适应不断变化的知识环境。
这些因素共同构成了 RAG 系统搭建的高难度门槛,带来了以下开发挑战:
1. 数据质量:知识库中的错误或不完整信息直接影响回答的准确性与可靠性,必须确保数据的高质量和全面性。
2.检索效率:如何平衡检索结果的相关性与数量,既要保证结果的精准匹配,又要避免冗余信息,从而提高检索效率。
3.生成准确性:避免生成内容中的“幻觉”问题,确保生成的信息真实可靠,不包含虚构或错误的内容。
4. 可扩展性:面对大规模并发用户时,如何确保系统能够稳定运行,并持续提供高性能的服务。
5. 安全性与合规性:特别是涉及敏感数据时,必须采取严密的安全措施,确保数据安全,同时遵守相关法律法规,确保合规性。
二、决定 RAG 知识库构建精准度的三大关键环节
(一)解决文档解析难题,从源头实现精准数据录入
文档解析是 RAG 系统预处理的第一步,解析准确性直接影响知识库内容的质量和效果。如果文档解析存在问题,知识库中将包含大量不准确的信息,将直接影响后续的检索和生成环节,导致整个 RAG 系统的性能下降。
纵观业界最优秀的解决方案,一定是建立在视觉信息与文本解析技术相结合的基础上,通过对不同类型文档进行深度理解,优化信息提取和结构化处理,可以精确提取文本、表格、图像、公式等多种信息。整个处理流程可以简化为以下几个步骤:文档转图片 -> 版面分析 -> 表格识别 -> 文字识别 -> 合并段落 -> 后处理。接下来,我们将逐一解读其中的核心环节。
1、布局分析
【布局分析与检测】是文档解析的关键第一步,旨在区分页面上不同类型的元素及其对应区域。现有的开源布局检测模型针对常规文档(单列、图文布局简单、非印刷版等)表现尚可,但在处理商业分析简报、教科书、影印版本等多样化文档时效果不佳,即使是开源 SOTA 模型也存在检测精度不达标的情况,因此需要通过构建多样化布局检测训练集来解决这一问题。
2、表格识别
【表格识别】表格是呈现结构化数据的有效方式,但从视觉表格图像中提取表格数据具有挑战性。TSR 模型(Table Structure Recognition)是专门为识别、分析与提取表格信息训练的模型,能够自动提取表格中的数据,并将其转化为结构化的数据格式,以适应不同规模和类型的表格识别任务。
3、公式检测与识别
【公式检测与识别】由于公式(尤其是内联公式)在视觉上可能与文本难以区分,若不提前检测公式,后续文本提取可能出现乱码,影响文档整体准确性。因此,在整个文档解析流程中还需要考虑使用 MFD(Mathematical Formula Detection)与 MFR(Mathematical Formula Recognition)模型,并通过使用大规模数据训练与调优,提升各种类型公式的检测和识别的准确率。
4、 OCR 识别
【文本区域识别】在排除文档中的特殊区域(表格、公式、图像等)后,需要使用 OCR 模型进行文本识别。为避免整页 OCR 导致的文本顺序错误,需要基于布局分析检测到的文本区域(标题、文本段落)进行信息识别操作,确保文本识别的准确性和阅读顺序,对于影印版材料、复杂页面结构、旋转字体等文本内容才可以准确识别与提取。
5、文档内容后处理
1)部分重叠关系:对于部分重叠的文本框,通过垂直和水平收缩来避免相互覆盖,确保最终位置和内容不受影响,方便后续排序;对于文本与表格/图像的部分重叠,暂时忽略表格和图像以确保文本完整性。
2)基于阅读顺序的分割算法:在处理完嵌套和部分重叠的边界框后,通过基于 “从上到下,从左到右” 人类阅读顺序的分割算法,可以将整个页面划分为多个区域,每个区域包含多个边界框,且每个区域最多包含一列,确保文本按自然阅读顺序逐行读取。然后根据位置关系对分割后的组进行排序,确定 PDF 中每个元素的阅读顺序。
(二)领先的 Embedding 嵌入式模型,提供最佳的知识检索性能
在 RAG 系统搭建中,文档解析完成后,需要通过 Embedding 模型(嵌入式模型)将解析内容转化为机器可理解的向量格式,为后续的检索和处理提供支持。
Embedding 模型(嵌入式模型)是一种将词语或句子转化为数字向量的技术,它将高维、离散的输入数据(如文本、图像、声音等)映射为低维、连续的向量表示,从而有效地捕捉数据中的语义和特征关系。这些向量不仅能揭示单词或短语之间的复杂关系,还能捕捉深层的语义信息,使计算机能够进行数学运算,例如比较词语的相似性或分析句子的含义。
Embedding 模型在 RAG 流程中扮演着关键角色,它应用在整个检索和比对过程中,包括了企业既有知识和检索问题的向量化,模型精度直接影响到基于文档检索结果的准确性和数量,以及大模型生成的内容与推理性能。
Embedding 模型贯穿 RAG 流程多环节
通过优化 Embedding 模型,RAG 流程能够在多个方面得到显著改进,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、提升对长文档的处理能力以及增强模型的鲁棒性等,从而最大化提升 RAG 流程的整体性能和应用效果。
(三)混合检索与重排序技术,实现信息精准召回
在 RAG 系统中,向量知识库建立完成后,当用户选定知识库提出检索问题时,随即进入到知识检索环节。当用户提出一个问题时,系统并非直接将问题提交给大模型来回答,而是首先在知识库中进行向量搜索,通过语义相似度匹配的方式查询相关内容,然后再将用户问题和搜索到的相关知识提供给大模型,因此,检索环节在 RAG 中的作用不可忽视,直接决定了生成过程的质量、效率和系统的可用性。
向量检索在处理复杂语义、多语言和多模态理解上具有优势,但在搜索人名、物体名、缩写词等精确匹配时,传统的关键词检索更有效。目前,领先的混合检索技术可以结合上述两者的优势,通过预建立向量和关键词索引,在查询时分别提取最相关内容,弥补了单一方法的不足,在多种检索技术间找到最佳平衡,提升信息召回的全面性。
为了使大模型能够基于更加准确的检索信息进行推理,可以在混合检索获取候选文档后,引入重排序模型(Rerank Model)对文档进行评分和排序,确保最相关的文档排在前面。重排序模型的核心原理是根据用户问题与候选文档的语义匹配度,重新排列文档列表。通过计算相关性分数,系统返回按相关性排序的文档,从而提高检索结果的准确性。
这一技术组合在多个应用场景中展现强大潜力。在企业智能知识库中,混合检索快速识别相关文档,重排序模型确保展示精准的文档,提升知识管理效率。
混合检索和重排序技术架构
四、精准 RAG 系统构建:简化复杂流程,提升知识管理效率
搭建精准的 RAG 系统是一个极为复杂的过程,涉及知识提取、切片、量化、检索及生成等多个技术环节的深度优化,往往需要通过不断的试错和调整,才能结合企业实际业务需求,真正实现高效的智能知识管理。
为了帮助企业提高知识利用效率,浪潮信息深入分析并结合多环节的技术优化实践,在企业大模型开发平台元脑企智 EPAI 中提供端到端的 RAG 系统解决方案。该方案内置了经过验证的最佳实践,帮助企业减少复杂的技术试错成本,快速构建企业知识库,提升知识管理效率与性能。
- 支持包含 PDF、TXT、DOCX、EXCEL 等 10+ 种类的文档格式,全面覆盖企业私有数据类型,实现各类数据的无缝整合与高效利用,为企业知识库的构建和管理提供了坚实的基础。
- 内置业界领先的文档解析模型(EPAI-Parser),精确提取文本、表格、图像、公式等多种信息文字,表格内容识别正确率超过 95%,各种类型公式的检测和识别达到业界 SOTA 水准。
- 内置专为增强中文文本检索能力而设计的嵌入式模型(Embedding 模型)Yuan-EB,在权威的嵌入模型测试榜单C-MTEB 中斩获检索任务冠军,能够有效提升 RAG 系统的检索精度。
- 结合领先的混合检索与结果重排技术,端到端检索精度超过 90%。同时支持检索信息溯源、跨知识库和跨语言检索,既能智能提取和精准定位原始信息,提高系统透明度和验证性,又能跨领域整合知识,满足全球化业务需求。
- 实现多级过滤和审核体系,基于敏感词词典(含黑白名单) 、多级语义模型、外部 API 过滤(可选)、大模型价值观对齐等核心手段,对用户输入、模型输出进行快速、准确审核,保障生成内容的安全性与隐私性。
EPAI 知识库检索基本流程
借助元脑企智 EPAI,企业仅需三步即可高效创建大模型 RAG,构建全面、高效、可靠的知识管理平台,充分挖掘和利用数据资产。未来,元脑企智 EPAI 将持续优化 RAG 系统的核心技术,精细提升各环节性能,确保为企业提供稳定、先进的解决方案,帮助企业在技术变革中提升知识管理和应用的效率与精准度,将沉淀的知识真正转化为企业的智能生产力。
元脑企智 EPAI (Enterprise Platform of AI)是浪潮信息的大模型应用落地解决之道,能够为企业 AI 大模型落地应用提供高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式 AI 应用、打造智能生产力。在大模型技术持续演进的进程中,元脑企智 EPAI 将以持续创新,助力企业智能应用创新与效率提升。