专栏名称: 知识图谱科技
务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱,大语言模型GenAI)以及医药大健康、工业等行业落地案例,产品市场进展,创业商业化等
目录
相关文章推荐
百姓关注  ·  15岁女生在校坠亡,当地凌晨通报 ·  19 小时前  
贵州日报  ·  90.2亿!创历史新纪录! ·  2 天前  
百姓关注  ·  梵净山紧急通知:暂时封闭! ·  3 天前  
51好读  ›  专栏  ›  知识图谱科技

PIKE-RAG: 微软开源下一代GraphRAG,知识增强大模型解锁企业级私有数据应用落地价值

知识图谱科技  · 公众号  ·  · 2025-02-17 11:38

正文



前言摘要

微软在2024年推出了GraphRAG开源算法,引起业界广泛关注,最近微软又推出了PIKE-RAG,升级知识增强大模型解锁企业级私有数据应用落地价值。

尽管检索增强生成(RAG)系统在通过外部检索扩展大型语言模型(LLM)能力方面取得了显著进展,但这些系统往往难以满足现实世界工业应用的复杂和多样化需求。仅依赖检索来提取在专业语料库中进行的逻辑推理的深度、领域特定知识被证明是不够的。为了解决这一问题,我们引入了专门化知识与推理增强生成(PIKE-RAG),重点在于提取、理解和应用专业知识,同时构建连贯的理由逐步引导LLM朝着准确的回应发展。鉴于工业任务的多样挑战,我们引入了一种新范式,根据知识提取和应用的复杂性对任务进行分类,从而系统地评估RAG系统的问题解决能力。这一战略方法为分阶段开发和提升RAG系统提供了路线图,以适应工业应用的不断变化的需求。此外,我们提出了知识原子化和知识感知的任务分解,以有效地从数据块中提取多方面的知识,并迭代地构基于原始查询和累积知识,分别构建理由,在各类基准测试中展现了卓越的性能。此外,我们引入了一种可训练的知悉知识的分解器,该分解器将特定领域的理由融入任务分解和寻求结果的过程中。

PIKE-RAG 框架主要由几个基本模块组成,包括文档解析、知识提取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解和协调。通过调整主模块中的子模块,可以实现专注于不同能力的 RAG 系统,以满足实际场景的多样化需求。

例如,在患者的历史病历搜索中,它侧重于事实信息检索能力。主要挑战是 (1) 知识的理解和提取经常受到不适当的知识分割的阻碍,破坏了语义的连贯性,导致检索过程复杂且效率低下;(2) 常用的基于嵌入的知识检索受到嵌入模型对齐专业术语和别名的能力的限制,从而降低了系统准确性。借助 PIKE-RAG,我们可以在知识提取过程中使用上下文感知分割技术、自动术语标签对齐技术和多粒度知识提取方法,从而提高知识提取和检索的准确性,从而增强事实信息检索能力,如下图所示。


对于为患者提供合理的治疗方案和应对措施建议等复杂任务,需要更高级的能力:需要强大的特定领域知识才能准确理解任务,有时还能合理分解;潜在趋势预测还需要先进的数据检索、处理和组织技术;同时,多智能体规划对于考虑创造力和依赖性也很有用。在这种情况下,可以初始化下面更丰富的管道来实现此目的。


在公开基准测试中,PIKE-RAG 在多个多跳问答数据集(如 HotpotQA、2WikiMultiHopQA 和 MuSiQue)上表现出出色的性能。与现有的基准测试方法相比,PIKE-RAG 在准确性和 F1 分数等指标上表现出色。在 HotpotQA 数据集上,PIKE-RAG 的准确率为 87.6%,在 2WikiMultiHopQA 上达到 82.0%,在更具挑战性的 MuSiQue 数据集上,准确率达到 59.6%。这些结果表明,PIKE-RAG 在处理复杂的推理任务方面具有显著优势,尤其是在需要集成多源信息和执行多步骤推理的场景中。


PIKE-RAG 已经过测试,显著提高了工业制造、采矿和制药等领域的问答准确性。未来,我们将继续探索其在更多领域的应用。此外,我们将继续探索其他形式的知识和逻辑,以及它们对特定场景的最佳适应。

  • 开源代码 https://github.com/microsoft/PIKE-RAG

  • 论文 PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation

    https://arxiv.org/abs/2501.11551

  • demo https://pike-rag.azurewebsites.net/


论文核心速览

研究背景

  1. 研究问题 这篇文章要解决的问题是现有的检索增强生成(RAG)系统在处理复杂和多样化的工业应用需求时存在不足。 具体来说,这些系统在提取、理解和应用领域特定知识以及构建连贯的推理逻辑方面存在局限性。

  2. 研究难点 该问题的研究难点包括: 知识来源的多样性、领域专业化的缺乏以及“一刀切”的应用场景。 现有方法在处理非文本知识、专业领域的术语和逻辑框架方面表现不佳,难以生成准确和有深度的答案。

  3. 相关工作 该问题的研究相关工作有RAG系统的初步提出、知识库的构建、多跳问答(MHQA)的方法等。 现有的RAG方法主要依赖于文本检索和LLM的理解能力,缺乏对多样化数据源中知识的有效提取和利用。

研究方法

这篇论文提出了sPecIalized KnowledgE and Rationale Augmentation Generation(PIKE-RAG)框架,用于解决现有RAG系统在工业应用中的不足。 具体来说, PIKE-RAG框架概览,包括几个关键组件: 文件解析、知识提取、知识存储、知识检索、知识组织、任务分解与协调以及以知识为中心的推理 。每个组件都可以定制以满足系统能力的不断发展的需求。架构概览如下:

图2:PIKE-RAG框架概览,包括几个关键组件:文件解析、知识提取、知识存储、知识检索、知识组织、任务分解与协调以及以知识为中心的推理。每个组件都可以定制以满足系统能力的不断发展的需求。

1. 方法论

1. 1框架

基于RAG系统在知识库、任务分类和系统级划分方面的制定,我们提出了一个多功能且可扩展的RAG框架。在此框架内,通过调整主模块内的子模块可以实现RAG系统级别的进阶。我们的框架概览如图2所示。该框架主要由几个基本模块组成,包括文件解析、知识提取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协调。在该框架中,不同格式的特定领域文档由文件解析模块处理,将其转换为机器可读格式,并生成文件单元以在信息源层构建图。知识提取模块将文本分块并生成语料库和知识单元,以在语料库层和精炼知识层构建图。所建立的异构图被用作检索的知识库。提取的知识以多种结构化格式存储,知识检索模块采用混合检索策略来访问相关信息。请注意,知识库不仅作为知识收集的来源,而且受益于一个反馈循环,其中经过组织和验证的知识被视为反馈来完善和改进知识库。

正如在任务分类示例中强调的那样,不同类别的问题需要不同的理由路由来进行答案寻找,这受到多种因素的影响,如相关信息的可用性、知识提取的复杂性和推理的复杂性。在单次检索和生成过程中解决这些问题是具有挑战性的。为了应对这一挑战,我们提出了一种由任务分解和协调监督的迭代检索-生成机制。这种迭代机制使得能够逐步收集相关信息并在增量上下文上进行渐进式推理,确保更准确和全面的回应。更具体地说,工业应用中的问题被输入到任务分解模块以生成初步的分解方案。该方案概述了检索步骤、推理步骤和其他必要操作。按照这些指示,知识检索 模块检索相关信息,然后传递给知识组织模块进行处理和组织。经过组织的知识用于执行以知识为中心的推理,得出一个中间答案。有了更新的相关信息和中间答案,任务分解模块重新生成下一次迭代的更新方案。这一设计具有出色的适应性,通过调整模块和迭代机制,我们可以应对不同难度和视角的问题。

表2:针对不同系统级别的建议框架。为了应对每个层面所面临的挑战,我们基于图2所示的框架提出了定制化框架。以下缩写用于说明:“PA”代表文件解析,“KE”代表知识提取,“RT”代表知识检索,“KO”代表知识组织,以及“KR”代表以知识为中心的推理。

1. 2 分阶段系统开发

我们根据RAG系统在四类问题上的问题解决能力,将其分为四个不同的等级,如表1所示。鉴于知识库生成在RAG系统中的关键作用,我们将构建知识库作为系统开发的L0阶段。RAG系统在不同等级面临的挑战各不相同。我们对每个等级的挑战进行了分析,并在表2中提出了相应的框架。这种分层方法有助于分阶段开发RAG系统,通过迭代模块的细化和算法的优化实现能力的逐步增强。

图3:作为知识库的多层异构图。该图包含三个不同的层次:信息资源层、语料库层和提炼知识层。

我们观察到,从L0到L4,高级系统可以继承来自低级系统的模块,并添加新模块以提升系统能力。例如,与L1系统相比,L2系统不仅引入了一个任务分解和协调模块来利用迭代检索-生成路由,还整合了更高级的知识提取模块,如图2中用深绿色表示的精炼知识生成。在L3系统中,对预测性提问的日益重视使得对知识组织和推理的要求提高。因此,知识组织模块引入了额外的子模块来进行知识结构和知识归纳,用深橙色表示。同样,以知识为中心的推理模块已经扩展,包括了一个预测子模块。以深紫色突出显示。在L4系统中,从已建立的知识库中提取复杂的理由极具挑战性。为了解决这个问题,我们引入了多代理规划模块,从不同角度激活推理。


2. 具体实现

在本节中,我们将深入探讨我们提出的多功能且可扩展的RAG框架内每个模块的实现细节。通过阐明每个级别的详细信息,我们的目标是全面理解框架如何运作以及其模块化和可扩展性是如何实现的。以下小节将涵盖文件解析、知识提取、知识存储、以知识为中心的推理以及任务分解和协调模块,提供对其各自功能和相互作用的见解。


2.1 0级:知识库构建

所提出的RAG系统的基础阶段被指定为L0系统,重点在于构建一个健壮且全面的知识库。这一阶段对于在后续级别实现有效的知识检索至关重要。L0系统的主要目标是处理和组织特定领域的文档,将它们转换成机器可读格式,并将提取的知识组织成一个异构图。该图表作为所有高级推理和检索任务的核心。L0系统包含几个关键模块:文件解析、知识提取和知识存储。每个模块在确保知识库既广泛又准确反映源文档中包含的底层信息方面起着至关重要的作用。

2.1.1 文件解析

有效解析和阅读各种类型的文件是依赖多样化数据源的RAG系统开发的关键组成部分。像LangChain3这样的框架提供了一套全面的自然语言处理(NLP)工具,包括用于解析和从非结构化文本文档中提取信息的模块。其文件读取功能旨在处理广泛的文件格式,确保来自异构来源的数据能够无缝集成到系统中。此外,已经开发了几个基于深度学习的工具[2,3]和商业云API[1, 4],以进行强大的光学字符识别(OCR)和准确的表格提取,使得扫描文档和图片转换为结构化的、机器可读的文本成为可能。


图4:从语料库文本中提炼知识的过程。语料库文本经过处理,按照定制的提取模式提取知识单元。这些知识单元随后被组织成提炼知识层中的结构化知识,可能表现为知识图谱、原子知识、表格知识以及其他归纳出的知识。

鉴于特定领域的文件通常包含复杂 表格、图表和图形的基于文本的转换可能会导致信息丢失,并破坏其内在的逻辑结构。因此,我们建议对这些文件进行布局分析,并保留诸如图表和图形等多模态元素。布局信息可以帮助分块操作,保持分块文本的完整性,而图形和图表可以通过视觉语言模型(VLMs)来描述,以协助知识检索。这种方法确保原始文档的完整性和丰富性得以保留,增强了RAG系统的有效性。

2.1.2 知识组织

所提出的知识库被构建为一个多层异构图,代表不同级别的信息粒度和抽象。该图捕捉数据各个组成部分(例如,文档、章节、块、图形和表格)之间的关系,并将它们组织成节点和边,反映它们的相互连接和依赖关系。如图3所示,这个多层结构涵盖了信息资源层、语料库层和提炼层。知识层,支持下游任务的语义理解和基于理由的检索。

信息资源层 :该层捕捉多样化的信息源,将其视为带有表示它们之间参照关系的边的源节点。这种结构有助于交叉引用和情境化知识,为依赖多个来源的推理奠定基础。

语料库层 :该层将解析后的信息组织成章节和块,同时保留文档的原始层次结构。如表格和图表等多模态内容由大型语言模型总结,并作为块节点整合,确保多模态知识可供检索。该层支持不同粒度的知识提取,允许跨多种内容类型进行准确的语义分块和检索。

精炼知识层 :语料库进一步被精炼成结构化形式的知识(例如,知识图谱、原子知识和表格知识)。这一过程由命名实体识别(NER)[20]和关系抽取[41]等技术驱动,确保精炼的知识捕捉关键的逻辑关系和实体,支持高级推理过程。通过在精炼层组织这种结构化知识,我们增强了系统基于更深层次的领域特定知识进行推理和综合的能力。知识精炼过程如图4所示。以下是典型知识形式的详细精炼过程。

● 知识图谱:利用大型语言模型从语料库文本中提取实体及其关系,生成“节点-边-节点”结构形式的知识单元,其中节点代表实体,边代表它们之间的关系。然后整合所有知识单元构建成图谱。

● 原子知识:语料库文本被划分为一组原子陈述,这些被视为知识单元。通过结合这些原子陈述与语料库节点之间的关系,生成原子知识。

● 表格知识:从语料库文本中提取具有指定类型和关系的实体对。这些实体对被当作知识单元,可以组合构建成表格知识。


图5:使用循环文本分割增强的分块效果示意图。

2.2 第一级:以事实问题为核心的RAG系统

在L0系统的基础上,L1系统引入知识检索和知识组织来实现其检索和生成功能。在这一层面面临的主要挑战是语义对齐和分块。专业术语和别名的丰富性可能会影响分块检索的准确性,不合理的分块可能会破坏语义连贯性并引入噪声干扰。为了缓解这些问题,L1系统采用了更复杂的查询分析技术和基础的知识提取模块。架构扩展以包含促进任务分解、协调和知识组织初期阶段的组件,确保系统能有效处理更复杂的查询。


图6:L1 RAG框架概览。正方形表示知识提取模块中增强的分块和自动标注子模块。

2.2.1 增强分块

分块涉及将大量文本语料库分解成更小、更易管理的片段。RAG系统中常用的主要分块策略包括固定大小分块、语义分块和混合分块。分块对于提高检索过程的效率和准确性至关重要,这反过来又会影响RAG模型在多个维度上的整体性能。在我们的系统中,每个分块具有双重目的:(i)它成为被向量化并存储在数据库中以供检索的信息单位,(ii)它作为进一步知识提取和信息总结的来源。不适当的分块不仅无法确保文本向量包含必要的语义信息,还会阻碍基于完整上下文的知识提取。例如,在法律法规的背景下,固定大小分块方法容易破坏文本语义并遗漏关键条件,从而影响后续知识提取的质量和准确性。

我们提出了一种文本分割算法,通过将大型文本文档分解成更小、易于管理的片段来增强现有的分块方法,同时保留上下文并为每个片段启用有效的摘要生成。分块过程如图5所示。给定一个源文本,


图7:自动标注模块的示意图。

算法迭代地将文本分割成多个块。在第一次迭代中,它生成初始块的前向摘要,为后续块的摘要生成提供上下文,并保持跨块分割的连贯叙述。每个块都使用一个预定义的提示模板进行总结,该模板结合了前向摘要和当前块的内容。然后将此摘要与块一起存储。算法通过移除已处理的块并用当前块的摘要更新前向摘要来调整文本,为下一次迭代做准备。这个过程持续进行,直到整个文本被分割并总结完毕。此外,算法可以根据文本的内容和结构动态调整块的大小。

2.2.2 自动标注

在特定领域的RAG场景中,语料库通常以正式、专业和严格表达的内容为特征,而提出的问题往往用简单易懂的日常口语表达。例如,在医学问答(medQA)任务[33]中,问题中描述的症状通常用简单的对话式术语表述。相比之下,语料库中相应的医学知识往往使用专业的专门术语来表达。这种差异引入了一个领域差距,对块检索的准确性产生不利影响,特别是鉴于用于此目的的嵌入模型的局限性。

为了解决领域差距问题,我们提出了一个自动标注模块,旨在最小化源文档与查询之间的差异。该模块对语料库进行预处理,提取一套全面的特定领域标签或建立标签映射规则。在检索过程之前,从查询中提取标签,然后使用预处理的标签集合或标签对集合将其映射到语料库领域。这种基于标签的领域适应可用于顺序信息检索框架内的查询重写或关键词检索,从而提高检索过程的召回率和精确度。

具体来说,我们利用大型语言模型(LLM)的能力来识别语料库块中的关键因素,总结这些因素,并将它们概括成类别名称,我们称之为“标签类别”。我们根据这些标签类别生成语义标签提取提示,以促进准确的标签提取。在仅有语料库的情况下,使用经过精心设计的提示,运用大型语言模型从语料库中提取语义标签,从而形成一个全面的语料库标签集合。当实际问答样本可用时,则对 查询和相应的检索到的答案块。使用从块和查询中提取的标签集,利用大型语言模型(LLMs)映射跨域语义标签并生成标签对集合。在建立了语料库标签集合和标签对集合之后,可以从查询中提取标签,并在集合内识别出相应的映射标签。这些映射标签随后被用来增强后续的信息检索过程,提高召回率和精确率。该工作流程利用LLMs的高级理解和上下文能力进行领域适应。

图8:异构图上多层多粒度检索概览

2.2.3 多粒度检索

L1系统设计用于在由L0系统构建的异构知识图谱上进行多层多粒度检索。图的每一层(例如,信息源层、语料库层、精炼知识层)代表不同抽象和粒度级别的知识,使系统能够探索并以各种规模检索相关信息。例如,查询可以映射到整个文档(信息源层)或特定文本块(语料库层),确保知识能够以适合给定任务的适当级别检索到。为了支持这一点,计算查询与图节点之间的相似度分数,以衡量查询与检索到的知识之间的对齐程度。这些分数随后通过图的各层传播,使系统能够从多个层级聚合信息。这种多层传播确保检索可以根据更广泛的上下文(例如,整个文档)和更细微的细节(例如,特定块或提炼的知识)进行微调。最终的相似性分数是通过聚合和传播的组合生成的,确保知识提取和利用在事实问答的精确性和效率上都得到优化。检索过程可以是迭代的,基于通过任务分解生成的子查询来完善结果,进一步增强系统生成准确且与上下文相关的答案的能力。

图8展示了多层、多粒度检索的概览。

2.3 第二层:以可链接和推理问题为重点的RAG系统

L2系统的核心功能在于其高效检索多个相关信息来源并根据这些信息进行复杂推理的能力。为了促进这一点,L2系统集成了一个先进的知识提取模块,全面识别并提取相关信息。此外,实施了一个任务分解与协调模块,将复杂任务拆分为更小、可管理的子任务,从而提高系统处理它们的效率。L2 RAG系统的提出框架如图9所示。


图:L2 RAG框架概览。方形()表示知识提取模块中的原子知识生成,而方形()代表知识起源模块中的知识重排和聚合子模块。此外,方形()表示以知识为中心推理模块中的多跳推理、比较推理、总结子模块。

分块文本包含多方面的信息,增加了检索的复杂性。最近的研究集中在从分块文本中提取三元知识单元,并构建知识图谱以方便高效的信息检索[21, 43]。然而,构建知识图谱的成本很高,且内在的知识可能并不总是被完全探索。为了更好地展示嵌入文档中的知识,我们提出在知识提取阶段对原始文档进行原子化处理,我们称这一过程为知识原子化。此外,工业任务通常需要多块知识,隐含地要求能够将原始问题分解为几个顺序或并行的原子问题。我们将此操作称为任务分解。通过将提取的原子知识与原始分块结合,我们构建了一个原子层次化的知识库。每次我们分解一个任务时,层次化知识库就会提供可用知识的洞察力,从而实现知识感知的任务分解。

2.3.1 知识原子化

我们认为单个文档块往往涵盖多个知识点。通常,处理特定任务所需的信息只是全部知识的一个子集。因此,像传统的信息检索那样将这些信息块整合在单一块中,可能不会促进高效检索所需的精确信息。为了使知识的粒度与解决问题过程中生成的查询相匹配,我们提出了一种称为知识原子化的方法。这种方法利用大型语言模型(LLM)的情境理解能力和内容生成能力,自动标记每个文档块内的原子知识片段。注意,这些块可以是原始参考文档的段落、为表格、图片、视频生成的描述块,或者整个章节甚至文档的摘要块。

原子知识的呈现方式可以多种多样。我们建议使用问题作为知识索引,而不是使用陈述句或主-谓-宾元组,以进一步弥合存储的知识与查询之间的差距。与语义标注过程不同,在知识原子化过程中,我们将文档块作为上下文输入给LLM,并要求它生成尽可能多的可以由给定块回答的相关问题。这些生成的原子问题连同给定的块一起保存为原子问题标签。图10(c)展示了知识原子化的一个例子,其中原子问题封装了块内包含的各种知识方面。分层知识库能够适应不同粒度的查询。图11展示了从包含块和原子问题的原子知识库中进行检索的过程。查询可以像往常一样直接检索参考块。此外,由于每个块都标记了多个原子问题,可以使用原子查询来定位相关的原子问题,进而找到相关联的参考块。

2.3.2 知识感知的任务分解

对于一个特定的任务,可能适用多种分解策略。以图1中的Q2为例。如果有一个可互换的生物类似产品列表可用,那么所描述的两步分析推理过程可能是有效的。然而,如果只存在一个生物类似产品的一般列表,其属性分散在多份文档中,则可能需要不同的分解策略:(1) 检索生物类似产品列表;(2) 确定每个产品是否可互换; (3) 计算可互换产品的总数。选择最有效分解方法的关键在于理解专业知识库的内容。受此启发,我们设计了知识感知任务分解工作流程,如图所示。使用知识感知任务分解进行问题解决的完整算法在算法1中呈现。

图10:知识原子化和知识感知任务分解的示意图:(a) 采用知识感知任务分解的问题解决工作流程,(b) 知识原子化的工作流程,(c) 知识原子化的示例,(d) 结合了知识原子化和知识感知任务分解的RAG案例。

2.3.3 知识感知任务分解器训练

值得一提的是,知识感知分解可以是一个可学习的组件。这个训练有素的建议器随后可以在推理过程中直接建议原子查询qt,这意味着算法1中的第3到5行可以被对这个学习到的建议器的单次调用替代,从而减少推理时间和计算成本。为了训练知识感知的分解器,我们通过采样上下文和创建多样的交互轨迹来收集关于每一步背后理由的数据。有了这些收集到的数据,我们训练一个分解器,它能够将特定领域的理由纳入任务分解和结果寻求过程中。

如图12和算法2所示的数据收集过程实施了一个复杂的双字典系统,用于管理和跟踪信息。我们的系统使用两个主要的数据结构:字典S用于维护全面的得分记录,字典V用于系统地跟踪候选块段的访问频率。在初始化阶段,我们通过将所有分数设为零并将访问计数器初始化为一来建立基线值,为后续处理阶段的动态更新奠定基础。

在我们的分解过程的每次迭代中,系统执行针对与当前原子问题最具相关性的前K'个块的详细检索操作。这些块必须满足我们的相似性阈值标准(具体来说,相似度超过δ′)。


图12:用于分解器训练的数据收集过程,包括四个主要组成部分:a) 从上下文采样池中采样数据块,作为问题分解的参考上下文,b) 保存生成的原子查询提议,c) 在检索和选择之后,保存选定的原子查询提议作为推理轨迹的一部分,d) 评估答案以生成分数。

图13:上下文采样的一个示例,以及使用收集数据进行分解器训练的示意图。

展望未来,实施和提升我们提出的分解器有若干有希望的方法。我们可以利用诸如监督微调(SFT)和直接策略优化(DPO)[46]等成熟的算法,基于现有的大型语言模型(LLM)来训练一个有效的分解器。这项全面程序的实际实施和性能评估,包括详细的实证分析与比较研究,将在未来的研究工作中进行探讨,以充分展示其有效性和潜在应用。

2.4 第三级:以预测问题为核心的RAG系统

在第三级系统中,更加强调基于知识的预测能力,这就需要有效的知识收集、组织以及构建预测理由。为了解决这一问题,我们利用任务分解与协调模块,基于从检索到的知识中收集并组织好的知识来构建预测理由。L3系统的框架如图14所示。为确保检索到的知识为高级分析和预测做好充分准备,知识组织模块通过专门的子模块进行增强,这些子模块致力于知识的构建和组织。这些子模块简化了将原始检索到的知识转换为结构化、连贯格式的过程,使其优化以用于后续推理和预测任务。例如,在……


图14:L3-RAG框架概览。正方形(□)表示知识组织模块中的知识构建和知识归纳,而正方形(■)代表以知识为中心的推理模块中的预测子模块。

在图1中提到的FDA情景中,来自多个来源的数据——如药品标签、临床试验和应用表格——被整合到多层知识库中。知识构建子模块遵循任务分解模块的指示,收集并组织从知识库检索到的相关知识(例如药品名称及其批准日期)。知识归纳子模块进一步将这种结构化知识分类,例如按批准日期分类,以便于进一步的统计分析和预测。

鉴于大型语言模型在应用专业推理逻辑方面的局限性,它们在预测任务中的有效性可能会受限。为了克服这一点,以知识为中心的推理模块通过增加一个预测子模块得到加强,使系统能够基于输入查询和组织好的知识(例如每年批准的药品总数)推断结果。这个预测子模块不仅使系统能够根据历史知识生成答案,还能进行预测,从而对复杂查询提供更强大、动态的响应。通过整合先进的知识构建和预测功能,L3系统能够更有效地管理和利用更加复杂和动态的知识库。

2.5 四级:以创造性问题为中心的RAG系统

L4系统实现的特点是整合多智能体系统,以促进多角度思考。解决创意问题需要创意思维,这种思维依赖于事实信息和对基本原理及规则的理解。在这个高级阶段,主要挑战包括从检索到的知识中提取连贯的逻辑理由、在众多影响因素中导航复杂的推理过程,以及评估对创意性、开放式问题的回应质量。为了应对这些挑战,系统协调多个智能体,每个智能体都贡献独特的见解和推理策略,如图15所示。这些智能体并行运作,综合各种思维过程以生成全面且连贯的解决方案。这种多智能体架构支持并行处理和整合多样的推理路径,确保对复杂查询的有效管理和响应。通过模拟不同的观点,L4系统增强了其解决创意问题的能力,生成创新想法而非预定义的解决方案。多个智能体的协调输出不仅丰富了推理过程,还为用户提供全面的视角,促进创意思维并激发解决复杂问题的新颖方案。


图15:L4-RAG框架概览。引入多智能体规划模块以实现多角度思考。

公式解释:

  • 知识感知任务分解算法(Algorithm 1)展示了如何通过迭代生成和选择原子问题来逐步构建答案。 具体步骤包括生成原子问题提案、从知识库中检索相关原子问题候选、选择和更新上下文等。

实验设计

  1. 数据收集 实验使用了多个公开数据集,包括HotpotQA、2Wiki-MultiHopQA和MuSiQue等多跳问答数据集,以及LawBench和Open Australian Legal QA等法律领域的基准数据集。

  2. 实验设置 实验方法包括Zero-Shot CoT、Naive RAG、Self-Ask、GraphRAG等方法,并与PIKE-RAG进行比较。 评估指标包括精确匹配(EM)、F1分数、准确率(Acc)、召回率和精确率。

  3. 参数配置 实验中使用的LLM包括GPT-4o和Llama-3.1-70B-Instruct等,采用监督微调(SFT)和参数高效的微调(PEFT)技术进行优化。

结果与分析

  1. 开放域基准测试 在HotpotQA、2Wiki-MultiHopQA和MuSiQue数据集上的实验结果表明,PIKE-RAG在处理复杂的多跳问答任务时表现优异,特别是在涉及多于两跳的复杂查询中。 与现有方法相比,PIKE-RAG在EM、F1、Acc、Precision和Recall等指标上均有显著提升。


  2. 法律领域基准测试 在LawBench和Open Australian Legal QA数据集上的实验结果显示,PIKE-RAG在法律知识的问答任务中表现出色,特别是在生成任务和选择题任务中。 与GraphRAG等方法相比,PIKE-RAG在F1和Acc指标上具有显著优势。

相关工作

1.RAG

检索增强生成(RAG)作为一种有前景的解决方案出现,它能有效地结合外部知识以增强响应生成。最初,检索增强技术被引入以提高预训练语言模型在知识密集型任务上的性能[36, 30, 13]。随着大型语言模型(如5、10、53、7号模型)的蓬勃发展,大部分在RAG范式中的研究已经转向一个框架,该框架最初从外部数据源检索相关信息,随后将其整合到查询提示的背景中,作为上下文相关生成的补充知识(如47号研究所述)。遵循这一框架,天真的RAG研究范式(如26号研究所述)将原始数据转换成统一的纯文本,并将其分割成较小的块,这些块被编码进向量空间以进行基于查询的检索。使用前k个相关块来扩展提示的背景以进行生成。为了提高天真RAG的检索质量,高级RAG方法在预检索、检索和后检索过程中实施了特定的增强措施,包括查询优化(如40、67号研究所述)、多粒度分块(如17、69号研究所述)、混合检索与块重排。

除了上述RAG范式之外,在模块化RAG系统(如27号研究所述)内引入了众多复杂的RAG流程和系统模块的增强措施,旨在提高系统的能力和多功能性。这些进步使得处理更多种类的源数据成为可能,促进了将原始信息转换为结构化数据,并最终转化为有价值知识(如60、21号研究所述)。此外,索引和检索模块已经通过多粒度和多架构方法得到了改进(如62、69号研究所述)。提出了各种预检索[25, 68]和后检索[19, 31]功能,以提高检索效果和序列生成的质量。人们认识到,简单的RAG系统不足以应对复杂任务,如总结[28]和多跳推理[54, 29]。因此,最近的研究重点在于开发高级协调方案,利用现有模块协同应对这些挑战。ITERRETGEN[49]和DSP[34]采用检索-读取迭代方式,利用生成响应作为下一轮检索的上下文。FLARE[32]提出了一种基于置信度的主动检索机制,根据重新生成的句子中低置信度标记动态调整查询。这些基于循环的RAG流程逐步收敛至正确答案,并为RAG系统提供了应对多样化需求的增强灵活性。

2.RAG的知识库

在简单的RAG方法中,源数据被转换为纯文本并进行分块以供检索。然而,随着RAG应用的扩展和对多样性的需求增长,基于纯文本的检索因以下几个原因变得不足:(1) 文本信息通常冗余且嘈杂,导致检索质量下降;(2) 复杂问题需要整合多个数据源,单靠纯文本无法充分表示对象之间的复杂关系。因此,研究人员正在探索多样的数据源以丰富语料库,包括搜索引擎[63,57]、数据库[59,42,48]、知识图谱[50,60]和多模态语料库[18,16]。同时,重点在于开发高效的语料库知识表示以增强知识检索。图因其直观建模复杂关系的能力而被视为强大的知识表示。GraphRAG[21]结合了知识图谱生成和以查询为中心的摘要与RAG,以解决局部和全局问题。HOLMES[43]构建了超关系知识图谱并将其剪枝为精炼图,这些图作为大型语言模型(LLMs)进行多跳问答的输入。然而,构建知识图谱极其资源密集,相关成本随着语料库大小的增加而扩大。

3. 多跳问答

多跳问答(MHQA)[64]涉及回答需要跨多个信息片段进行推理的问题,这些信息通常分散在不同的文档或段落中。这项任务呈现出独特的挑战,因为它不仅需要检索相关信息,还需要有效地组合和推理检索到的信息片段以得出正确答案。MHQA中的传统基于图的方法通过构建图并在图神经网络(GNN)上进行推理来预测答案[45, 22]。随着大型语言模型的出现,最近的基于图的方法[37, 43]已经演变为构建用于检索的知识图谱并通过大型语言模型生成响应。另一种方法分支通过基于前一个问题的答案生成后续问题,动态地将多跳问题转换成一系列子查询[55, 34, 24]。这些子查询指导顺序检索,而检索到的结果又用来改进推理。将多跳问答(MHQA)视为一个有监督的问题,自我引导的RAG[65]训练语言模型来学习检索、生成和批评文本段落,而束检索[8]则通过联合优化所有跳转的编码器和分类头来以端到端方式对多跳检索过程进行建模。自我提问[44]在回答初始问题之前,通过明确地自问后续问题来改进CoT。这种方法使得问题的自动分解成为可能,并且可以与检索机制无缝集成,以解决多跳问答问题。

4.问题表述

现有研究主要集中在算法增强上,以提高RAG系统的性能。然而,在全面系统地讨论RAG框架方面所做的努力有限。在这项工作中,我们从三个关键角度对RAG框架进行了概念化:知识库、任务分类和系统开发。我们认为知识库是RAG的基础基石,支撑所有检索和生成过程。此外,我们认识到RAG任务的复杂性和难度可能会有显著变化,这取决于所需的生成能力和支持语料库的可用性。通过根据任务的难度级别进行分类,我们根据问题解决能力将检索增强生成(RAG)系统分为不同的级别,适用于不同类型的问题。

5. 知识库

在工业应用中,专业知识主要来源于特定领域多年积累的数据,如制造、能源和物流等领域。例如,在制药行业,数据来源包括广泛的研究与开发文档,以及多年来积累的药物申请文件。这些资源不仅在文件格式上多样化,还包含大量多模态内容,如表格、图表和图形,这些对于问题解决同样至关重要。此外,专业领域内的文件之间往往存在功能连接,如超链接、引用和关系数据库链接,这些直接或间接反映了专业领域内知识的逻辑组织。目前现有的数据集提供了预分段的语料库,并未考虑现实世界应用中遇到的复杂性,如多格式数据的整合以及文档间参照关系的维护。因此,构建一个全面的知识库是工业领域检索增强生成(RAG)的基础。由于知识库的结构和质量直接影响检索方法及其性能,我们建议将知识库构建为一个多层异构图,记作G,其节点和边分别由(V,E)表示。图中的节点可以包括文档、章节、块、图表、表格以及从提炼知识中得到的定制节点。边表示这些节点之间的关系,封装了图内的相互连接和依赖性。这个多层异构图包含三个不同的层次:信息资源层、语料库层和提炼知识层 。每一层对应于信息处理的不同阶段,代表知识的不同粒度和抽象层次。

总体结论

这篇论文提出了PIKE-RAG框架,通过有效地提取、理解和组织专业知识,并构建连贯的推理逻辑,解决了现有RAG系统在工业应用中的不足。 PIKE-RAG框架在多个公开数据集和法律领域基准测试中表现出色,展示了其在处理复杂和多跳问答任务中的优越性能。 该框架的贡献在于提出了一种新的任务分类范式,并设计了相应的PIKE-RAG框架,能够逐步提升RAG系统的能力,满足工业应用的多样化需求。

论文评价

优点与创新

  1. 任务分类与系统能力分层 提出了基于知识提取、理解和利用难度的任务分类方法,为系统设计提供了新的概念框架,支持系统的分阶段开发和增强。

  2. PIKE-RAG框架 引入了专门的知识与推理增强生成(PIKE-RAG)框架,专注于专业知识的提取和推理构建,增强了系统的能力。

  3. 知识原子化和知识感知任务分解 提出了知识原子化和知识感知任务分解方法,有效应对复杂问题,如多跳查询,在多个基准测试中显著提高了性能。

  4. 可训练的知识感知分解器 引入了一种可训练的知识感知分解器,将领域特定的推理融入任务分解和结果寻求过程中。

  5. 多层次异构图 构建了多层次异构图作为知识库,增强了知识组织和集成能力。

  6. 多粒度检索 在事实问题解决系统中引入了多粒度检索,允许在异构知识图上进行多层、多粒度的检索,提高事实检索的准确性。

  7. 阶段式系统发展 提出了阶段式系统发展策略,逐步细化RAG算法和应用的实现。

不足与反思

  1. 知识库构建的复杂性 从原始、异构数据构建高质量知识库引入了显著的复杂性和知识组织与集成的挑战。

  2. 语义对齐和分块问题 在L1系统中,理解和提取知识的难度受到不恰当分块的影响,扰乱了语义连贯性,增加了准确检索的难度。

  3. 嵌入模型的局限性 知识检索受限于嵌入模型在匹配专业术语和别名方面的能力,降低了系统的精度。

  4. 预测任务的限制 LLMs在应用专门推理逻辑方面存在限制,限制了它们在预测任务中的有效性。

  5. 创造性问题的评估 开放性问题要求评估推理和知识综合过程的质量,这使得定量评估答案质量变得困难。

  6. 未来研究方向 未来的研究可以探索如何利用现有的算法(如监督微调和直接策略优化)来训练有效的分解器,并详细评估其实际应用和潜在应用。

关键问题及回答

问题1:PIKE-RAG框架如何通过多层异构图来表示知识库,并增强知识的组织和集成?

PIKE-RAG框架提出了一个多层异构图来表示知识库,包括信息资源层、语料库层和蒸馏知识层。 每层对应不同层次的信息粒度和抽象,增强了知识的组织和集成。

  • 信息资源层 捕捉多样化的信息源,将这些信息源视为节点,并用边表示它们之间的引用关系。 这有助于跨参考和上下文化知识,建立依赖关系的基础。

  • 语料库层 将解析后的信息组织成段落和块,同时保留文档的原始层次结构。 多模态内容(如表格和图表)通过LLM总结并作为块节点,确保多模态知识可用于检索。

  • 蒸馏知识层 将语料库进一步蒸馏成结构化形式的知识,如知识图谱、原子知识和表格知识。 这些结构化知识通过命名实体识别(NER)和关系提取等技术提取,确保关键逻辑关系和实体被捕捉,支持高级推理过程。

这种多层异构图的设计使得知识库不仅能够表示丰富的信息,还能通过不同层次的抽象和粒度支持复杂的推理和生成任务。

问题2:PIKE-RAG框架中的知识原子化和知识感知的任务分解方法是如何提高系统性能的?

  1. 知识原子化







请到「今天看啥」查看全文