专栏名称: 知识图谱科技

务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱，大语言模型GenAI)以及医药大健康、工业等行业落地案例，产品市场进展，创业商业化等

MedGraphRAG最新版：探索医学大模型领域的未来新革命 - 牛津&CMU

知识图谱科技 · 公众号 · · 2024-11-15 07:47

正文

摘要

GraphRAG( GraphRAG：设计模式，挑战和落地指南 )代表了一组新兴的技术，这些技术将知识图谱与大型语言模型合并，以增强检索增强生成。然而，缺乏标准化导致了各种各样的实现，每种实施都有其独特的优势和挑战。在贝莱德&英伟达 - HybridRAG：整合GraphRAG和VectorRAG以实现金融信息高效提取中，探讨了 Nvidia 和 Blackrock 开发的一个系统，该系统集成了 RAG/VectorRAG 和 GraphRAG 方法来分析复杂的财务文件，例如财报电话会议记录。这种方法不仅在忠实度、答案相关性和上下文精度等关键指标上优于传统方法，而且还突出了集成的 GraphRAG 系统有效管理特定领域语言和驾驭非结构化数据中错乱关系的能力。

但 GraphRAG 的潜力远远超出了资产负债表和市场预测的范围。随着来自不同领域的更多示例应用程序的上线，我们开始看到这种方法的真正多功能性和潜力。本文重点介绍最新的 MedGraphRAG ，第一版发表于2024年8月8日，最新版更新于 2024年10月15日。这是一个创新的研究原型，它扩展了 GraphRAG 框架，以应对医疗信息检索和分析的独特挑战。可以参考之前对医学GraphRAG的文章介绍 医学GraphRAG：通过知识图谱检索增强实现安全医疗大语言模型 - 牛津大学最新论文

MedGraphRAG：以精确和透明的方式提升医疗 AI

MedGraphRAG ，一个创新的医疗信息检索和分析研究原型，将图结构与大型语言模型结合，以提高医疗诊断的准确性、透明度和临床工作流程集成度，并通过分层图结构和U-检索策略增强信息检索能力。

MedGraphRAG 是一个框架，旨在解决在医学中应用 LLM 的挑战。它使用基于图谱的方法来提高诊断准确性、透明度并集成到临床工作流程中。该系统通过生成由可靠来源支持的响应来提高诊断准确性，解决了在大量医疗数据中维护上下文的困难。

MedGraphRAG 具有用于链接医疗实体的分层图结构以及用于结合自上而下和自下而上的信息检索的 U 检索策略，适合我们上一篇文章中描述的具有语义聚类架构的知识图谱。这种一致性在 MedGraphRAG 通过其分层图形结构将医学信息组织成语义集群的方法中尤为明显，体现了我们之前讨论的架构原则的实际应用。

MedGraphRAG 通过分层组织信息并跟踪 AI 生成的响应的来源来提高透明度和可解释性。这使医疗专业人员更容易验证输出，从而有可能建立对影响重要医疗决策的 AI 系统的信任。

与需要大量微调的传统方法不同，MedGraphRAG 提供了一种更灵活的临床工作流程集成方法。这种适应性源于其独特的架构，通过消融研究验证了其核心组件的有效性。这些组件有助于 MedGraphRAG 在医学问答基准测试中证明的准确性和可靠性的改进。虽然这些初步结果很有希望，但需要进一步的研究和真实世界评估，以充分评估其对医疗保健服务和结果的潜在影响。

Key Takeaways:

* MedGraphRAG 结合图结构和大型语言模型来改进医疗信息检索和分析，提高诊断准确性和透明度。

* 它采用分层图结构组织医疗信息，并使用 U-检索策略结合自顶向下和自底向上的信息检索。

* MedGraphRAG 通过追踪 AI 生成响应的来源，提高了透明度和可解释性

* 该框架在医疗问答基准测试中取得了令人鼓舞的准确性和可靠性改进。

* 未来需要扩展数据集、优化效率和可扩展性、整合多模态数据以及进行用户研究。

* MedGraphRAG 的核心组件包括文档分块、实体提取和图谱构建、关系链接和元图创建以及 U-检索信息检索。

正文

核心速览

研究背景

研究问题： 这篇文章要解决的问题是如何在医学领域中使用基于图的检索增强生成（RAG）框架来提高大型语言模型（LLM）生成基于证据的医疗响应的能力，从而在处理私有医疗数据时提高安全性和可靠性。
研究难点： 该问题的研究难点包括：医学领域依赖于庞大的知识库，这些知识难以适应当前LLM的有限上下文窗口；医学领域对术语系统的精确性和事实的确定性要求极高，LLM不能扭曲、修改或引入创造性元素；验证医学响应的准确性对于非专家用户来说特别具有挑战性。
相关工作： 该问题的研究相关工作包括检索增强生成（RAG）技术、基于图的RAG（GraphRAG）方法等。RAG技术可以在不需要进一步训练模型的情况下使用特定和私有的数据集回答用户查询，但在综合理解广泛文档方面表现不佳。GraphRAG通过构建知识图并从图中检索知识来增强响应，显著提高了复杂推理的表现，但其图构建缺乏确保响应真实性和可信度的特定设计。

研究方法

这篇论文提出了MedGraphRAG，一种专门用于医学领域的基于图的RAG框架。具体来说

1. 三元组图谱构建： 首先，作者提出了一种独特的三元组图构建方法，将用户RAG数据与可信的医疗来源和受控词汇表连接起来。该过程生成三元组[RAG数据, 来源, 定义]以构建用户文档的综合图。具体步骤包括：

语义文档分块：将大医学文档分割成符合LLM上下文限制的数据块。采用字符分离和主题语义分区的混合方法，利用行分隔符隔离段落，并使用图构建LLM确定是否将当前段落包含到当前块中。
实体提取：从每个块中提取实体，生成包含名称、类型和上下文的结构化输出。
三元组链接：构建仓库图（RepoGraph），将用户RAG文档与可信来源和专业定义连接起来。RepoGraph分为基于医学论文/书籍和基于医学词典的两层。
关系链接：识别RAG实体之间的关系，生成简洁的关系短语，指定源和目标实体及其关系描述。

2. U-Retrieval： 其次，作者提出了一种独特的U-Retrieval策略，以响应用户查询。该方法结合了自上而下的精确检索和自下而上的响应细化，平衡全局上下文意识和检索效率。具体步骤包括：

图标签化：使用预定义的医学标签总结每个Meta-MedGraph，并迭代生成更抽象的标签摘要。
U-Retrieval：首先生成用户查询的标签摘要，并使用自上而下的方法检索最相关的图。然后，自下而上地逐步整合更高层次的标签，直到生成最终答案。

实验设计

数据集：实验使用了多个数据集，包括MIMIC-IV电子健康记录数据集、MedC-K生物医学学术论文和教科书数据集、FakeHealth和PubHealth公共卫生事实验证数据集，以及一个收集的多层次健康问答数据集DiverseHealth。
实验设置：比较了不同RAG方法在6种语言模型上的表现，包括Llama2、Llama3、Gemini-pro和GPT-4。使用Llama3-70B构建图，文本嵌入使用OpenAI的text-embedding-3-large模型。模型比较使用5次响应集成进行评估。MedGraphRAG在GPT-4上使用U-Retrieval的4个层次，在其他模型上使用5个层次。在检索中，选择前60个实体及其16跳邻居。所有阈值均设置为0.5。

结果与分析

1.多选题评估：MedGraphRAG在健康和医学问答基准测试中显著提高了LLM的性能。与没有检索的基线相比，MedGraphRAG在事实检查和医学问答基准测试中分别平均提高了近10%和8%。与使用GraphRAG的基线相比，分别提高了约8%和5%。特别是在较小的LLMs（如Llama2-13B和Llama2-70B）中，MedGraphRAG表现出更显著的改进。

2.长形式生成评估：人类评估显示，MedGraphRAG在所有指标上均获得了更高的评分。特别是在引用精度（CP）、引用召回率（CR）和可理解性（Und.）方面，MedGraphRAG表现出显著优势，表明其响应更有可能得到准确来源的支持，并且更容易被理解和接受。

3. 消融研究：通过消融研究验证了所提出模块的有效性。逐步添加Med-MetaGraph、三元组图构建和U-Retrieval模块后，性能逐渐提高。特别是将GraphRAG的图构建替换为三元组图构建后，性能显著提高。

总体结论

MedGraphRAG通过其基于图的RAG框架，使用三元组图谱构建和U-Retrieval方法，增强了基于证据、上下文感知的响应。其在基准测试和人类评估中的强大表现表明了其确保复杂医学推理准确性的能力。未来的工作将集中在实时数据更新和在实际临床数据上的验证。

实施步骤：

准备三层数据结构，包括私有文档、医学文献和医学词典。
实现文档分块和实体提取管道。
开发图谱构造和融合算法。
创建用于查询图形的 U-retrieve 机制。
与 LLM 集成，用于实体提取、关系识别和响应生成。

使用 GraphRAG 探索医疗 AI 的未来

扩展 MedGraphRAG 以包括更多不同的数据集和医学专业对于提高其通用性至关重要。但真正的考验将是它在实时临床环境，其中风险最高。AI 在决策支持系统中的作用越来越大，像 MedGraphRAG 这样的框架可能很快就会成为日常医学实践中不可或缺的一部分。

必须进一步优化图构建和检索过程的效率和可扩展性。这不仅仅是一个技术障碍;确保 MedGraphRAG 能够在快节奏的临床环境中有效运行至关重要。此外，将多模态数据（例如医学成像）集成到图形结构中可以进一步增强框架的功能，为医疗专业人员提供更丰富的见解。

为了跟上最新发展的步伐，由于医学是一个不断发展的领域，因此必须不断更新知识图谱，提供新的医学研究和发现。为了确保这些系统保持相关性和有效性，与医疗专业人员进行的广泛用户研究对于评估 MedGraphRAG 在临床实践中的实用性和接受度也至关重要。

论文评价

优点与创新

首次提出：首次提出了专门应用于医学领域的基于图检索增强生成（RAG）框架，命名为MedGraphRAG。
独特的三元组图构建和U检索技术：开发了独特的三元组图构建和U检索方法，使LLMs能够高效生成基于证据的响应。
超越现有方法：在广泛的医学问答基准测试中，MedGraphRAG的表现优于现有的标准RAG和GraphRAG模型，并在多个医学语料库上设立了新的最先进（SOTA）水平。
人类评估验证：通过人类评估验证，MedGraphRAG能够提供更可理解和基于证据的响应，特别是在复杂医学推理方面。
全面的比较：在多个基准测试中，MedGraphRAG显著提高了LLMs的性能，特别是在健康事实检查和医学问答任务中。

不足与反思

实时数据更新：未来的工作将集中在实时数据更新和在实际临床数据上的验证。

关键问题及回答

问题1：MedGraphRAG在图谱构建方面有哪些独特的设计，这些设计如何提高其在医学领域的应用效果？

MedGraphRAG在图构建方面提出了两项独特的设计： Triple Graph Construction 和 U-Retrieval 。

1. Triple Graph Construction ： 该方法通过生成三元组[RAG数据, 来源, 定义]来构建用户文档的综合图谱。具体步骤包括：

语义文档分块：将大医学文档分割成符合LLM上下文限制的数据块，采用字符分离和主题语义分区的混合方法。
实体提取：从每个块中提取实体，生成包含名称、类型和上下文的结构化输出。

使用 LLM 在每个块中识别相关的医学实体（例如，症状、疾病）。这些实体按名称、类型和描述进行分类，并跨三层分层图谱结构链接：

顶层：用户提供的医疗文件。
中级：来自教科书和学术文章的基础医学知识。
底层：来自 UMLS 等医学词典的明确定义的医学术语及其关系。

三元组链接：构建仓库图（RepoGraph），将用户RAG文档与可信来源和专业定义连接起来。RepoGraph分为基于医学论文/书籍和基于医学词典的两层。
关系链接：识别RAG实体之间的关系，生成简洁的关系短语，指定源和目标实体及其关系描述。

这种设计确保了生成的响应能够追溯到其来源和定义，提高了响应的可信度和可解释性。

2.U-Retrieval： 该方法结合了自上而下的精确检索和自下而上的响应细化，平衡全局上下文意识和检索效率。具体步骤包括：

图标签化：使用预定义的医学标签总结每个Meta-MedGraph，并迭代生成更抽象的标签摘要。
U-Retrieval ：首先生成用户查询的标签摘要，并使用自上而下的方法检索最相关的图。然后，自下而上地逐步整合更高层次的标签，直到生成最终答案。

这种检索策略使得LLM能够在保持高效的同时，获取全面的上下文信息，从而生成更准确和可靠的响应。

问题2：MedGraphRAG在实验中表现如何，与其他方法相比有哪些优势？

多选题评估：在健康和医学问答基准测试中，MedGraphRAG显著提高了LLM的性能。与没有检索的基线相比，MedGraphRAG在事实检查和医学问答基准测试中分别平均提高了近10%和8%。与使用GraphRAG的基线相比，分别提高了约8%和5%。特别是在较小的LLMs（如Llama2-13B和Llama2-70B）中，MedGraphRAG表现出更显著的改进。
长形式生成评估：人类评估显示，MedGraphRAG在所有指标上均获得了更高的评分。特别是在引用精度（CP）、引用召回率（CR）和可理解性（Und.）方面，MedGraphRAG表现出显著优势，表明其响应更有可能得到准确来源的支持，并且更容易被理解和接受。
消融研究：通过消融研究验证了所提出模块的有效性。逐步添加Med-MetaGraph、三元组图构建和U-Retrieval模块后，性能逐渐提高。特别是将GraphRAG的图构建替换为三元组图构建后，性能显著提高。

与其他方法相比，MedGraphRAG的优势在于其独特的图构建和检索策略，这些设计使其能够生成更准确、更可靠且更具可解释性的医学响应。此外，MedGraphRAG在多个基准测试和人类评估中均表现出色，确立了一个新的最先进（SOTA）水平。

问题3：MedGraphRAG的未来工作方向是什么？

实时数据更新：未来的工作将集中在实时数据更新上，以确保MedGraphRAG能够利用最新的医学数据和研究成果。

MedGraphRAG最新版：探索医学大模型领域的未来新革命 - 牛津&CMU

正文

请到「今天看啥」查看全文