MedRAG：利用知识图谱引导推理提升医疗Copilot的RAG能力 - 新加坡南洋理工等

知识图谱科技 · 公众号 · · 2025-02-12 07:58

正文

摘要

检索增强生成（RAG）是一种适用于检索敏感电子健康记录（EHR）的合适技术。它可以作为医疗副驾驶员Copilot的关键模块，帮助减少医疗从业者和患者的误诊。然而，现有基于启发式的医疗领域RAG模型的诊断准确性和特异性不足，特别是对于症状相似的疾病。本文提出MedRAG，一种通过知识图谱（KG）引导推理提升的医疗领域RAG模型，根据症状检索诊断和治疗建议。MedRAG系统地构建了一个全面的四层分级诊断知识图谱，涵盖各种疾病的关键诊断差异。这些差异与从EHR数据库检索到的相似EHR动态整合，并在大型语言模型中进行推理。这一过程使决策支持更加准确和具体，同时也主动提供后续问题以增强个性化医疗决策。MedRAG在公共数据集DDXPlus和从新加坡陈笃生医院收集的私人慢性疼痛诊断数据集（CPDD）上进行了评估，其性能与各种现有的RAG方法进行了比较。实验结果显示，利用知识图谱的信息整合和关系能力，我们的MedRAG提供了更具体的诊断洞察力，并在降低误诊率方面优于最先进的模型。我们的代码将在 https://github.com/SNOWTEAM2023/MedRAG 上可用。

[2502.04413] MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot

https://arxiv.org/abs/2502.04413

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何在医疗领域中使用检索增强生成（RAG）技术来提高诊断的准确性和特异性，特别是对于症状相似的疾病。
研究难点：该问题的研究难点包括：现有基于启发式的RAG模型在处理相似症状的疾病时表现不佳，难以提供精确的诊断和个性化的治疗建议。
相关工作：该问题的研究相关工作有：LLMs和RAG在医疗领域的应用，知识图谱增强LLMs和RAG的研究。现有的医疗RAG和LLMs通常依赖于启发式方法，导致输出不准确或模糊，特别是在疾病症状相似的情况下。

研究方法

这篇论文提出了MedRAG，一种通过知识图谱引导推理的RAG模型，用于解决医疗领域的诊断问题。具体来说，

诊断知识图谱构建：首先，系统地构建一个四层 hierarchical 诊断知识图谱，涵盖各种疾病的临界诊断差异。通过疾病聚类和层次聚合技术，从EHR数据库中提取潜在诊断和相应的症状。然后，使用大型语言模型（LLM）增强图谱，添加关键的诊断差异。
诊断差异知识图谱搜索：通过将患者症状分解为临床特征（如症状和位置），并在诊断知识图谱中进行多级匹配和向上遍历，识别与输入患者相关的关键诊断差异知识图谱。
KG引导推理RAG ：最后，结合检索到的EHR和诊断差异知识图谱，在大语言模型中进行推理，生成精确的诊断、治疗建议和后续问题。该模块包括文档检索器和KG引导推理LLM引擎。

公式解释：

知识图谱构建过程中，疾病知识图谱 D 通过层次聚合生成：
诊断差异知识图谱搜索过程中，通过多级匹配和向上遍历，识别与患者症状最相关的疾病子类别：
RAG过程中，结合检索到的EHR和诊断差异知识图谱进行推理：

实验设计

数据集：使用两个数据集进行评估，一个是公共数据集DDXPlus，另一个是私人数据集CPDD。DDXPlus是一个大规模合成的EHR数据集，包含49种诊断和超过130万名患者。CPDD是一个专注于慢性疼痛患者的专用EHR数据集，包含551名患者和33种诊断。
基线模型：与六种其他SOTA RAG模型进行比较，包括Naive RAG+COT、FL-RAG、FS-RAG、FLARE、DRAGIN和SR-RAG。
评估指标：使用准确性、特异性和文本生成指标（如BERTScore、BLEU、ROUGE、METEOR）进行评估。此外，还进行了主观评估，由医生根据Mini-CEX标准对生成的报告进行评分。

结果与分析

定量比较：在CPDD和DDXPlus数据集上，MedRAG在多个指标上表现最佳或次优。在CPDD数据集上，MedRAG在L3指标上比第二好的模型高出11.32%。在DDXPlus数据集上，MedRAG在L3指标上比第二好的模型高出1.23%。
兼容性、泛化性和适应性：在不同的大型语言模型（如Mixtral-8x7B、Qwen-2.5、Llama-3.1-Instruct、GPT-3.5-turbo和GPT-4o）上，MedRAG显著提高了诊断准确性。特别是对于较小的模型，KG引导推理显著提升了性能。
主动诊断提问机制：通过目标导向的提问，MedRAG逐步收集了更多关键细节，显著提高了诊断准确性。当覆盖到100%的关键症状时，L3准确性从52.83%提高到66.04%。
消融研究：评估了不同组件的有效性，结果表明检索器和KG引导推理模块显著提高了性能。随机选择的文档比没有文档的情况表现更好，加入正确的KG增强知识后，噪声效应得到缓解，准确性在所有指标上都有提升。

总体结论

MedRAG通过整合KG引导推理与RAG模型，显著提高了医疗领域的诊断准确性和特异性。系统性地检索和推理EHR，动态地结合关键的诊断差异知识图谱，提供了更精确的诊断和个性化的治疗建议。此外，MedRAG的主动诊断提问机制证明其有效性，能够向医生和患者提供有针对性的问题，增强诊断性能和咨询效率。公共和私人数据集的评估表明，MedRAG在减少相似症状疾病的误诊率方面表现优异，展示了其在医疗助手中的潜力。未来工作包括整合多模态数据（如医学影像、生理信号数据和血液测试数据）以进一步提高诊断准确性，并将MedRAG部署到实际的医疗助手系统中。

论文评价

优点与创新

系统构建四层诊断知识图谱：MedRAG通过系统构建一个四层诊断知识图谱，涵盖各种疾病的关键诊断差异，显著提高了推理能力。
增强的RAG方法：提出了一种结合知识图谱推理的RAG方法，显著提高了RAG在做出准确和高度特定诊断决策方面的能力。
个性化治疗建议和药物指导：不仅支持个性化治疗建议，还能在必要时主动生成后续问题，进一步澄清模糊的患者信息。
跨LLM的鲁棒性：在各种LLM上展示了强大的泛化能力，并证明了其在生成基于推理的后续诊断问题方面的有效性。
公共和私有数据集的综合评估：在公共数据集DDXPlus和私有数据集CPDD上的综合实验表明，MedRAG在减少相似表现疾病的误诊率方面优于现有的RAG模型。
主动诊断提问机制：提出了一个优化的主动诊断提问机制，能够在初始输入缺乏关键信息时，提供有针对性的后续问题，增强诊断性能。

不足与反思

未来工作：计划通过整合多模态数据（如医学影像、生理信号数据和血液测试数据）来进一步提高诊断准确性，并将MedRAG部署到实际的医疗辅助系统中进行医院测试。
用户体验改进：为了提高医生的使用便利性，计划将语音识别模块集成到系统中，使其能够在咨询过程中被动地听取医生和患者的对话，并提供实时的后续问题和相关解释。

关键问题及回答

问题1：MedRAG在构建诊断知识图谱时，如何确保图谱的详细性和准确性？

MedRAG通过以下步骤确保诊断知识图谱的详细性和准确性：

疾病聚类：首先，使用疾病聚类技术将EHR数据库中的疾病统一表示，确保同一疾病的不同形式和表示被归为一类。
层次聚合：通过层次聚合技术，将疾病聚类结果进一步聚合为更广泛的类别和子类别，形成四层 hierarchical 诊断知识图谱。
大型语言模型增强：利用大型语言模型（LLM）的语义理解和主题提取能力，对图谱进行增强，添加关键的诊断差异信息。
临床特征匹配：通过将患者症状分解为临床特征（如症状和位置），并在诊断知识图谱中进行多级匹配和向上遍历，确保图谱中包含详细的疾病特征和诊断差异。

问题2：MedRAG的诊断差异知识图谱搜索模块是如何工作的？请详细描述其过程。

症状分解：将患者的症状描述分解为更详细的临床特征，如症状和位置。
特征匹配：计算每个特征与诊断知识图谱中节点（疾病或症状）的语义相似度，选择最相似的特征节点。
多级匹配和向上遍历：通过多级匹配和向上遍历，识别与患者症状最相关的疾病子类别。具体来说，计算每个特征节点到各疾病子类别的最短路径距离，并通过投票机制确定最相关的疾病子类别。
生成诊断差异知识图谱：将识别出的关键诊断差异知识图谱与患者症状进行关联，形成完整的诊断差异知识图谱，用于后续的推理过程。

问题3：MedRAG在不同大型语言模型上的表现如何？其兼容性和适应性如何？

MedRAG在不同大型语言模型（LLMs）上均表现出色，证明了其兼容性和适应性。具体表现如下：

兼容性：MedRAG能够在多种开源和闭源的大型语言模型（如Mixtral-8x7B、Qwen-2.5、Llama-3.1-Instruct、GPT-3.5-turbo和GPT-4o）上运行，并显著提高诊断准确性。
适应性：MedRAG在不同类型的LLMs上均表现出较高的诊断准确性，特别是在使用GPT-4o作为 backbone LLM 时，表现最为出色，显示出其强大的适应性和推理能力。
消融研究：通过消融研究评估了不同组件的有效性，结果表明，引入知识图谱引导推理显著提高了MedRAG在不同LLMs上的诊断准确性，特别是在小型模型中效果更为显著。