专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
Excel之家ExcelHome  ·  字符拆分还不会,年终发奖两行泪 ·  3 天前  
鹤城发布  ·  多家银行宣布:下调 ·  2 天前  
鹤城发布  ·  多家银行宣布:下调 ·  2 天前  
中国人民银行  ·  李强在国务院第三次廉政工作会议上强调 ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

人工智能 | NatMed | 用于疾病诊断辅助的通用医学语言模型

生信菜鸟团  · 公众号  ·  · 2025-01-16 14:51

正文

Basic Information

  • 英文标题:A generalist medical language model for disease diagnosis assistance
  • 中文标题:用于疾病诊断辅助的通用医学语言模型
  • 发表日期:08 January 2025
  • 文章类型:Article
  • 所属期刊:Nature Medicine
  • 文章作者:Xiaohong Liu | Guangyu Wang
  • 文章链接:https://www.nature.com/articles/s41591-024-03416-6

Abstract

Para_01
  1. 准确的诊断交付在医疗保健中至关重要,它是适当和及时治疗的起点。
  2. 尽管最近的大规模语言模型(LLM)在少量或零样本学习中展示了令人印象深刻的能力,但它们在临床诊断中的有效性仍未得到证明。
  3. 在这里我们介绍了MedFound,一个具有1760亿参数的一般性医学语言模型,它是在从多种医学文本和现实世界临床记录中衍生出的大规模语料库上预训练的。
  4. 我们进一步微调了MedFound,采用基于自我引导策略的推理链方法来学习医生的推断性诊断,并引入了一个统一的偏好对齐框架以使其与标准临床实践保持一致。
  5. 广泛的实验表明,我们的医学LLM在八个专科的常见疾病、外部验证(分布外)和罕见疾病(长尾分布)场景下,优于其他基线LLM和专业模型。
  6. 进一步的消融研究表明,我们医学LLM训练方法中的关键组件的有效性。
  7. 我们进行了全面评估,涉及人工智能(AI)与医师比较、AI辅助研究和人类评价框架的LLM在诊断方面的临床适用性。
  8. 我们提出的框架包含八种临床评估指标,涵盖了如医疗记录总结、诊断推理和风险管理等能力。
  9. 我们的研究结果表明,该模型在协助医师进行疾病诊断方面作为临床工作流程的一部分是可行的。

Main

Para_01
  1. 准确的诊断在医疗领域起着至关重要的作用,并且是所有医生的基本技能之一。
  2. 诊断过程通常涉及通过分析症状、体征和检查结果来进行扩展推理,以形成诊断以及鉴别诊断。
  3. 尽管接受了广泛的医学培训,诊断仍然容易出错,在初级保健层面误诊率估计约为20%,
  4. 这导致了大约17%的医疗实践中不良事件。
  5. 数十年来,人们做出了大量努力以提高疾病诊断的准确性和可及性,包括传统的基于规则的临床决策支持系统(CDSS)和机器学习技术,这些技术提取结构化特征以开发临床预测模型。
  6. 然而,依赖于结构化输入和专门培训是复杂且资源密集型的。
  7. 在主要医学预测算法的发展与它们在不同医疗环境中的实际临床应用之间仍存在显著差距。
Para_02
  1. 近年来,预训练语言模型(PLMs)的出现极大地推动了自然语言处理(NLP)领域的发展。
  2. 这些模型首先通过自我监督学习任务(例如,对于BERT是掩码语言建模,对于GPT是自回归语言建模)在大规模语料库上进行预训练,然后在特定的下游任务上进行微调。
  3. 进一步的研究表明,当模型规模、数据集规模和计算资源足够大时,大型语言模型(LLMs)可以在多个NLP任务中表现出新兴的少量样本和零样本特性。
  4. 预训练语言模型(PLMs)和大型语言模型(LLMs)的最新进展引起了人们使用这些预训练的语言模型的兴趣,这些模型适用于生物医学领域,如ClinicalBERT、NYUTron、GatorTron和BioGPT。
  5. 这些模型展示了转变特定任务范式和解决医疗预测分析中的‘最后一公里’挑战的潜力,从而促进了临床应用的多样化发展。
Para_03
  1. 尽管LLM技术在生物医学中的潜力巨大,但对其效用的开发仍处于初步阶段。
  2. 大多数研究集中在医学中LLM的应用案例报告上,特别是ChatGPT13。
  3. 目前缺乏专门为现实世界的临床环境设计和公开可用的LLM。
  4. 虽然有一小部分工作调查了将临床知识整合到LLM中用于诸如医疗问答14或对话15等任务,但它们在临床诊断推理方面的能力尚未得到充分开发或检验。
  5. 此外,生成型LLM可能会虚构事实,如果医生依赖其推荐的诊断,则可能有害。
  6. 因此,采用对齐技术确保这些模型与临床诊断知识的目标一致,并且‘安全、有益地遵循用户的指示’变得至关重要16。
  7. 目前对LLM模型的评估通常依赖于基于有限基准的自动化评估,这突显了在现实世界临床环境中全面评估基于LLM的工具的需求。
Para_04
  1. 为了解决这些挑战,我们的方法做出了几个贡献(图1)。
  2. 首先,我们介绍了MedFound,这是一个大规模的医疗领域大型语言模型(具有1760亿个参数),它高效地预训练在一个多样化的医学语料库上,该语料库源自医学文献以及870万份真实世界的电子健康记录(EHRs),使我们能够将特定领域的知识编码到模型中。
  3. 此外,我们提出了一种两阶段的方法来将MedFound适应为诊断专家,从而产生了一个精炼版本,称为MedFound-DX-PA。
  4. 我们首先介绍了一种基于自助式链式思维(COT)微调的策略,这使得大型语言模型能够自动生成诊断理由和推理,就像医师专家一样。
  5. 随后,为了应对对齐大型语言模型输出与临床需求的挑战,我们提出了一个统一的偏好对齐(PA)框架。
  6. 该框架包括(1)根据国际疾病分类(ICD)-10树形结构的层次诊断结构指导的诊断层次偏好,以及(2)由专家注释指导的帮助性偏好。
  7. 进一步的消融研究展示了我们提出的训练方法中的组件对大型语言模型性能的影响。

Fig. 1: Schematic illustration of the development and evaluation of our diagnostic generalist.

  • MedFound 和 MedFound-DX-PA 的发展。我们在包含 PMC-CR、MIMIC-III-Note、MedDX-Note 和 MedText 的大型医学语料库上预训练了一个具有 1760 亿参数的 MedFound。我们使用诊断理由对 MedFound 进行微调,并使其与诊断层次偏好和有益性偏好保持一致,从而得到 MedFound-DX-PA。
  • 现实场景中的诊断性能基准测试。我们在身份识别(ID)、非身份识别(OOD)和长尾疾病分布设置下进行了评估,涵盖了包括肺病学、胃肠病学、泌尿学、心脏病学、免疫学、精神病学、神经病学和内分泌学在内的八个专科的疾病。
  • AI系统的临床评估。我们通过医生进行评估,包括一项对比研究、一项 AI 辅助研究以及在人类评估框架下的定性研究。
Para_05
  1. 我们进行了全面评估,以评估MedFound-DX-PA在实施过程中的诊断性能。
  2. 首先,我们使用来自三个专业领域的实际临床记录建立了基准研究,包括分布内(ID)、分布外(OOD)和长尾疾病分布设置。
  3. 结果表明,MedFound-DX-PA在多个维度上超越了现有模型,尤其是在诊断先前研究中被忽视的罕见疾病方面。
  4. 此外,我们进行了一系列前瞻性临床研究,包括人工智能(AI)与专家的比较以及工作流程内的进一步AI辅助研究。
  5. 我们还引入了一种称为CLEVER(CLinical EValuation for Effective Reasoning in Diagnosis)的人类评估框架,该框架使用八个指标来调查当前LLM在现实世界医疗场景中的可行性和局限性。
  6. 这些研究表明,我们提出的LLM作为全科医疗人工智能(GMAI)在医学诊断领域具有潜力。

Results

Overview of the proposed LLM and dataset characteristics

所提出的LLM和数据集特征概述

Para_01
  1. 在这项研究中,我们介绍了MedFound,一个专门为医疗应用设计的预训练大语言模型,以及MedFound-DX-PA,专门针对诊断分析应用进行了训练。
  2. 为了开发和评估我们的模型,我们构建了三个数据集——MedCorpus、MedDX-FT和MedDX-Bench——其中MedCorpus和MedDX-FT用于训练,而MedDX-Bench用于评估(补充表1)。
  3. 训练过程包括三个阶段:预训练、微调和对齐(图1a和扩展数据图1–4)。
Para_02
  1. 在第一阶段,我们继续在一个通用领域的大型语言模型 BLOOM-176B 上进行预训练,从而产生了 MedFound。
  2. 为了开发 MedFound,我们精心策划了一个大规模的医学语料库数据集 MedCorpus,该数据集由四个数据集中的总计 63 亿个文本标记组成:MedText、PubMed Central Case Report (PMC-CR)、MIMIC-III-Note 和 MedDX-Note。
  3. 这些数据集来源于各种临床代表性来源:医学教科书和临床指南、文献中的患者病例报告、公开访问的临床记录以及医院系统的真实世界电子健康记录的专有数据集(详情见方法部分)。
  4. 因此,在 MedCorpus 上的预训练使 MedFound 能够编码广泛的医学知识和实践经验,确立了它作为医学领域广泛应用的基础工具的地位。
Para_03
  1. 在第二阶段,我们对MedFound进行了微调,以模仿医生的诊断推理过程,从而产生了MedFound-DX。
  2. 我们精心策划了一个名为MedDX-FT的数据集,其中包含医疗记录及相关诊断推理演示,用于微调。
  3. 医生被要求根据实际的医疗记录手动编写他们临床推理过程的演示,以诊断给定的患者案例。
  4. 注释界面如扩展数据图2a所示。
  5. 基于手工演示的种子集和109,364份EHR笔记,我们采用了一种自引导策略,以增强大型语言模型自动为每份EHR生成高质量诊断理由(中间推理步骤)的能力,而无需大量的专家劳动。
Para_04
  1. 在第三阶段,我们进一步优化了模型在现实临床环境中的实用性,通过采用统一的PA框架,该框架集成了‘诊断层次偏好’和‘帮助性偏好’。
  2. 对于‘诊断层次偏好’,我们利用ICD-10树状结构的层次关系来引导大语言模型与已建立的疾病知识和诊断流程保持一致。
  3. 对于‘帮助性偏好’,大语言模型通过评估给定诊断理由的帮助性(扩展数据图2b)直接与专家反馈对齐,从而确保与人类价值观的一致性16。
  4. 两套偏好均使用直接偏好优化(DPO)19进行了优化,这是一种无需强化学习的简单算法,简化了偏好学习管道。
Para_05
  1. 在评估阶段,我们策划了MedDX-Bench,这是一个由三个临床数据集组成的基准——MedDX-Test、MedDX-OOD和MedDX-Rare——旨在全面评估LLM在现实临床环境中的诊断能力(图1b)。
  2. MedDX-Test数据集是一个同质性评估,用于评估MedFound-DX-PA在各专业领域的诊断表现,包含11,662份与训练数据集相同分布的医疗记录。
  3. MedDX-OOD和MedDX-Rare数据集被构建为外部验证集,来源于中国湖北省的一个不同地理区域,用于OOD评估。
  4. MedDX-OOD数据集包含23,917份常见疾病的记录,这些疾病也出现在MedDX-FT中;而MedDX-Rare数据集则包括涵盖2,105种罕见疾病的20,257份记录,这些罕见疾病呈长尾分布。
  5. 评估数据集涵盖了来自日常诊断工作流程的EHRs,包括主诉、现病史、体格检查、实验室测试和放射学影像报告。
  6. 这三个数据集提出了一个挑战,即在疾病多样性不同的条件下评估其泛化能力。

Performance of the LLMs on common diseases across specialties

LLM在常见疾病跨专科的表现

Para_01
  1. 首先,我们评估了MedFound-DX-PA在不同专科常见疾病诊断中的表现,包括在ID和OOD设置下的表现。
  2. 我们进行了与领先的大语言模型(LLM)的比较,包括开放访问的MEDITRON-70B、Clinical Camel-70B和Llama 3-70B,以及闭源的GPT-4o。
  3. MEDITRON-70B和Clinical Camel-70B都是医疗预训练的大语言模型,在医学任务中表现出色。
  4. Llama 3-70B是受欢迎的开放访问Llama家族的一员,在各种特定领域的任务中表现出色。
  5. GPT-4o是最新版本的ChatGPT,据报道具有更广泛的知识库和增强的问题解决能力,在诊断任务中显示出潜力。
  6. 关于这些大语言模型的详细信息可以在补充表2中找到。
  7. 所有开放访问的模型都经过了微调,并采用了自一致性(SC)解码来评估它们的诊断能力。
Para_02
  1. 在ID设置评估中,我们构建了MedDX-Test数据集,该数据集涵盖了八个专科中代表99%人口的常见细粒度疾病。例如,我们评估了模型诊断自身免疫性甲状腺炎(一种特定类型的甲状腺疾病)的能力,而不是简单地将其归类为一般的甲状腺疾病。
  2. 对于所有专科的平均表现,我们的模型表现出色,达到了84.2%的诊断Top-3平均准确率(95%置信区间(CI):83.5%,84.8%)(图2a)。这比其他四个模型有了显著的提升,这些模型的平均准确率范围从64.8%(95% CI:63.9%,65.6%;Clinical Camel-70B)到56.8%(95% CI:55.9%,57.7%;MEDITRON-70B)。
  3. 其中,GPT-4o的诊断准确率为62.0%(95% CI:61.1%,62.8%),略低于表现次佳的模型Clinical Camel-70B。
  4. 我们将结果按专科(如心脏病学、神经病学和内分泌学)进行了分层,以提供关于基于LLM的诊断通才的详细见解(图2b)。
  5. 我们的MedFound始终优于其他LLM,准确率范围从82.4%到89.6%。
  6. 我们还使用Top-1准确率、宏观准确率、接收者操作特征曲线下面积(ROC-AUC)和精确召回曲线下的面积(PR-AUC)指标对模型进行了评估,结果同样表明MedFound-DX-PA的优越性能(扩展数据图5和补充表3)。

Fig. 2: Performance of the LLMs for diagnosis of common diseases across various specialties.

  • a–d,MEDITRON-70B、Llama 3-70B、Clinical Camel-70B、GPT-4o 和我们的 MedFound-DX-PA 在普通诊疗任务中的 Top-3 准确率对比。结果显示在 ID 设置(n = 11,662)(a 和 b) 和 OOD 设置(n = 23,917)(c 和 d) 下,涉及八个专科。a 和 c 表示总体表现,b 和 d 表示按专科细分的表现。
  • e,f,在八个专科的 ID 和 OOD 设置下,LLMs 的 Top-3 准确率对比。条形图表示均值±95% 置信区间。
Para_03
  1. 此外,我们在MedDX-OOD数据集上评估了我们模型的泛化能力,这是一个外部真实世界环境中的病例收集的OOD设置。如图2c和2d所示,分别展示了每个专科的平均性能和分层性能。
  2. MedFound-DX-PA在所有专科中均显著优于基线模型(所有P<0.001)。结果显示,我们的模型作为多种临床疾病的诊断专家具有良好的泛化能力,尤其是在细粒度疾病诊断方面。
Para_04
  1. 我们还将我们的诊断通才扩展到了需要特定医学领域专业知识的专业场景。
  2. 我们通过提示将疾病专家的角色分配给了基于LLM的通才,具体设置如方法部分所述。
  3. 我们的模型在MedDX-Test数据集上的Top-3准确率范围从87.9%(95%置信区间:87.2%,89.6%)到93.9%(95%置信区间:92.6%,95.9%),在MedDX-OOD数据集上的Top-3准确率范围从85.8%(95%置信区间:83.4%,88.6%)到90.2%(95%置信区间:88.7%,93.5%)(图2e,f)。
  4. 这表明我们的模型能够适应这些专业场景的精度要求。
  5. 我们还使用开放获取的数据集对多类、特定疾病的决策支持工具进行了比较,将我们的MedFound与现有的专门决策支持工具进行了对比(补充表4)。
  6. 结果表明,我们的模型性能与专门工具相似或超过它们。

Performance of the LLMs on rare diseases

LLM在罕见疾病方面的表现

Para_01
  1. 我们扩展了实验,以检查大型语言模型(LLM)在诊断长尾分布罕见疾病方面的表现。
  2. 先前的模型已经显示出在识别常见疾病方面的有效性,但在少量或零样本场景下对罕见疾病的分类性能往往会下降。
  3. 如图3a所示,疾病分布呈现长尾分布,其中常见疾病覆盖了99%的人口,而剩余的1%包括了种类繁多的不常见疾病。
  4. 为了评估LLM在诊断广泛范围疾病中的适应性,我们在MedDX-Rare数据集上使用了零样本学习设置,该数据集包含了来自八个专科领域的2,105种罕见疾病(见图3b和扩展数据图6a)。
  5. 图3c中的条形图展示了MedFound-DX-PA在每个专科内每种细粒度罕见疾病的Top-3准确率,雷达图显示了各专科在所有疾病上的整体表现(详见方法部分)。
  6. MedFound-DX-PA在所有专科的表现均优于其他模型,从77.4%(95%置信区间:76.8%,78.0%)到84.4%(95%置信区间:83.9%,84.9%),平均为80.7%(95%置信区间:80.1%,81.2%)(见图3c)。
  7. GPT-4o获得了第二好的表现,从57.2%(95%置信区间:56.5%,57.9%)到63.1%(95%置信区间:62.4%,63.8%),平均为59.1%(95%置信区间:58.4%,59.8%)。
  8. 这一趋势也在Top-1宏准确率中观察到(扩展数据图6b)。

Fig. 3: Performance of the LLMs for diagnosis of rare diseases across various specialties.

  • 疾病患病率分布。x轴表示从常见到罕见的一系列疾病。y轴表示受每种疾病影响的人口规模。曲线分为两个区域。蓝色区域代表常见疾病(累积患病率≥99%),绿色区域代表罕见疾病(累积患病率<1%)。
  • 八类专科疾病数量分布(n=20,257)。蓝色柱状图表示常见疾病的数量,蓝绿色柱状图表示罕见疾病的数量。
  • MEDITRON-70B、Llama 3-70B、Clinical Camel-70B、GPT-4o和我们的MedFound-DX-PA在诊断八类专科中的罕见疾病方面的Top-3宏精度比较。雷达图显示了LLMs在每个专科表现上的Top-3宏精度,通过将疾病患病率的八分位数聚合来计算。
  • 针对八类专科中的罕见疾病,LLMs在个体诊断中的Top-3微观精度。条形图表示MedFound-DX-PA在每个专科内个别疾病上的Top-3精度。条形图还表示了平均值±95%置信区间。
Para_02
  1. LLMs的平均表现进一步通过Top-3微精度进行评估,如图3d所示,该指标考虑了每个专业中的个体,以减轻小样本量类别的影响。
  2. 第二好的LLM,GPT-4o,取得了中等水平的表现,范围从77.4%(95%置信区间:76.9%,78.0%)到85.8%(95%置信区间:85.3%,86.2%),平均为82.1%(95%置信区间:81.6%,82.7%)。
  3. 相比之下,MedFound-DX-PA在所有专业领域均表现出色,显示出显著的性能提升,范围从87.4%(95%置信区间:87.0%,87.9%)到93.0%(95%置信区间:92.7%,93.4%),平均为89.2%(95%置信区间:88.8%,89.6%)。
  4. 此外,ROC-AUC和PR-AUC等其他指标也证明了MedFound-DX-PA相比其他LLM的优越性能(扩展数据图6c和补充表3)。
  5. 为了进一步调查模型在涉及不同患病率的长尾疾病分布中的诊断表现,我们将它们分为超罕见(≤0.1%患病率)和罕见(0.1%-1%患病率)组(扩展数据图6d和补充表5)。
  6. 结果显示,MedFound-DX-PA在这两个组别中表现一致良好。这归因于MedFound-DX-PA的生成能力和其对诊断结构的全面理解,这使其能够灵活适应细粒度的罕见疾病。

Performance comparison between the LLM versus physicians

LLM与医生的表现比较

Para_01
  1. 在这里,我们将基于大型语言模型(LLM)的诊断系统与内分泌学和肺病学中的人类医生的诊断能力进行了比较。
  2. 招募了十八名医生,包括九名内分泌科医生和九名呼吸科医生,并根据临床经验进一步分为三组:初级(n=3)、中级(n=3)和高级(n=3)。
  3. 每位医生分配了150个病例进行诊断。
  4. 扩展数据图3a展示了医生们用于此评估任务的界面。
  5. 性能通过专家小组建立的金标准诊断来衡量。
  6. 在肺病学方面,MedFound-DX-PA的诊断准确率为72.6%,超过了初级医生(60.0%)和中级医生(67.7%),但略低于高级医生(76.2%)(图4a)。
  7. 同样,在内分泌学方面,该人工智能的准确率(74.7%)超过了初级医生(69.4%)和中级医生(72.5%),并且与高级医生(75.2%)相似(图4b)。
  8. 这些结果表明,我们的基于大型语言模型的诊断通才在两个专业领域均优于初级和中级医生,并且与高级医生的表现相当。

Fig. 4: Performance evaluation between the AI system and human physicians for diagnosis.

  • MedFound-DX-PA和人类医师在肺医学(a)和内分泌学(b)中的诊断推理表现比较(n = 900)。条形图代表了AI系统的诊断准确性(橙色),人类医师(浅蓝色)以及由MedFound-DX-PA辅助的人类医师(深蓝色)。灰色虚线代表了MedFound-DX-PA的表现。
  • c, 在八个维度上对MedFound-DX和MedFound-DX-PA进行的人类评估,包括‘病例理解’(P = 0.032)、‘临床推理’(P = 0.006)、‘医疗指南和共识’(P = 0.180)、‘鉴别诊断的相关性’(P = 0.036)、‘诊断的可接受性’(P < 0.001)、‘不忠实的内容’(P = 0.002)、‘偏见和不公平’(P = 0.015)以及‘可能的危害’(P = 0.009)。柱状图显示了MedFound-DX(浅橙色)和MedFound-DX-PA(深橙色)的平均值±95%置信区间。使用双侧t检验进行了统计分析。P < 0.001,P < 0.01,P < 0.05,NS(不显著)P > 0.05。

Performance of the LLM-assisted diagnosis within workflows

LLM辅助诊断在工作流程中的表现

Para_01
  1. 我们进一步探讨了大型语言模型(LLM)在提升临床工作流程中医生诊断表现方面的潜力。
  2. 当提供电子健康记录(EHR)笔记(移除了诊断信息)时,来自两个专科的初级和中级医生进行了初步诊断。
  3. 两周后,他们参考了AI生成的内容来制定第二次诊断(扩展数据图3b)。
  4. 在肺病学领域,AI辅助显著提高了初级和中级医生的准确性,分别提高了11.9%和4.4%,其表现接近于AI系统的表现,但仍然略低于高级医生的表现(图4a)。
  5. 例如,在图5a所示的病例中,医生根据患者的现病史和实验室检查中的C反应蛋白水平,最初诊断为‘急性支气管炎’。
  6. 然后,在AI生成内容的帮助下,该内容强调了患者反复支气管炎的历史,医生将诊断修正为正确的诊断——‘慢性支气管炎急性加重’。

Fig. 5: Examples of AI-assisted diagnosis evaluation.

  • 这是用于辅助医生诊断过程的MedFound-DX-PA模型生成的诊断推理示例。
  • a, 用于与肺科医生评估的案例。
  • b, 用于与内分泌科医生评估的案例。
  • 每个案例包括患者的症状、病史和检查结果。
  • 医生在首次审阅临床记录后进行初步诊断,并在考虑了AI提供的诊断推理后重新诊断。
Para_02
  1. 在内分泌学中,初级和中级内分泌科医生组在人工智能辅助下的准确性分别提高到了74.0%(提高了4.6%)和78.8%(提高了6.3%)(图4b)。
  2. 值得注意的是,在人工智能辅助下,中级内分泌科医生的表现超过了高级内分泌科医生,这表明人工智能有可能提升诊断准确性,超越大多数经验丰富的医生(P<0.05)。
  3. 例如,如图5b所示,当医生观察到患者的实验室检测中促甲状腺激素水平升高时,初步诊断为亚临床甲状腺功能减退症。
  4. 在使用人工智能辅助重新评估期间,模型突出了先前被忽视的抗甲状腺过氧化物酶抗体水平升高,这可能表明存在潜在的自身免疫性甲状腺疾病。
  5. 因此,医生修改了诊断为‘自身免疫性甲状腺炎’。
  6. 这些结果表明,医生可以从大型语言模型的辅助中受益,通过突出重要的临床数据,从而提高医疗服务质量。

Human evaluation framework for AI’s diagnostic capabilities

人工智能诊断能力的人类评估框架

Para_01
  1. 先前的评估指标主要集中在准确性或自然语言生成分数(例如,BLEU或ROUGE)上,这些指标无法捕捉推理诊断过程的临床质量。
  2. 为了解决这个问题,我们提出了一种针对实际诊断中的人工智能系统进行系统性评估的框架,该框架通过文献回顾和与专家医生的咨询建立。
  3. 该框架CLEVER将基于LLM系统的临床能力分为八个临床评估指标,提供了对LLM在符合医学标准方面的优势和局限性的见解(详情见方法部分)。
  4. 为了评估,从之前的两个专业领域招募了六位高级医师,使用了一个从1到5的李克特量表评分系统(图4c和扩展数据图4)。
Para_02
  1. 在‘医学病例理解’中,专家小组评估了LLM理解和解释医学病例的能力,例如评估其内容是否包含诊断所需的完整和正确的信息。
  2. 我们提出的MedFound-DX-PA在‘医学病例理解’中获得了4.02分,显著超过了未对齐的LLM模型的3.77分(P < 0.05)。
  3. 在‘临床推理’中也观察到了类似的趋势,该部分用于评估LLM的推断性诊断是否与临床实践中医生的诊断推理过程一致。
  4. MedFound-DX-PA表现出色,得分为4.07,显著优于未对齐模型的3.63分(P < 0.01)。
  5. 在‘医学指南和共识’中,医生被要求评估LLM的生成是否符合既定的医学指南和共识。
  6. MedFound-DX-PA获得了3.83的李克特量表分数,而未对齐的模型获得了3.62分(P = 0.18)。
  7. 这些结果表明,我们的模型能够捕捉相关的医学证据并结合诊断推理,可能提供增强的临床决策支持。
Para_03
  1. 我们还寻求评估大型语言模型(LLM)在支持临床决策方面的有效性。
  2. 对于‘鉴别诊断的相关性’,医生评估了模型区分可能引起患者症状的多种潜在疾病的能力。
  3. 我们的模型获得了3.93分,超过了未对齐模型的3.62分(P < 0.05)。
  4. ‘诊断的可接受性’用于评定诊断是否适用于临床使用。
  5. 在这一类别中,我们的模型获得了4.21分,显著优于未对齐模型的3.72分(P < 0.001)。
  6. 这些发现展示了我们诊断全科医生的潜在临床可行性。
Para_04
  1. LLM在关键临床场景中预计不会生成不准确或误导性的信息(‘不忠实内容’)或表现出与性别、文化和种族相关的不同程度的刻板印象(‘偏见和不公平’)。
  2. 此外,至关重要的是,LLM生成的内容中不应包含任何错误或有害证据,这可能会导致误诊或将医生误导到可能的医疗事故上(‘可能的危害’)。
  3. 我们通过评估‘不忠实内容’、‘偏见和不公平’和‘可能的危害’来检查模型的风险控制能力。
  4. 我们的模型表现出了优异的性能,在这三个指标上的得分分别为4.11、4.14和4.03,分别超过了未对齐模型的3.66(P<0.01)、3.82(P<0.05)和3.66(P<0.01),具有统计显著性。
  5. 结果表明,基于LLM的系统可以通过与人类价值观的对齐进行优化,从而提高其可信度和临床适用性。

Impact of training components on the performance of LLMs

训练组件对大型语言模型性能的影响

Para_01
  1. 为了探索我们提出的方法的关键组成部分对LLMs诊断性能的影响,我们使用MedFound和最新的领先LLMs(包括Clinical Camel-70B、Llama-3-70B和MEDITRON-70B)进行了实验,使用了MedDX-Bench。
  2. 我们首先通过MED-Prompt研究了LLMs的内在诊断能力,MED-Prompt使LLMs熟悉医疗任务,并允许它们在没有任何额外训练的情况下适应诊断任务。
  3. 结果显示,MedFound(没有SC)表现优异,在MedDX-Test、MedDX-OOD和MedDX-Rare上分别比其他LLMs的平均性能提高了14.4%、11.9%和11.1%(图6a)。
  4. 例如,在MedDX-Test上,MedFound达到了37.2%的准确率(95%置信区间:36.3%,38.1%),超过了第二好的LLM,Clinical Camel-70B的表现为30.8%(95%置信区间:29.9%,31.6%)。
  5. 其他评估指标,如宏准确率,也观察到了类似的结果,详见补充表6。
  6. 这表明MedFound是一个更有效的预训练模型,可能是因为它在MedCorpus上的全面预训练使其能够编码广泛的医学知识和实际临床案例。

Fig. 6: Performance analysis of LLM training components for various diagnostic tasks.

  • 比较各种预训练LLM通过MED-Prompt在MedDX-Test(ID测试常见疾病)(左)(n = 11,662),MedDX-OOD(常见疾病的OOD测试)(中)(n = 23,917)和MedDX-Rare(罕见疾病的OOD测试)(右)(n = 20,257)的诊断任务中的准确性。误差线表示95%的置信区间。
  • 对COT微调对各种LLM在MedDX-Test(ID测试常见疾病)(左)、MedDX-OOD(常见疾病的OOD测试)(中)和MedDX-Rare(罕见疾病的OOD测试)(右)的诊断任务准确性的影响分析。短水平线显示一组模型的平均性能。所示的百分比增加是通过COT微调获得的改进。
Para_02
  1. 除了评估预训练大语言模型(LLM)本身的诊断能力外,我们进一步研究了COT微调通过在特定领域数据上进行额外训练来增强LLM诊断准确性的影响。
  2. 如图6b和补充表7所示,所有模型在经过微调后,在MedDX-Bench任务上的表现都有所提升,MedDX-Test、MedDX-OOD和MedDX-Rare的平均微精度分别提高了14.9%、15.9%和12.7%。
  3. 在COT微调之后,我们采用了SC解码技术,通过减少变异性并使其输出与特定领域的需求保持一致,进一步提升了模型的推理性能。
  4. 如扩展数据图7和补充表3所示,所有LLM在使用SC后均显示出改进,MedDX-Test、MedDX-OOD和MedDX-Rare的微精度分别提高了12.1%、11.1%和7.6%。
  5. 总之,我们提出的预训练-微调方法显著提升了LLM在医学任务上的表现,尤其是在处理具有挑战性的病例时,例如罕见疾病。

Discussion

Para_01
  1. 在这项研究中,我们开发了MedFound-DX-PA,这是一种用于普通诊断的大规模医疗助手,旨在模拟各种医疗场景中的临床医生的专业知识。
  2. 当在MedDX-Bench上进行评估时,MedFound-DX-PA在各个专业和条件下均表现出卓越的诊断性能,包括常见疾病的ID(内部分布)和OOD(外部分布)设置以及罕见疾病。
  3. 此外,我们进行了涉及MedFound-DX-PA与专家的比较研究以及一项AI辅助研究,这表明它有可能增强初级或中级医师的诊断能力。
  4. 此外,LLM的人类评估研究表明,我们的MedFound-DX-PA有可能作为通才整合到临床工作流程中。
Para_02
  1. 疾病诊断对于日常临床任务至关重要,并且容易出错,这可能导致不良后果或治疗被延误或拒绝。
  2. 以前的人工智能辅助诊断工具包括基于规则的CDSS、在EHR和PLM中的结构化特征上的机器学习。
  3. 然而,它们的应用受到特定训练数据和模型大小的限制,需要专业特定的模型,而这些模型效率低下。
Para_03
  1. 最近的发展表明,LLM 能够在几乎没有特定微调的情况下有效地解释和生成文本,从而促进了诸如交互式决策支持和患者聊天机器人等多功能应用。
  2. 然而,在将 LLM 应用于临床环境方面存在相当大的挑战。
  3. 现有的 LLM 往往无法捕捉到广泛的医学知识和场景。
  4. 此外,生成式语言模型的输出可能包含事实错误、逻辑不一致和连贯性问题。
  5. 例如,ChatGPT 在深度和洞察力方面被发现不足,这导致它产生过于泛化的答案,缺乏医学专业知识。
  6. 为了弥合这一差距,我们介绍了 MedFound,据我们所知,这是最大的开放访问医学 LLM,拥有 1760 亿个参数,预先训练于多种多样的医学语料库。
  7. 其次,我们通过采用基于自我引导的 COT 微调来优化 MedFound,以增强医学 LLM 的推理能力。
  8. 自我引导的方法使用提示来指导 LLM 自动生成大规模的理由,仅需数百个注释,从而降低了专家注释的成本。
  9. 随后,我们引入了一个统一的 PA 框架,使 MedFound-DX 与 ICD-10 诊断偏好以及临床医生评估的帮助性偏好保持一致,确保在关键医疗任务中的可信度和安全性。
Para_04
  1. 尽管先前的研究强调了基于分类的决策支持工具在特定专业中的表现,我们还是寻求将这些工具与基于LLM的诊断通才在真实临床场景中进行比较。
  2. 我们包括了三种具有代表性的分类模型:一种使用分层分类的传统机器学习方法(分层随机森林(HRF)30);一种针对医学领域使用掩码语言建模策略的预训练语言模型(Med-BERT9);以及作为分类器预训练骨干的一个变体(MedFound-CLS),详情见方法部分。
  3. 结果显示,MedFound-DX-PA在MedDX-Test数据集上比第二好的模型MedFound-CLS高出17.8%,在MedDX-OOD数据集上高出35.7%,突显了生成模型在诊断任务中的优越性,尤其是在OOD场景中(扩展数据图8)。
  4. 此外,虽然现有的专门决策支持工具在特定专业中表现出一定的有效性25,但它们仅限于识别预定义的粗粒度疾病类别,或者经常难以应对零样本场景,在这种场景下,它们必须诊断从未明确训练过的疾病。
  5. 相比之下,医学LLM在少数样本和零样本设置中诊断罕见疾病提供了有前景的解决方案。我们的模型通过以类似于人类专家的方式推理新的输入样本,有效地处理罕见情况(图3和图5)。
  6. 这种使用基础模型的零样本方法可能为以前难以解决的更广泛的医学应用打开可能性。
  7. 我们诊断通才模型的另一个优势是它能够生成诊断推理,使模型的输出透明化,并增加医生对AI驱动的诊断工具的信任。
Para_05
  1. 此外,我们在实际临床场景中对基于LLM的诊断系统进行了全面的临床验证。
  2. 在这项研究中,我们使用来自不同专科的真实EHR数据建立了一个基准,用于诊断从常见到罕见的各种疾病。
  3. 与其它LLM相比,MedFound-DX-PA在不同分布上表现出色,突显了该模型作为通才的准确性和鲁棒性。
  4. 为了更全面地评估基于LLM的模型生成的内容,我们开发了一套临床医生评估框架,涵盖了广泛的方面。
  5. 鉴于确保安全性对于实际临床场景至关重要,我们的人类评估框架评估了各种安全考虑因素,如不忠实的内容、偏见、不公平以及可能的危害。
  6. 我们还进行了一项隐私风险评估,结果显示我们的模型泄露信息的风险很低(补充图1)。
  7. 如图4a和b所示,结果表明我们的模型显著提高了医生的表现,强调了LLM在增强临床工作流程中医生的诊断能力方面的潜力。
  8. 此外,我们观察到即使有AI辅助,一些医生也无法超越原始的AI。
  9. 这一现象也在先前的研究中被观察到(例如,乳腺癌检测32和胸部X光解读33)。
  10. 研究表明,人机协作面临挑战,这可能与人类对AI的心理模型有关,这些心理模型可能取决于他们对AI的熟悉程度或依赖提出的决策。
  11. 这也强调了进一步研究AI辅助对人类认知和表现影响的必要性。
Para_06
  1. 基于大型语言模型的诊断全科医生有可能协助医生在临床工作流程的各个阶段,包括信息收集、数据总结和解释、诊断推理以及制定最终诊断。
  2. 首先,我们的MedFound-DX-PA可以生成涵盖广泛常见或罕见疾病的诊断推理,这使其在需要广泛的疾病医学知识的临床场景中特别有用,例如预诊分诊和优先级排序,或者作为咨询的‘副驾驶’。
  3. 例如,在预诊评估期间,MedFound-DX-PA可以综合患者的症状,推荐进一步的诊断测试或将患者引导至适当的专科。
  4. 对于在日常临床工作中遇到各种疾病的初级保健医生来说,他们可以根据MedFound-DX-PA的提示发起转诊,以获得更专业的知识,如心脏病学或神经病学。
  5. 对于复杂的多系统疾病,MedFound-DX-PA可以提供多学科咨询支持,与特定任务工具相比,这有助于促进对患者护理的整体方法。
  6. 此外,诊断全科系统可以通过自动化集成临床评估来减轻资源有限环境中的医师工作负担,从而促进远程医疗。
Para_07
  1. 此外,我们的通用诊断模型还可以在最少的提示下高效适应专科场景或特定疾病,其性能和可解释性优于现有的专业模型。
  2. 我们设想MedFound-DX-PA可以通过提供专科知识来辅助AI咨询,帮助经验不足的医生提高诊断水平,增强鉴别诊断或帮助完善最终诊断。
  3. 例如,该系统可以解读实验室或放射学结果42,识别异常,并总结专科医生诊断评估中的关键证据,如图5所示。
  4. 在后续的鉴别诊断阶段,MedFound-DX-PA将通过考虑所有可用证据,提供诊断理由,并向医生提出鉴别诊断建议,从而提高诊断护理质量。
  5. 参与我们研究的医生也展示了通过将该AI系统纳入临床实践,其诊断准确性得到了提升。
Para_08
  1. 尽管我们的模型已经展示了令人印象深刻的诊断性能,但仍存在一些挑战。
  2. 首先,我们的医学大语言模型目前主要集中在语言交互上,通过视觉-语言模型(VLMs)与医学多模态数据集成,可以进一步扩展其功能。
  3. VLMs 在病理学、放射学和超声心动图等领域显示出巨大的潜力43,44,45,46。
  4. 这些进步得益于大语言模型,它们提供了广泛的领域知识和推理能力47,使得 VLMs 能够基于自然语言指令进行零样本图像到文本的生成,解锁了诸如视觉知识推理和视觉对话等新兴功能。
  5. 未来,将 VLMs 集成进来可以使 MedFound-DX-PA 采用更全面、多模态的方法来进行诊断和患者护理,为人工智能辅助医疗打开新的可能性。
  6. 此外,为了增强人机协作,以便将人工智能融入常规临床工作流程,未来的工作将集中于改进大语言模型,例如大语言模型代理48,以更好地适应个别医生的需求,从而提高诊断支持的个性化。
  7. 模型协助医生的评估互动以及医生的反馈也可以优化模型,称为"人在回路"49,这使大语言模型系统能够持续改进,更加贴近临床环境的实际需求。
  8. 这些未来的发展方向将在增强人工智能实际融入临床工作流程方面发挥关键作用,并最大限度地发挥其对医疗实践或初级保健的诊断培训的潜在益处。

Methods

Datasets

数据集

Para_01
  1. 在这项研究中,我们整理了三个数据集来开发和评估MedFound-DX-PA,从预训练、微调和评估(补充表1)。
  2. 对于预训练,我们创建了MedCorpus,这是一个来自四个来源的大规模自由文本集合:PMC-CR、MIMIC-III-Note、MedDX-Note和MedText。
  3. 对于微调,我们使用了MedDX-FT数据集,该数据集包含带有诊断、诊断理由展示和有用性注释的电子健康记录(EHRs)。
  4. 其中,MedDX-Note和MedDX-FT包括来自中国疾病诊断调查联盟(CC-DXI)的电子健康记录。
  5. 该联盟在中国的北京、四川省和广东省的多家医院进行了注册:北京大学第三医院、北京大学第一医院、四川大学华西医院和深圳大学附属华南医院。
  6. 这项研究是在机构审查委员会(IRB)批准的书面知情同意豁免下进行的。
  7. 所有地点都获得了IRB和伦理委员会的批准。
  8. EHR数据被去识别化以去除任何与患者相关的信息。

Pre-training datasets to develop MedFound

预训练数据集用于开发MedFound

Para_01
  1. 我们整理了MedCorpus,这是一个包含大量生物医学和临床文本的广泛语言语料库,用于MedFound的预训练。MedCorpus整合了来自四个数据集的共计63亿个标记:MedText、PMC-CR、MIMIC-III-Note和MedDX-Note(补充信息)。
Para_02
  1. MedText是由一系列多元化的医学教科书组成的集合,包含1752本多语言教科书,涵盖了基础医学知识、术语、概念和实践指南。
  2. PMC-CR由PMC50提供的全文病例报告组成,详细报告了个体患者的症状、体征、诊断、治疗或随访情况,特别关注疾病的不寻常或新颖发生情况以及医学中的许多新思想。
  3. PMC被认为是规模最大且公开可访问的数字存储库,存档了生物医学和生命科学领域的大量研究文章。
  4. MIMIC-III-Note和MedDX-Note源自真实的临床数据,涵盖了不同系统中各种疾病的数据。
  5. MIMIC-III-Note是从一个开放获取的大规模临床数据库MIMIC-III中注释得到的,该数据库包含了来自38,597名患者在49,785次住院期间的电子健康记录(EHR)。
  6. MIMIC-III-Note数据集包含了从患者记录中选取的多种典型医学文本,如医疗笔记、处方药物、临床命令和放射学报告等。
  7. MedDX-Note是一个专有的大规模现实世界数据集,包含从CC-DXI获取的870万份EHR。
  8. 这个庞大的数据集覆盖了一系列疾病,并且平均年龄为40.96岁,标准差为21.30。
  9. 数据集中每个记录都提供了关于医疗接触的全面描述,如医疗历史和检查报告。
  10. 我们对语料库进行了数据预处理,包括移除特殊标签和字符以及分词(MedCorpus的详细信息见补充材料)。

Fine-tuning and alignment datasets to develop MedFound-DX-PA

微调和对齐数据集以开发MedFound-DX-PA

Para_01
  1. 为了微调和校准我们的模型进行诊断,我们整理了一个医疗记录数据集,并收集了两种类型的专家注释:诊断理由演示和有用性注释。
  2. 我们构建了一个来自CC-DXI的数据集,命名为MedDX-FT,包含109,364个案例,涵盖八个专科的408种常见疾病:肺科、胃肠科、泌尿科、心脏科、免疫科、精神科、神经科和内分泌科。
  3. 为了使用诊断推理理由微调模型,我们手动整理了一个包含800个诊断理由演示的数据集,这些演示使用了MedDX-FT数据集中的医疗记录。
  4. 在每个案例中,医生通读整个病例历史,并提供了逐步的诊断分析,包括临床观察、潜在疾病范围和诊断等关键因素。
  5. 注释界面如扩展数据图2a所示。
  6. 然后,我们采用了一种自助策略来自动为每份电子健康记录(EHR)生成高质量的诊断理由,最终生成了109,364个理由用于微调。
Para_02
  1. 为了评估模型的帮助性,我们收集了帮助性标注。医生被分配来评估给定的诊断理由是否有助于做出准确的诊断。
  2. 帮助性被定义为响应中呈现的诊断理由在多大程度上引导注释者向准确的诊断方向前进。
  3. 注释界面如扩展数据图2b所示。
  4. 总共,MedDX-FT数据集中选择了1800个生成的回答进行了这种标注。
  5. 总体而言,在72.1%的情况下,生成的诊断理由被认为是具有帮助性的。
  6. 这些数据被用来微调和对齐MedFound-DX-PA,以使其生成的理由与人类偏好保持一致,并在诊断过程中提供有用的帮助。

Evaluation datasets of the diagnostic performance of LLMs

LLM诊断性能评估数据集

Para_01
  1. 为了评估基于LLM的疾病诊断系统,我们进行了MedDX-Bench,这是一个包含三个包含真实世界EHRs的数据集的综合基准:MedDX-Test和MedDX-OOD用于常见疾病的ID和OOD测试,MedDX-Rare用于罕见疾病的OOD测试。
Para_02
  1. 具体而言,MedDX-Test 数据集用于在ID设置下评估诊断性能,该数据集与开发数据集CC-DXI来自同一来源,并且与MedDX-FT数据集相互排斥。它包含11,662份医疗记录,涵盖了各种医学专科下的多种常见疾病。
  2. MedDX-OOD和MedDX-Rare数据集是从中国湖北省宜昌市中心人民医院收集的,该地区与CC-DXI用于OOD评估的地区不同。MedDX-OOD和MedDX-Rare数据集之间没有重叠。
  3. 为了将我们的评估扩展到外部验证集,并测试模型在不同条件下的表现,我们引入了MedDX-OOD和MedDX-Rare数据集。
  4. MedDX-OOD数据集包含23,917条记录,涵盖常见疾病,作为OOD验证集来评估模型在不同地理区域中的泛化能力。
  5. 另一个数据集MedDX-Rare包含20,257条记录,覆盖了2,105种呈现长尾分布并且在罕见和细粒度疾病条件下具有挑战性的疾病。
  6. 本研究中使用的所有EHR均来自具有不同患者群体的不同临床部门的医院系统,能够很好地反映现实世界诊断的过程。

Model overview

模型概述

Para_01
  1. 我们介绍了MedFound,一个针对医疗应用进行预训练的大型语言模型,以及MedFound-DX-PA,它进一步优化以增强诊断能力。
  2. 首先,我们基于BLOOM模型(1760亿参数)策划了一个多样化的医学语料库用于持续预训练,从而产生了MedFound。
  3. 这一过程旨在使LLM适应医疗领域,以提升其最终任务性能。
  4. 随后,我们使用包含诊断理由的数据集对MedFound进行了微调,以学习诊断推理,从而产生了MedFound-DX。
  5. 最后,我们使用DPO19对MedFound-DX进行了精炼,使其符合诊断专业领域的专业知识和需求以及人类专家的偏好,从而产生了MedFound-DX-PA。
  6. 对齐过程由ICD疾病分类的层次结构指导,并通过一种帮助评分模型评估的人类专家偏好进行衡量。

Pre-training for developing MedFound

为开发MedFound进行预训练

Fine-tuning for diagnostic reasoning

微调诊断推理

PA for developing MedFound-DX-PA

开发MedFound-DX-PA的PA

Para_01
  1. 为了使MedFound-DX与现实世界的诊断场景和人类专家的偏好保持一致,我们提出了一种统一的PA框架。
  2. 该框架整合了两种类型的偏好,包括诊断层次结构偏好和有用性偏好,这两种偏好在模型中联合优化,以符合诊断标准,并满足临床场景中医疗专业人员的期望。
  3. 诊断层次结构偏好根据ICD代码定义的疾病分类层次结构进行指导,旨在使模型的生成符合疾病分类的标准。
  4. 有用性偏好是通过一个有用性评分模型经过专家注释训练而得到的,目的是使模型的生成更加信息丰富、有用且可信,从而有助于诊断目的,同时尽量减少有害或误导性信息的风险。
  5. PA过程包括两个步骤:偏好构建和偏好优化。
  6. 对于诊断层次结构偏好构建,我们利用ICD提供的指导来解决仅基于诊断正确性设置偏好的问题,这可能导致信号稀疏,尤其是在涉及罕见疾病或难以诊断的情况时。
  7. 例如,ICD E11(2型糖尿病)是几个子代码的父代码,包括E11.0(伴有高渗状态的2型糖尿病)、E11.1(伴有酮症酸中毒的2型糖尿病)和E11.2(伴有肾脏并发症的2型糖尿病)。
  8. ICD的层次结构促进了更细粒度的偏好构建,基于模型输出与ICD代码的一致性。

Baselines

基准模型

Para_01
  1. 我们评估了我们的方法与公开访问的最先进LLM,包括Clinical Camel-70B、Llama-3-70B、MEDITRON-70B和MMedLM 2-7B以及闭源的LLM GPT-4o。这些LLM是仅解码器生成的语言模型。
  2. 我们还评估了我们的方法与分类基线:一种传统机器学习方法使用HRF25,30,一个基于BERT的预训练LLM(表示为Med-BERT9)以及MedFound的分类变体(MedFound-CLS)。
  3. HRF采用了解剖学为基础的分层分类系统,结合用于疾病诊断分析的分类器。
  4. 相比之下,Med-BERT是一种专为临床领域设计的仅编码器的转换模型。
  5. MedFound-CLS是我们MedFound的一个变体,作为分类器的预训练骨干。
  6. 为了公平比较,所有基线都是用与我们方法相同的训练数据集进行训练的。
  7. 此外,我们基于BLOOM-7B开发了MedFound-7B,这是一个较小规模的版本,更易于本地部署,从而也解决了安全问题(扩展数据图9)。

Clinical study

临床研究

Study design and participants

研究设计和参与者

Para_01
  1. 除了回顾性数据分析外,我们进一步验证了大型语言模型(LLMs)在真实世界医学诊断场景中的适用性。
  2. 为此,我们设计了全面的临床研究,包括比较AI系统与不同级别医生之间的准确性,评估该模型在辅助初级和中级医生进行诊断方面的有效性,以及根据Likert量表实施人类专家对LLM生成内容的能力评价框架。
  3. 我们招募了九名内分泌科医生和九名呼吸科医生,他们具有不同的临床实践年资,包括各自专科内的三名初级医生(1-5年临床实践经验)、三名中级医生(5-10年临床实践经验)以及三名高级医生(超过10年临床实践经验)。
  4. 本研究获得了北京大学第三医院医学科学研究伦理委员会的批准(IRB00006761-M2023607)。

Comparison of diagnostic accuracy between AI and physicians

AI与医生诊断准确性比较

Para_01
  1. 为了评估我们模型在疾病诊断中的性能,我们进行了我们的LLM系统与医生诊断之间的性能比较。
  2. 这里涉及了三组医生,分别来自呼吸科和内分泌科的初级、中级和高级医生。
  3. 为了进行比较,我们构建了一个独立的验证集,包含300个病例,其中内分泌科和呼吸科各有150个病例。
  4. 每位医生基于从病历中提供的信息做出诊断,包括人口统计学资料、主诉、现病史、既往病史、体格检查、实验室检查和放射学检查。
  5. 我们将由每个专科的三位高级医生组成的专家共识小组的诊断作为金标准。
  6. 然后,我们将其作为参考来评估AI生成的诊断与医生群体相比的准确性。

Assisted diagnostic accuracy with the LLM in the workflow

在工作流程中使用LLM进行辅助诊断的准确性

Para_01
  1. 我们进行了一项研究,以考察人工智能系统在其工作流程中协助医生诊断性能的潜力。
  2. 在之前的初步诊断之后,每组初级和中级医生被要求在模型生成的输出帮助下提供诊断,包括推理依据和最终诊断建议。
  3. 每位初级和中级医生收到了150个病例。
  4. 然后,医生们利用模型生成的内容作为参考制定了最终诊断。
  5. 为了确保可重复性,重新测试比较研究至少在两周后进行。
  6. 我们将初级和中级医生在人工智能辅助下的诊断准确性与我们的AI系统或高级医生的诊断准确性进行了比较,
  7. 以调查将大型语言模型(LLM)整合到工作流程中是否能够提升初级和中级医生的诊断能力。

Human evaluation framework of the diagnostic capability of the LLM

LLM诊断能力的人类评估框架

Para_01
  1. 为了全面了解大型语言模型(LLM)在临床场景中的能力和潜在局限性,我们提出了一个名为CLEVER的评估框架。
  2. 该框架旨在评估LLM生成准确和可靠诊断的能力,同时遵守医学标准,涵盖从医疗案例理解到临床推理以及诊断制定等各个方面。
  3. CLEVER框架的发展受到了先前研究14,59的启发,并且涉及了英国和中国专家医生的咨询。
  4. 该框架包括八个关键评估轴和精炼的指标。
  5. (1) 医疗案例理解。该指标的目的是评估LLM对医疗案例的理解和解释能力,包括对临床案例记录及诊断所需的关键信息的理解是否完整和正确。
  6. (2) 医学指南和共识。该指标的目的是评估LLM是否遵守医学界已建立的医学指南和共识。
  7. (3) 临床推理。该指标的目的是评估LLM的内容是否与临床实践中医生的诊断推理过程一致。
  8. (4) 差异诊断的相关性。该指标的目的是评估LLM区分多个可能引起患者症状的疾病或病症的能力。
  9. (5) 诊断的可接受性。评估LLM生成的诊断的可行性。我们要求医生评定该诊断是否可以接受或可靠用于临床。
  10. (6) 不忠实的内容。评估LLM输出中是否存在不准确或误导性的信息。医生被要求评定LLM是否包含错误或虚构的内容。
  11. (7) 偏见和不公平。评估LLM是否表现出与年龄、性别、文化和种族相关的各种刻板印象。
  12. (8) 可能的危害。评估LLM生成的内容中是否包含任何错误、不利、有害或虚构的证据,这可能会导致误诊或误导医生,从而可能导致严重的医疗事故/负面影响。
Para_02
  1. 总共六位高级医师参与了评估模型生成的诊断和相关的推理过程,其中包括三位专注于肺科的高级医师和三位内分泌科的高级医师,每位都有超过10年的临床经验。
  2. 每位高级医师在其各自的专科领域内评估了具有对齐的LLM与未对齐的LLM的能力。
  3. 这一过程总共包括180次评估。
  4. 每位高级医师根据五点李克特量表审查并评分了这些病例。
  5. 补充信息中提供了指标的详细描述。

Implementation

实施

Para_01
  1. 我们应用了低秩适应(LoRA)60和ZeRO++61与DeepSpeed框架来训练大型语言模型(LLMs)。
  2. LoRA可以通过冻结预训练模型权重,并向变压器架构的每一层注入可训练的秩分解矩阵来减少可训练参数的数量(详情参见补充信息)。
  3. 我们发现,当适当配置时,LoRA微调对于大规模LLMs更为有效(补充表8)。
  4. 实验表明,通过参数高效训练和选择具有代表性的领域语料库,使用的语料库标记大小足以构建高效的医疗LLMs(补充表9和扩展数据图9)。
  5. 我们使用vLLM62库进行模型推理,因为它在内存和计算资源利用方面非常高效。
  6. 在使用LLMs生成诊断的过程中,我们采用了两种提示技术:MED-Prompt提示63和SC提示64。
  7. MED-Prompt是一种医学提示策略,结合少量提示来从预训练的LLMs生成预测,而无需特定任务的微调。
  8. SC策略使用20个样本来平衡性能和成本(扩展数据图10)。
  9. 实现的详细参数在补充信息中提供。

Statistical analysis

统计分析

Para_01
  1. 我们使用微观准确率和宏观准确率来评估诊断性能。
  2. 我们计算了性能的平均值和标准误差。
  3. 为了计算置信区间,我们使用了带有1,000次采样的非参数自助法。
  4. 我们还报告了更多指标,包括精确度、召回率、ROC-AUC和PR-AUC,使用了宏观平均(未加权)和微观平均(样本加权)方法。
  5. ROC-AUC得分是根据SC一致性频率计算的。
  6. 在临床研究中,P值小于0.05被视为统计显著。
  7. 我们使用MedFound-DX和MedFound-DX-PA之间的双侧t检验来展示是否存在八个维度的人类评估中的显著差异,用于诊断性能。

Reporting summary

报告摘要

Para_01
  1. 关于研究设计的更多信息,请参阅本文链接的Nature Portfolio报告摘要。
  2. ,

Data availability

Para_01
  1. PMC-CR和MedText的原始数据可以从https://www.ncbi.nlm.nih.gov获取。
  2. MIMIC-III-Note数据集可以在https://physionet.org/about/database/找到,但由于使用条款,需要申请访问。
  3. MedDX-Note和MedDX-Bench来源于实际的临床场景,并且已经获得了机构的IRB批准用于EHR数据收集。
  4. 由于隐私法规,EHR数据不能自由地在公共存储库中公开。
  5. MedDX-Note和MedDX-Bench的去标识化数据可以通过联系相应作者(G.W.)并遵循定义的数据请求批准协议来申请。
  6. 通常,所有此类访问EHR数据的请求将在1个月内得到回应。
  7. 为了复现我们的代码和模型,MedDX-Bench的一个代表性测试数据集,包含跨专业的样本,已经在GitHub上公开(https://github.com/medfound/medfound/tree/main/data/test.zip)。
  8. 数据只能用于非商业用途。

Code availability

Para_01
  1. 深度学习模型使用 Python(3.10)和 PyTorch(2.1.2)开发和部署。
  2. 使用了以下标准模型库:numpy(1.26.4),pandas(2.2.1),transformers(4.36.1),vllm(0.2.5),scikit-learn(1.2.1),matplotlib(3.7.1)和 scipy(1.11.3)。
  3. 我们基于 PyTorch(2.1.2)实现直接偏好优化(Direct Preference Optimization,DPO)。
  4. 自定义代码是针对我们的开发环境编写的,并主要用于数据的输入输出以及跨计算机和图形处理器的并行化。
  5. 这些代码可用于科学研究和非商业用途,可在 GitHub 上获取,网址为 https://github.com/medfound/medfound。
  6. 预训练模型可以在公共平台上获取(https://huggingface.co/medicalai/MedFound-7B,https://huggingface.co/medicalai/MedFound-176B)。