Basic Information
-
英文标题:A generalist medical language model for disease diagnosis assistance
-
-
-
-
-
文章作者:Xiaohong Liu | Guangyu Wang
-
文章链接:https://www.nature.com/articles/s41591-024-03416-6
Abstract
Para_01
-
在医疗保健中,提供准确的诊断至关重要,它是通往适当和及时治疗的关键入口。
-
尽管最近的大型语言模型(LLMs)在少量或零样本学习中展示了令人印象深刻的性能,但它们在临床诊断中的有效性仍未得到证实。
-
我们在此介绍 MedFound,这是一个具有 1760 亿参数的通用医学语言模型,预先训练在一个大规模语料库上,该语料库来源于多样化的医学文本和真实的临床记录。
-
我们进一步通过基于自引导策略的链式思维方法微调了 MedFound,以学习医生的推理诊断,并引入了一个统一的偏好对齐框架,使其与标准临床实践对齐。
-
广泛的实验表明,我们的医学 LLM 在八种专科的同分布(常见疾病)、外分布(外部验证)和长尾分布(罕见疾病)场景中,优于其他基线 LLM 和专用模型。
-
进一步的消融研究证明了我们医学 LLM 训练方法中关键组件的有效性。
-
我们进行了一项全面评估,涉及人工智能(AI)与医生对比、AI 辅助研究和人类评估框架,以考察 LLM 在诊断中的临床适用性。
-
我们提出的框架包含了八个临床评估指标,涵盖了诸如病历总结、诊断推理和风险管理等能力。
-
我们的研究结果表明,该模型在临床工作流程中协助医生进行疾病诊断是可行的。
Main
Para_01
-
准确诊断的提供在医疗保健领域中起着至关重要的作用,并且是所有医生的基本技能。
-
诊断过程通常包括通过分析症状、体征和检查结果来识别疾病,以制定诊断和鉴别诊断,这是一个扩展推理的过程。
-
尽管接受了广泛的医学培训,诊断仍容易出错,在初级保健水平上的误诊率估计为20%,这约占医疗实践中所有不良事件的17%。
-
几十年来,人们付出了巨大的努力来提高疾病诊断的准确性和可及性,包括传统的基于规则的临床决策支持系统(CDSS)以及提取结构化特征以开发临床预测模型的机器学习技术。
-
然而,对结构化输入和专门培训的依赖既复杂又耗费资源。
-
在主要医学预测算法的开发与其在多样化医疗环境中的实际临床应用之间仍然存在显著差距。
Para_02
-
近年来,预训练语言模型(PLMs)的出现极大地推动了自然语言处理(NLP)领域的发展。
-
这些模型首先通过大规模语料库上的自监督学习任务进行预训练(例如,BERT 的掩码语言建模和 GPT 的自回归语言建模),然后在特定下游任务上进行微调。
-
进一步研究表明,当模型规模、数据集规模和计算资源足够大时,大型语言模型(LLMs)可以在多个 NLP 任务中展现出新兴的少样本和零样本特性。
-
PLMs 和 LLMs 的最新进展引起了人们对其在生物医学领域的应用兴趣,例如 ClinicalBERT、NYUTron、GatorTron 和 BioGPT 等针对该领域的预训练语言模型。
-
这些模型展示了转变任务特定范式和解决医疗预测分析中‘最后一英里’挑战的潜力,从而推动了多功能临床应用的开发。
Para_03
-
尽管 LLM 技术在生物医学领域具有潜力,但对其功能的利用仍处于初步阶段。
-
大多数研究集中在 LLM 在医学中的使用案例报告,尤其是 ChatGPT 的应用。
-
目前缺乏为真实临床环境专门设计且公开可用的高质量 LLM 模型。
-
虽然少量研究探讨了将临床知识整合到 LLM 中以完成医疗问答或对话任务,但它们在临床诊断推理方面的能力尚未得到充分开发或评估。
-
此外,生成式 LLM 可能会出现虚构事实的情况,这可能会对依赖其推荐诊断结果的临床医生造成危害。
-
因此,采用对齐技术确保这些模型与临床诊断知识目标一致,并能够‘安全地帮助用户’变得至关重要。
-
当前对 LLM 模型的评估通常基于有限基准的自动化评估,突显了在真实临床环境中对基于 LLM 的工具进行全面评估的必要性。
错误!!! cannot unpack non-iterable NoneType object
Fig. 1: Schematic illustration of the development and evaluation of our diagnostic generalist.
- 图片说明
◉ 我们预先训练了一个包含176亿参数的MedFound,其基于一个大型医学语料库,包括PMC-CR、MIMIC-III-Note、MedDX-Note和MedText。
◉ 我们通过诊断推理对MedFound进行微调,并结合诊断层次偏好和有用性偏好对其进行了对齐,从而得到了MedFound-DX-PA。
◉ 在真实场景中进行诊断性能基准测试。
◉ 我们在ID、OOD和长尾疾病分布设置下进行了评估,涵盖八个专科的疾病,包括肺病学、胃肠病学、泌尿科、心脏病学、免疫学、精神病学、神经病学和内分泌学。
◉ 对AI系统的临床评估。
◉ 我们与医生一起进行了评估,包括对比研究、AI辅助研究和在人类评估框架下的定性研究。
Para_05
-
我们进行了一项全面评估,以评估 MedFound-DX-PA 在实施过程中的诊断性能。
-
首先,我们使用来自三个不同专科场景的实际临床记录建立了一个基准研究,包括同分布(ID)、异分布(OOD)以及长尾疾病分布设置。
-
结果表明,MedFound-DX-PA 在多个维度上优于现有模型,尤其是在诊断以前研究中被忽视的罕见疾病方面表现突出。
-
此外,我们开展了一系列前瞻性临床研究,包括人工智能(AI)与专科医生的对比研究,以及在工作流程内的进一步 AI 辅助研究。
-
我们还引入了一个称为 CLEVER(用于诊断中有效推理的临床评估)的人类评价框架,该框架使用八个指标来探讨当前大语言模型在真实世界医疗场景中的可行性和局限性。
-
这些研究表明,我们提出的大语言模型作为通用医学人工智能(GMAI)在医学诊断领域具有潜力。
Results
Overview of the proposed LLM and dataset characteristics
所提出的大规模语言模型和数据集特征概述
Para_01
-
在这项研究中,我们提出了 MedFound,这是一个为医疗应用定制的预训练大语言模型,以及 MedFound-DX-PA,它专门针对诊断分析应用进行了训练。
-
为了开发和评估我们的模型,我们构建了三个数据集——MedCorpus、MedDX-FT 和 MedDX-Bench——其中 MedCorpus 和 MedDX-FT 用于训练,而 MedDX-Bench 用于评估。
-
Para_02
-
在第一阶段,我们继续在通用领域的大型语言模型 BLOOM-176B 上进行预训练,从而得到了 MedFound。
-
为了开发 MedFound,我们整理了一个大规模的医学语料库数据集 MedCorpus,其中包含来自四个数据集的总计 63 亿个文本标记:MedText、PubMed Central Case Report (PMC-CR)、MIMIC-III-Note 和 MedDX-Note。
-
这些数据集来源于多样化的临床代表性资源:医学教科书和临床指南、文献中的患者病例报告、开放获取的临床记录以及医院系统提供的真实世界电子健康记录(EHR)专有数据集(详见方法部分)。
-
因此,在 MedCorpus 上的预训练使 MedFound 能够编码广泛的医学知识和实践经验,使其成为医疗领域广泛应用的基础工具。
Para_03
-
在第二阶段,我们对 MedFound 进行了微调,以模仿医生的诊断推理过程,从而得到了 MedFound-DX。
-
我们整理了一个名为 MedDX-FT 的数据集,其中包含医疗记录及相关诊断推理示例,用于微调模型。
-
医生被要求根据实际的医疗记录,手动构建他们的临床推理过程示例,以诊断给定的患者病例。
-
-
基于手动构建的示例集合和 109,364 份电子健康记录(EHR),我们采用了一种自引导策略,以增强大语言模型(LLM)自动生成高质量诊断推理(中间推理步骤)的能力,而无需大量专家的工作投入。
Para_04
-
在第三阶段,我们通过采用统一的PA框架进一步优化了模型在实际临床应用中的实用性,该框架整合了‘诊断层次偏好’和‘有用性偏好’。
-
对于‘诊断层次偏好’,我们利用ICD-10树的层次结构来引导大语言模型与已建立的疾病知识和诊断流程保持一致。
-
对于‘有用性偏好’,大语言模型通过评估给定诊断推理的有用性直接与专家反馈对齐(扩展数据图2b),从而确保与人类价值观的一致性。
-
两组偏好均使用直接偏好优化(DPO)方法进行优化,这是一种简单的无需强化学习的算法,简化了偏好学习的流程。
Para_05
-
在评估阶段,我们构建了 MedDX-Bench,这是一个包含三个临床数据集的基准——MedDX-Test、MedDX-OOD 和 MedDX-Rare——用于全面评估大语言模型在真实世界临床环境中的诊断能力。
-
MedDX-Test 数据集是对 MedFound-DX-PA 在各专科领域的诊断性能进行内部评估的数据集,包含 11,662 份与训练数据分布相同的医疗记录。
-
MedDX-OOD 和 MedDX-Rare 数据集作为外部验证集构建,数据来源为中国湖北省的一个不同地理区域,用于评估模型在分布外(OOD)情况下的表现。
-
MedDX-OOD 数据集包含 23,917 份常见疾病的记录,这些疾病同样出现在 MedDX-FT 中;而 MedDX-Rare 数据集则包括 20,257 份记录,涵盖 2,105 种长尾分布的罕见疾病。
-
评估数据集涵盖了日常诊断流程中的电子健康记录(EHR),包括主诉、现病史、体格检查、实验室检验和影像学报告。
-
这三个数据集在不同疾病多样性条件下对模型的泛化能力提出了挑战。
Performance of the LLMs on common diseases across specialties
大型语言模型在各专科常见疾病上的表现
Para_01
-
首先,我们在 ID 和 OOD 环境下评估了 MedFound-DX-PA 在跨专科诊断常见疾病方面的性能。
-
我们将其与领先的大型语言模型进行了比较,包括开源的 MEDITRON-70B、Clinical Camel-70B 和 Llama 3-70B,以及闭源的 GPT-4o。
-
MEDITRON-70B 和 Clinical Camel-70B 都是医学预训练的大规模语言模型,并在医学任务中表现出优异的性能。
-
Llama 3-70B 是流行的开源 Llama 系列的一员,在各种领域特定任务中表现出色。
-
GPT-4o 是 ChatGPT 的最新版本,据报道其知识库更广泛,问题解决能力更强,在诊断任务中显示出潜力。
-
关于这些大规模语言模型的详细信息可以在补充表 2 中找到。
-
所有开源模型都经过微调,并采用自一致性(SC)解码方法来评估其诊断能力。
Para_02
-
在身份设定评估中,我们构建了 MedDX-Test 数据集,涵盖了八个专科领域中代表 99% 人口的常见细粒度疾病。
-
例如,我们评估了模型诊断自身免疫性甲状腺炎(一种特定的甲状腺疾病)的能力,而不仅仅是将其归类为一般的甲状腺疾病。
-
在所有专科领域的平均表现上,我们的模型表现出色,实现了 84.2% 的诊断前三准确率(95% 置信区间:83.5%,84.8%)。
-
这相对于其他四个模型有了显著提升,这些模型的平均准确率范围从 64.8%(95% 置信区间:63.9%,65.6%;Clinical Camel-70B)到 56.8%(95% 置信区间:55.9%,57.7%;MEDITRON-70B)。
-
其中,GPT-4o 达到了 62.0% 的诊断准确率(95% 置信区间:61.1%,62.8%),略低于表现次优的模型 Clinical Camel-70B。
-
我们按照专科(例如心脏病学、神经病学和内分泌学)对结果进行了分层分析,以提供关于基于大语言模型的诊断通才的详细见解。
-
我们的 MedFound 在所有大语言模型中始终表现最佳,准确率范围从 82.4% 到 89.6%。
-
我们还使用了 Top-1 准确率、宏准确率、接收者操作特征曲线下面积(ROC-AUC)以及精确率-召回率曲线下面积(PR-AUC)等指标对模型进行了评估,结果同样表明 MedFound-DX-PA 的卓越性能。
Fig. 2: Performance of the LLMs for diagnosis of common diseases across various specialties.
- 图片说明
◉ a到d,对比了MEDITRON-70B、Llama 3-70B、Clinical Camel-70B、GPT-4o和我们的MedFound-DX-PA在综合诊断任务中的Top-3准确率。
◉ 结果显示在ID环境(n = 11,662)(a和b)以及OOD环境(n = 23,917)(c和d)中覆盖八个专科的情况。
◉ a和c表示整体性能,而b和d表示按专科分类的性能。
◉ e和f,对比了大型语言模型在八个专科特定的ID和OOD环境中的Top-3准确率。
◉ 柱状图表示平均值±95%置信区间。
Para_03
-
此外,我们在 MedDX-OOD 数据集上评估了我们模型的泛化能力,该数据集中的病例来自外部真实世界环境。
-
图 2c,d 分别展示了每个专科的平均性能和分层性能。
-
MedFound-DX-PA 在所有专科中显著优于基线模型(所有 P < 0.001)。
-
结果表明,我们的模型作为诊断通才在各种临床疾病中具有良好的泛化能力,尤其是在细粒度疾病诊断方面。
Para_04
-
我们还将我们的诊断通才扩展到需要特定医学领域专业知识的专科场景中。
-
通过为大型语言模型(LLM)为基础的通才设置专科特定的情境提示,我们赋予了它疾病专家的角色(详见方法部分)。
-
在MedDX-Test数据集上,我们的模型达到了87.9%(95%置信区间:87.2%,89.6%)至93.9%(95%置信区间:92.6%,95.9%)的前三名准确率;在MedDX-OOD数据集上,准确率范围为85.8%(95%置信区间:83.4%,88.6%)至90.2%(95%置信区间:88.7%,93.5%),这表明我们的模型能够适应这些专科场景的精度要求。
-
我们还使用开放访问的数据集,在多分类、特定疾病的任务上将我们的MedFound与现有的专科决策支持工具进行了比较(补充表4)。
-
Performance of the LLMs on rare diseases
大型语言模型在罕见疾病方面的表现
Para_01
-
我们扩展了实验,以考察大语言模型在诊断由长尾分布特征的罕见疾病方面的表现。
-
先前的模型在识别常见疾病方面显示出有效性,但在少样本或零样本场景中对罕见疾病的分类性能往往会下降。
-
如图3a所示,疾病的分布呈现出长尾分布,常见疾病覆盖了99%的人口,而剩下的1%则包括了多种较少见的疾病。
-
为了评估大语言模型在诊断广泛病症范围内的适应性,我们在MedDX-Rare数据集上使用了零样本学习设置,该数据集包含从八个专科领域长尾分布中提取的2,105种罕见疾病(图3b和补充数据图6a)。
-
图3c中的条形图展示了MedFound-DX-PA在每个专科内每种细分类别的罕见疾病上的Top-3准确率,雷达图则显示了每个专科在各种疾病中的整体表现(详见方法部分)。
-
MedFound-DX-PA在所有专科中表现出色,准确率范围从77.4%(95%置信区间:76.8%,78.0%)到84.4%(95%置信区间:83.9%,84.9%),平均值为80.7%(95%置信区间:80.1%,81.2%)(图3c)。
-
GPT-4o取得了第二好的表现,准确率范围从57.2%(95%置信区间:56.5%,57.9%)到63.1%(95%置信区间:62.4%,63.8%),平均值为59.1%(95%置信区间:58.4%,59.8%)。
-
这一趋势也在Top-1宏准确率中得到了体现(补充数据图6b)。
Fig. 3: Performance of the LLMs for diagnosis of rare diseases across various specialties.
- 图片说明
◉ 疾病流行率的分布。横轴表示从常见到罕见的一系列疾病。纵轴表示受每种疾病影响的人口数量。曲线分为两个区域。蓝色区域代表常见疾病(累计流行率≥99%),绿色区域代表罕见疾病(累计流行率<1%)。
◉ 八个专科中疾病的数量分布(n = 20,257)。蓝色条形代表常见疾病的数量,绿色条形代表罕见疾病的数量。
◉ MEDITRON-70B、Llama 3-70B、Clinical Camel-70B、GPT-4o 和我们的 MedFound-DX-PA 在八个专科中诊断罕见疾病的 Top-3 宏观准确率比较。雷达图显示了大型语言模型在每个专科表现中的 Top-3 宏观准确率,通过汇总疾病流行率的八分位数得出。条形图显示了 MedFound-DX-PA 对每个专科内个别疾病的 Top-3 准确率。
◉ 大型语言模型在八个专科中诊断罕见疾病的 Top-3 微观准确率比较。条形图表示平均值±95%置信区间。
Para_02
-
通过 Top-3 微观准确率进一步评估了大语言模型的平均性能,该指标在每个专科中对个体给予平等考虑,以减轻小样本类别带来的影响,如图 3d 所示。
-
表现第二好的 LLM 模型 GPT-4o 达到了中等水平的表现,其准确率范围为 77.4%(95% 置信区间:76.9%,78.0%)到 85.8%(95% 置信区间:85.3%,86.2%),平均准确率为 82.1%(95% 置信区间:81.6%,82.7%)。
-
相比之下,MedFound-DX-PA 在所有专科中表现出色,显著提升了性能,准确率范围为 87.4%(95% 置信区间:87.0%,87.9%)到 93.0%(95% 置信区间:92.7%,93.4%),平均准确率为 89.2%(95% 置信区间:88.8%,89.6%)。
-
其他指标如 ROC-AUC 和 PR-AUC 同样表明 MedFound-DX-PA 相较于其他 LLM 模型具有更优越的表现(扩展数据图 6c 和补充表 3)。
-
为了进一步研究模型在涉及不同患病率的长尾疾病分布中的诊断性能,我们将这些疾病分为超罕见病(患病率 ≤0.1%)和罕见病(患病率 0.1–1%)组(扩展数据图 6d 和补充表 5)。
-
结果表明,MedFound-DX-PA 在这两组之间的表现始终保持一致的良好水平。
-
这可以归因于 MedFound-DX-PA 的生成能力及其对诊断结构的全面理解,使其能够灵活适应细粒度的罕见疾病。
Performance comparison between the LLM versus physicians
大型语言模型与医生的性能对比
Para_01
-
在这里,我们将基于大规模语言模型的诊断系统与内分泌科和呼吸科的人类医生的诊断能力进行了比较。
-
我们招募了18名医生,其中包括9名内分泌科医生和9名呼吸科医生,并根据临床经验将他们分为三组:初级(n = 3)、中级(n = 3)和高级(n = 3)。
-
-
扩展数据图3a展示了医生在此次评估任务中使用的界面。
-
医生的表现是通过与专家组确定的金标准诊断进行对比来衡量的。
-
在呼吸科领域,MedFound-DX-PA实现了72.6%的诊断准确率,超过了初级医生(60.0%)和中级医生(67.7%),但略低于高级医生(76.2%)。
-
同样,在内分泌科领域,人工智能的准确率(74.7%)超过了初级医生(69.4%)和中级医生(72.5%),并且与高级医生(75.2%)相当。
-
这些结果表明,我们的基于大规模语言模型的诊断通才在两个专科中均超越了初级和中级医生,并且与高级医生表现相似。
Fig. 4: Performance evaluation between the AI system and human physicians for diagnosis.
- 图片说明
◉ a,b,在肺科学(a)和内分泌学(b)中,MedFound-DX-PA 和人类医生诊断推理的性能比较(n = 900)。
◉ 条形图表示人工智能系统(橙色)、人类医生(浅蓝色)以及使用 MedFound-DX-PA 辅助的医生(深蓝色)的诊断准确性。
◉ 灰色虚线代表 MedFound-DX-PA 的性能。
◉ c,在八个维度上对 MedFound-DX 和 MedFound-DX-PA 进行了人类评估,包括‘病例理解’(P = 0.032)、‘临床推理’(P = 0.006)、‘医学指南与共识’(P = 0.180)、‘鉴别诊断的相关性’(P = 0.036)、‘诊断的可接受性’(P < 0.001)、‘不准确内容’(P = 0.002)、‘偏差与不公平性’(P = 0.015)和‘潜在危害的可能性’(P = 0.009)。
◉ 条形图显示了 MedFound-DX(浅橙色)和 MedFound-DX-PA(深橙色)的平均值 ± 95% 置信区间。
◉ 统计分析采用双尾 t 检验完成。
◉
P < 0.001,
P < 0.01,
P < 0.05,NS(无显著性)P > 0.05。
Performance of the LLM-assisted diagnosis within workflows
在工作流中使用LLM辅助诊断的性能
Para_01
-
我们进一步探讨了大语言模型在临床工作流程中提高医生诊断性能的潜在作用。
-
当提供去除诊断信息的电子健康记录(EHR)时,来自两个专科的初级和中级医生进行了初步诊断。
-
两周后,他们参考了人工智能生成的内容来制定第二次诊断(扩展数据图 3b)。
-
在呼吸科领域,人工智能辅助显著提高了初级和中级医生的准确性,分别提高了 11.9% 和 4.4%,其表现接近人工智能系统,但仍略低于资深医生(图 4a)。
-
例如,在图 5a 所示的一个病例中,医生最初根据患者的现病史和实验室检查中的 C-反应蛋白水平诊断为‘急性支气管炎’。
-
然后,在人工智能生成内容的帮助下,该内容强调了患者反复发作支气管炎的历史,医生将诊断修订为准确的‘慢性支气管炎急性加重’。
Fig. 5: Examples of AI-assisted diagnosis evaluation.
- 图片说明
◉ a,b,MedFound-DX-PA 模型生成的诊断推理示例,用于协助医生进行诊断过程。
◉ a,用于肺科医生评估的病例。
◉ b,用于内分泌科医生评估的病例。
◉ 每个病例都包含患者的症状、病史和检查信息。
◉ 医生在首次审阅临床记录后做出初步诊断,并在参考人工智能提供的诊断推理后重新诊断。
Para_02
-
在内分泌学领域,初级和中级内分泌学家的诊断准确率在人工智能辅助下分别显著提高到74.0%(增加了4.6%)和78.8%(增加了6.3%)。
-
值得注意的是,在人工智能的帮助下,中级内分泌学家的表现超过了资深内分泌学家,这表明人工智能有潜力将诊断准确率提升到超越大多数经验丰富的医生的水平。
-
例如,如图所示,当医生在患者的实验室检查中发现促甲状腺激素水平升高时,会初步诊断为亚临床甲状腺功能减退症。
-
在使用人工智能辅助重新评估时,模型突显了之前被忽略的抗甲状腺过氧化物酶抗体水平升高,提示可能存在潜在的自身免疫性甲状腺疾病。
-
-
这些结果表明,医生可以通过大型语言模型的帮助突出重要的临床数据,从而提高医疗服务的质量。
Human evaluation framework for AI’s diagnostic capabilities
人工智能诊断能力的人类评估框架
Para_01
-
以往的评估指标主要集中在准确率或自然语言生成得分(例如,BLEU 或 ROUGE)等度量上,这些指标无法反映推理诊断过程的临床质量。
-
为了解决这一问题,我们提出了一种针对现实世界诊断中人工智能的系统性评估框架,该框架通过文献回顾和与资深医生的咨询建立起来。
-
CLEVER 框架将基于大语言模型的系统能力分为八个临床评估指标,揭示了大语言模型在符合医学标准方面的优势和局限性(详见方法部分)。
-
在评估过程中,从上述两个专科招募了六位资深医生,采用从 1 到 5 的李克特量表评分系统(图 4c 和扩展数据图 4)。
Para_02
-
在‘医学病例理解’中,专家小组评估了大语言模型对医学病例的理解和解释能力,例如评估其内容是否完整且正确地包含诊断所需的信息。
-
我们提出的 MedFound-DX-PA 在‘医学病例理解’中得分为 4.02,显著超过未对齐的大语言模型的 3.77(P < 0.05)。
-
在‘临床推理’方面也观察到类似的趋势,这一部分用于评估大语言模型的推断性诊断是否与医生在临床实践中的诊断推理过程一致。
-
MedFound-DX-PA 表现出优越的性能,得分为 4.07,显著高于未对齐模型的 3.63(P < 0.01)。
-
在‘医学指南和共识’方面,要求医生评估大语言模型的输出是否符合既定的医学指南和共识。
-
MedFound-DX-PA 的李克特评分达到 3.83,而未对齐模型的评分为 3.62(P = 0.18)。
-
这些结果表明,我们的模型能够捕捉相关的医学证据并整合诊断推理,可能为临床决策提供更好的支持。
Para_03
-
我们还试图评估大语言模型在支持临床决策方面的有效性。
-
对于‘鉴别诊断的相关性’,医生评估了模型在区分可能导致患者症状的多种可能病症方面的能力。
-
我们的模型得分为3.93,超过了未对齐模型的3.62(P < 0.05)。
-
‘诊断的可接受性’用于评价诊断是否在临床上可接受或可靠。
-
在这一类别中,我们的模型得分4.21,显著优于未对齐模型的3.72(P < 0.001)。
-
Para_04
-
在关键临床场景中,大型语言模型(LLMs)应避免生成不准确或误导性的信息(‘不忠实内容’),或者表现出与性别、文化和种族相关的不同程度的刻板印象(‘偏见和不公平’)。
-
此外,至关重要的是,LLM生成的内容不应包含任何错误或有害的证据,这可能会导致误诊或误导医生关于可能发生的医疗事故(‘潜在危害’)。
-
我们通过评估‘不忠实内容’、‘偏见和不公平’以及‘潜在危害’来考察模型的风险控制能力。
-
我们的模型在这三个指标上表现优异,分别得分为 4.11、4.14 和 4.03,显著超越未对齐模型的 3.66(P < 0.01)、3.82(P < 0.05)和 3.66(P < 0.01)。
-
结果表明,基于 LLM 的系统可以通过与人类价值观对齐进行优化,从而提高其可信度和临床适用性。
Impact of training components on the performance of LLMs
训练组件对大型语言模型性能的影响
Para_01
-
为了探讨我们提出的方案中关键组成部分对大型语言模型(LLM)诊断性能的影响,我们使用 MedDX-Bench 和最新的领先 LLMs(包括 Clinical Camel-70B、Llama-3-70B 和 MEDITRON-70B)进行了实验。
-
我们首先通过调整 MED-Prompt 来研究 LLMs 的固有诊断能力,这使得 LLMs 熟悉医疗任务,并能够在没有任何额外训练的情况下适应诊断任务。
-
结果显示,MedFound(不带 SC)表现出优异的性能,在 MedDX-Test、MedDX-OOD 和 MedDX-Rare 上分别比其他 LLMs 的平均性能提高了 14.4%、11.9% 和 11.1%(图 6a)。
-
例如,在 MedDX-Test 上,MedFound 达到了 37.2% 的准确率(95% CI:36.3%,38.1%),优于第二好的 LLM(Clinical Camel-70B,准确率为 30.8%,95% CI:29.9%,31.6%)。
-
在其他评估指标(如宏观准确率)中也观察到了类似的结果,详细数据见补充表 6。
-
这表明 MedFound 是一个更有效的预训练模型用于诊断任务,可能是因为其在 MedCorpus 上的全面预训练,使其能够编码广泛的医学知识和实际临床案例。
Fig. 6: Performance analysis of LLM training components for various diagnostic tasks.
- 图片说明
◉ 通过 MED-Prompt 在 MedDX-Test(常见病的同分布测试)(左侧)(n = 11,662)、MedDX-OOD(常见病的外分布测试)(中间)(n = 23,917)和 MedDX-Rare(罕见病的外分布测试)(右侧)(n = 20,257)上对不同预训练大语言模型在诊断任务中的准确性进行比较。
◉ 误差条表示 95% 的置信区间。
◉ 链式微调(COT fine-tuning)对各种大语言模型在 MedDX-Test(常见病的同分布测试)(左侧)、MedDX-OOD(常见病的外分布测试)(中间)和 MedDX-Rare(罕见病的外分布测试)(右侧)上的诊断任务准确性的影响分析。
◉ 短水平线显示了一组模型的平均性能,所显示的百分比增长是通过 COT 微调获得的改进。
Para_02
-
除了评估预训练LLM固有的诊断能力外,我们还进一步研究了通过在特定领域数据上进行额外训练的链式思维微调对提高LLM诊断准确性的影响。
-
如图6b和补充表7所示,所有模型在微调后在MedDX-Bench任务上的表现均有所提升,MedDX-Test、MedDX-OOD和MedDX-Rare的平均微观准确率分别提高了14.9%、15.9%和12.7%。
-
在链式思维微调之后,我们采用了SC解码技术,通过减少输出的变异性并使其与特定领域的需求对齐,进一步提升了模型的推理性能。
-
如扩展数据图7和补充表3所示,所有LLM通过采用SC均表现出改进,MedDX-Test、MedDX-OOD和MedDX-Rare的微观准确率分别提高了12.1%、11.1%和7.6%。
-
总之,我们提出的预训练-微调方法显著提高了LLM在医疗任务上的性能,特别是在罕见疾病等具有挑战性的案例中。
Discussion
Para_01
-
在这项研究中,我们开发了 MedFound-DX-PA,这是一种大规模的通用诊断医疗助手,旨在各种医疗场景中接近临床医生的专业水平。
-
在 MedDX-Bench 上评估时,MedFound-DX-PA 在各个专科和病症上表现出卓越的诊断性能,包括常见病的分布内(ID)和分布外(OOD)设置,以及罕见病的诊断能力。
-
此外,我们进行了 MedFound-DX-PA 与专科医生的对比研究和一项人工智能辅助研究,结果表明其有可能提升初级或中级医生的诊断能力。
-
此外,对大型语言模型的人类评估研究显示,我们的 MedFound-DX-PA 有潜力作为通才整合到临床工作流程中。
Para_02
-
疾病诊断对日常临床任务至关重要,但容易出错,可能导致不良后果或治疗被延误或推迟。
-
以前的AI辅助诊断工具包括基于规则的临床决策支持系统(CDSSs)、在电子健康记录(EHR)结构化特征上进行的机器学习以及预训练语言模型(PLMs)。
-
然而,由于其特定的训练数据和模型规模,这些工具的应用受到限制,需要开发针对特定专业的模型,而这效率低下。
Para_03