专栏名称: SCI天天读
每日推送最新SCI文章
51好读  ›  专栏  ›  SCI天天读

一种用于辅助疾病诊断的通用型医学语言模型

SCI天天读  · 公众号  ·  · 2025-02-04 20:00

正文

请到「今天看啥」查看全文


SCI

3 February 2025

A generalist medical language model for disease diagnosis assistance

(Nature Medicine, IF: 56.7)

  • Xiaohong Liu, Hao Liu, Guoxing Yang, Zeyu Jiang, Shuguang Cui, Zhaoze Zhang, Huan Wang, Liyuan Tao, Yongchang Sun, Zhu Song, Tianpei Hong, Jin Yang, Tianrun Gao, Jiangjiang Zhang, Xiaohu Li, Jing Zhang, Ye Sang, Zhao Yang, Kanmin Xue, Song Wu, Ping Zhang, Jian Yang, Chunli Song & Guangyu Wang

  • CORRESPONDENCE TO: yangjian@ctgu.edu.cn; schl@bjmu.edu.cn; guangyu.wang24@gmail.com

The delivery of accurate diagnoses is crucial in healthcare and represents the gateway to appropriate and timely treatment. Although recent large language models (LLMs) have demonstrated impressive capabilities in few-shot or zero-shot learning, their effectiveness in clinical diagnosis remains unproven. Here we present MedFound, a generalist medical language model with 176 billion parameters, pre-trained on a large-scale corpus derived from diverse medical text and real-world clinical records. We further fine-tuned MedFound to learn physicians’ inferential diagnosis with a self-bootstrapping strategy-based chain-of-thought approach and introduced a unified preference alignment framework to align it with standard clinical practice. Extensive experiments demonstrate that our medical LLM outperforms other baseline LLMs and specialized models in in-distribution (common diseases), out-of-distribution (external validation) and long-tailed distribution (rare diseases) scenarios across eight specialties. Further ablation studies indicate the effectiveness of key components in our medical LLM training approach. We conducted a comprehensive evaluation of the clinical applicability of LLMs for diagnosis involving artificial intelligence (AI) versus physician comparison, AI-assistance study and human evaluation framework. Our proposed framework incorporates eight clinical evaluation metrics, covering capabilities such as medical record summarization, diagnostic reasoning and risk management. Our findings demonstrate the model’s feasibility in assisting physicians with disease diagnosis as part of the clinical workflow.

精准诊断在医疗领域至关重要,是实现及时、合理治疗的关键环节。尽管近年来的大型语言模型(LLMs)在少样本和零样本学习任务中表现出色,但其在临床诊断中的有效性尚未得到验证。在本研究中,我们提出了一种通用型医学语言模型——MedFound,该模型拥有1760亿个参数,并基于来自多种医学文本和真实临床记录的大规模语料库进行预训练。此外,我们进一步采用自引导策略结合链式思维方法,对MedFound进行微调,使其能够学习医生的推理诊断过程,并引入统一偏好对齐框架(unified preference alignment framework)使其符合标准临床实践。大量实验表明,在八个医学专科领域内,MedFound在分布内(常见疾病)、分布外(外部验证)以及长尾分布(罕见疾病)场景中均优于其他基线LLMs和专业医学模型。此外,消融研究进一步验证了关键训练方法在提升医学LLM性能方面的有效性。为了全面评估LLMs在临床诊断中的适用性,我们进行了人工智能(AI)与医生对比、AI辅助诊断研究及人工评估框架分析。我们提出的评估框架涵盖八项临床评估指标,包括病历摘要、诊断推理和风险管理等能力。研究结果表明,该模型在临床工作流程中具备辅助医生进行疾病诊断的可行性。


AI全文解析
这篇文章主要介绍了一种名为 MedFound-DX-PA 的通用医学语言模型在疾病诊断中的应用与研究。以下是重点分析与总结:

背景

1. 问题现状:

• 准确的疾病诊断是医疗工作的核心,但诊断错误率较高(约20%),对患者健康构成严重威胁。

• 传统的临床决策支持系统(CDSSs)依赖于结构化输入和特定领域训练,难以满足复杂医疗场景的需求。

2. 研究目标:

• 开发一个通用医学语言模型(LLM),不仅涵盖广泛的医疗知识,还能够辅助临床医生进行复杂的诊断推理。

方法

1. 模型开发:

• 使用1760亿参数的通用语言模型 BLOOM-176B 进行预训练,构建了 MedFound。

• 通过大规模医学语料库(6.3 billion文本标记)进一步训练,包括医学教材、临床指南、病例报告和真实电子健康记录(EHRs)。

• 通过 “自引导链式推理”(COT) 和 “偏好对齐”(PA)框架微调模型,使其能够模仿临床诊断推理过程。

2. 数据集与评估:

• 构建了三个数据集(MedDX-Test、MedDX-OOD和MedDX-Rare)分别评估模型在常见疾病、分布外病例和罕见疾病场景下的表现。

主要研究发现

1. 模型性能:

• 常见疾病:

• 在8个专科的常见疾病中,MedFound-DX-PA 的Top-3诊断准确率达到84.2%,显著优于现有模型(如GPT-4o、Clinical Camel-70B)。

• 罕见疾病:

• 在包含2105种罕见疾病的数据集中,其Top-3诊断准确率为80.7%,同样大幅超越其他LLMs。

• 分布外病例:

• 在地理和数据分布不同的场景中表现出强大的泛化能力。

2. 与人类医生的比较:

• 在肺病和内分泌学领域,模型的诊断准确率接近资深医生(74.7% vs. 75.2%),并明显优于初级和中级医生。

3. AI辅助诊断:

• AI辅助能够提升医生的诊断能力,初级医生的准确率提高了11.9%,中级医生提高了4.4%。

4. 临床可用性:

• 提出了CLEVER评估框架,从8个维度(如病例理解、推理能力、诊断接受度等)评估模型的临床价值,结果显示模型在各方面均优于未对齐模型。

研究意义

1. 创新性:

• 通过结合自引导学习和诊断层级偏好优化,将模型对齐到国际疾病分类(ICD-10)和临床实践标准。

• 在罕见疾病和复杂病例场景中展现了卓越的推理和诊断能力。

2. 实际应用:

• MedFound-DX-PA 可集成于临床工作流,用于病例总结、诊断建议和风险管理,特别适合资源有限的远程医疗环境。

• 为多学科合作和基层医疗提供了可能性,帮助医生进行疾病筛查和转诊。

3. 未来发展:

• 模型有望与视觉-语言多模态技术(如放射学、病理学)集成,实现更全面的诊断支持。

结论

MedFound-DX-PA 是一个强大的通用医学诊断语言模型,具备卓越的诊断性能和临床适用性,不仅能够辅助医生完成复杂推理,还能提升初中级医生的诊断准确率。这一研究为AI在医疗诊断领域的实际应用奠定了基础,同时提出了未来人机协作和多模态整合的方向。


喜欢SCI天天读的理由

陪您一起学习SCI医学论文

每天5分钟,让自己的英语牛逼起来

特殊福利让您惊喜连连


复制链接或点击原文链接,即可下载SCI原文

W250N04

链接: https://pan.baidu.com/s/1JnC8K_KgxNhNe5AREVftkw?pwd=irxi

提取码: irxi







请到「今天看啥」查看全文


推荐文章
ONE一个  ·  新婚夜,我代替姐姐进了婚房
8 年前
ECO中文网  ·  投资者靠边站
7 年前