专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
BioArt  ·  专家点评Cell | ... ·  昨天  
BioArt  ·  Sci Adv | ... ·  昨天  
生物学霸  ·  沈青团队招聘临床数据采集员 ·  2 天前  
BioArt  ·  Nat Microbiol | ... ·  2 天前  
BioArt  ·  Cell | ... ·  3 天前  
51好读  ›  专栏  ›  生信人

大变革时代,供临床医学使用的“GPT”它来了?

生信人  · 公众号  · 生物  · 2025-01-22 07:05

正文

哈喽小伙伴们好呀,前几天OpenAI首个视频生成模型Sora的发布消息刷爆了朋友圈,Sora完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。如果说GPT是AI应用变革时代的开端,那Sora 无疑是能够理解和模拟现实世界的模型的基础。而在这个大变革时代,医学领域也迎来了属于自己的语言模型。今天小编将带来2023年6月发表在Nature(2023年IF/JCR分区:64.8/Q1)上的一篇关于大型医学语言模型的研究,一起来学习吧~


医学语言模型的最后一英里?

临床预测模型通常是从保存数十年的数据以及从机器学习方法中提取的,其中大多数依赖于从电子健康档案或临床的直接输入中提取的结构化输入。对结构化输入的依赖导致了数据处理、模型开发和部署的复杂性,这在一定程度上是导致绝大多数医学预测算法被训练、测试和发表,但从未部署以评估其对实际临床护理的影响的原因。这经常被称为“最后一英里问题”。


近期人工智能研究中最令人激动的发展之一是大型语言模型(LLMs)。这些庞大的神经网络(具有数百万甚至数十亿个参数)已被证明在依赖于阅读和解释人类语言的广泛问题上取得了显著的结果。在过去的几年里,已经开发了几种风格的LLMs,广泛涵盖了从编码器模型(例如BERT)到解码器模型(例如GPT-3)等各种模型。LLMs有可能通过简单地阅读医生撰写的笔记来解决医学预测分析中的“最后一英里问题”,从而立即获取患者医疗状况的全面描述,在临床和医疗系统运营任务的广泛范围内提供决策支持。


大型医学语言模型——NYUTron

所有临床有用的数据和医疗专业人员的决策过程都可以在电子健康档案中找到,无论是结构化的还是非结构化的文本(例如笔记、实验室结果和研究报告)。基于这样一个前提,作者开发了基于大型语言模型的NYUTron,该模型的研究表明足够规模的自监督LLMs可以在非医学预测任务上胜过强监督方法。


作者在纽约大学朗格恩医疗系统进行了实证研究,该系统是一个拥有4家城市医院和350个门诊站点、患者群体多样化的大型医院系统。作者在包括三项临床任务和两项运营任务(30天全因素再入院预测,住院死亡预测,合并症指数预测,住院时间预测和保险拒绝预测)的五项任务上评估了NYUTron,并对30天再入院任务进行了详细分析,探讨了数据效率、泛化能力、可部署性和潜在临床影响的问题。通过将所有医学预测分析重新思考为自然语言处理问题,NYUTro展示了可以使用LLMs作为广泛范围医学预测任务的通用预测引擎的可能性。


如何基于语言模型进行临床预测

NYUTron基于语言模型的方法包括四个步骤:数据收集、预训练、微调和部署。在第一步(图1a)中,作者从纽约大学朗格恩医疗系统(NYU Langone EHR)收集了大量未标记的临床笔记和五个任务特定的标记临床笔记。与其他研究不同,该研究的数据集来自整个医院系统,涵盖了来自不同临床科室的多样化患者群体。该研究的大型未标记数据集“NYU笔记”包括725万份临床笔记(例如放射学阅片、病史和体格检查),涵盖了387,144名患者,分布在四家医院,从2011年1月到2020年5月,总共有41亿字的语料库。而标记的微调数据集包含1到10年的住院临床笔记(55,791-413,845名患者,5100-8700万字),每个笔记带有任务特定的标签。


在第二和第三步(图1b、c),作者使用一种称为BERT(双向编码器转换表示)的双向编码器模型,在NYU笔记数据集上进行预训练和微调,为每个下游任务构建了一个LLM。作者使用了掩码语言建模(MLM)目标,直到验证损失趋于平稳。MLM目标会随机掩盖临床笔记中的单词或子单词,训练语言模型正确填充被掩盖的单词。接下来,使用微调数据集,作者微调了预训练模型(称为‘NYUTron’),以使用在与临床笔记的预训练中学到的关系来预测任务标签。


在第四步(图1d),作者部署最佳模型到一个高性能推理引擎NYUTriton,它与纽约大学朗格恩医疗系统(NYU Langone EHR)进行接口连接。这一步使得LLM在临床环境中实时推理应用成为可能。在一项单臂、非干预、前瞻性试验中,作者在真实环境中验证了NYUTron在30天再入院预测方面的性能,并评估了其潜在的临床影响。


图1:基于语言模型进行临床预测的技术路线


NYUTron在五项任务中的总体表现

为了评估NYUTron的适用性能,作者对其在五项任务上的表现进行了回顾性评估。作者使用完整数据集进行训练,并使用两个测试集评估性能:(1)随机测试集(从与训练数据相同时间采样的临床笔记),和(2)时间测试集(从训练数据的未来采样的临床笔记)。时间测试集更接近临床应用部署,即推理数据来自训练数据的未来时间点。任务范围包括三个临床任务和两个运营任务,如图2a所示。作者将NYUTron与结构化基准进行了比较,这些基准将传统临床预测模型使用的结构化特征传递到一个极端梯度增强树模型中。


NYUTron具有扩展到多个临床和运营任务的能力。图2b和图2c显示,在预测任务(住院死亡率、再入院率、住院天数和保险拒绝),NYUTron的曲线下面积(AUC)为78.7-94.9%,比传统临床预测模型提高了5.36-14.7%。在合并症指数预测任务中,NYUTron的中位AUC为89.4% ± 0.275%。作者首先展示了在前四项任务中的结果,最后专注于再入院预测这项任务,探讨数据效率、模型泛化能力和在真实环境中的部署等问题。


NYUTron能够在入院时预测住院死亡的风险并插补合并症指数。住院死亡预测任务旨在在患者入院时估计其在当前住院期间死亡的可能性。图2b显示,对于住院死亡预测,NYUTron的中位AUC为94.9% ± 0.168%,与其基于简化急性生理评分(SAPS2)和急性生理与慢性健康评估(APACHE2)等特征的结构化基线相比,提高了7.43%。合并症指数插补任务是在入院时预测Charlson合并症指数(CCI),而没有用于慢性病的结构化特征。作者将这视为数据插补问题,因为数据集中22%的数据缺乏CCI分数。作者将指数分为四个区间,根据原论文中的严重程度分级(0,无;1-2,轻度;3-4,中度;≥5,重度)。图2b显示,在合并症指数插补方面,NYUTron的中位AUC为89.4% ± 0.275%,在识别CCI分数为0的患者时,精度为88%。


NYUTron还可用于在入院时预测住院天数、保险索赔拒绝和30天全因素再入院。住院天数(LOS)预测任务是在入院时预测患者在医院内可能停留的天数范围。作者将LOS分为四个区间(0–25%分位数、25–50%分位数、50–75%分位数、>75%分位数)。图2c显示,对于住院天数预测,NYUTron的中位一对多(OVR)AUC为78.7% ± 0.179%,与使用“里斯本葡萄牙”特征的结构基线相比,提高了12.3%。保险索赔拒绝预测任务是在入院时预测为一次就诊提交的保险索赔是否会被接受或被拒绝。图2c显示,对于保险拒绝预测,NYUTron的中位AUC为87.2% ± 0.246%,与使用“索赔表格”特征的结构基线相比,提高了14.7%。图2b显示,对于30天全因素再入院预测,NYUTron的中位AUC为79.87% ± 0.168%,比其使用LACE20特征的结构基线提高了5.36%。


图2:NYUTron在五项任务中的总体表现


NYUTron模型预测是否替代医生预测?

在小样本中,NYUTron在预测30天再入院方面与一组包含6名不同资历水平的医生预测相比具有竞争力。出院样本(n = 20,包括11例阳性病例和9例阴性病例)从随机分割中抽样并上传到在线评估平台。医生的中位表现较NYUTron差(图3a)。医生预测中位真阳性率(TPR)为50%,相比之下,NYUTron的中位TPR为81.82%。与NYUTron相比,医生的中位F1分数为62.8%,方差较大,为22.2%;而NYUTron的中位F1分数为77.8%。


NYUTron与传统模型以及其他语言模型相比性能如何?

NYUTron在与传统模型和其他语言模型的竞争中表现出色。作者通过将NYUTron在时间分割上的再入院性能预测与传统模型和四种不同类型的LLMs进行比较,来评估NYUTron的有效性。在使用完整数据集进行微调时,NYUTron的AUC最高(图3b),中位AUC为79.87% ± 0.17%,与使用非临床文本预训练的LLMs相比,NYUTron的中位AUC较高2.37%到3.23%。与使用结构化特征的传统模型相比,NYUTron的AUC高出5.36%。与使用传统自然语言处理(NLP)嵌入的模型相比,NYUTron的中位AUC高出12.8%。


与传统的结构化模型相比,基于非结构化临床笔记的LLM更好地随着数据的增加而扩展。与lace+xgb相比,NYUTron在使用完整数据集进行微调时受益于更多标记示例,并在AUC上取得更好的表现。图3b显示,lace+xgb(虚线黄线)和NYUTron(实线绿线)在100和1,000个示例时具有相似的AUC。然而,随着示例数量的增加,NYUTron的AUC持续提高,而lace+xgb的AUC开始趋于平稳(从100到1,000个示例,NYUTron的AUC增加了7.27%,而lace+xgb的AUC增加了3.98%;从10,000到392,336个示例,NYUTron的AUC增加了2.15%,而lace+xgb的AUC增加了0.63%)。在完整的微调数据集上,NYUTron的AUC比lace+xgb高出7.04%。


与随机初始化的LLM(random-init)相比,NYUTron学会了在更少的示例中更好地进行泛化。图3b显示,虽然NYUTron需要10,000个示例才能达到约75%的AUC,而random-init则需要更多的100,000个示例。作者还在另一个临床预测任务中观察到了类似的趋势:NYUTron在2012年i2b2挑战赛中的临床命名实体识别(NER)任务上表现优于随机初始化模型(F1分数高36.83%)和非临床预训练模型(F1分数高2.06%至3.73%)。


图3:NYUTron与传统模型以及其他语言模型相比


NYUTron在前瞻性研究中的性能如何?

为了评估NYUTron在开发环境之外的性能,作者基于回顾性试验结果选择了一个模型,并进行了从2022年1月到4月的前瞻性试验。在此期间,作者以加速格式部署了NYUTron,并将其加载到一个预测引擎中,该引擎与电子健康档案进行接口,以读取由治疗医生签名的出院记录。在这段时间内,共有29,286次出院就诊,其中3,271名患者(11.17%)在30天内再次就医。NYUTron预测了3,271次再入院中的2,692次(82.30%的召回率),准确率为20.58%。图4a显示,NYUTron的AUC为78.70%。


为了评估潜在的临床影响,六名医生组成的小组对NYUTron在试验结束后捕获的100例随机抽样的再入院病例进行了定性评估。医生的审查表明,NYUTron的一些真正阳性的预测在临床上具有意义,是可预防的再入院。总体而言,被预测为再入院的患者在医院内死亡的可能性是未被预测的患者的6.02倍,住院时间更长2.93天(P < 10^(-4))。如图4b所示,61%的预测病例是非计划的,并且这些非计划再入院的平均预测概率低于计划再入院的概率(31.9% ± 31.1%对82.1% ± 27.3%;P < 10^(-4))。在非计划再入院中,有19.67%的患者在再入院时经历了不良事件或死亡,其中50%的事件被医生小组认为是可以预防的。


图4:NYUTron在前瞻性研究中的性能


小编总结

在这个AI大变革时代,医生期盼着能够与AI助手一同观察患者护理,并提供预测和建议。为了迈向这一未来愿景,作者在一个大型医疗系统的整个电子健康记录上训练了一个LLM,即NYUTron,用于阅读医生的笔记,并在广泛的临床和运营任务中做出多个预测。作者将NYUTron部署在实时医疗环境中,并展示了它在预测30天再入院方面的有效性,同时无缝衔接集成到临床工作流程中。我们相信这项工作为将现代自然语言处理和深度学习的发展转化为改善医疗质量和可负担性的新医疗途径打开了大门,未来可期!


参考文献:

Lavender Yao Jiang, et. Health system-scale language models are all-purpose prediction engines.Nature. 2023 Jul; 619(7969): 357-362.  doi: 10.1038/s41586-023-06160-y. Epub 2023 Jun 7.

更贴合临床的生信分析定制


往期热点 (点击标题跳转)

01

肿瘤免疫逃逸新机制

02

孟德尔随机化

03

生信+实验结合

04

单细胞空间转录组

05

肿瘤相关巨噬细胞(TAM)

06

细胞死亡

07

耐药



文章转载请联系 | 15510012760(微信)