专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据与机器学习文摘  ·  惊掉下巴!被字节起诉800万实习生,拿下Ne ... ·  1 周前  
51好读  ›  专栏  ›  数据派THU

顶刊速看:《NATURE MEDICINE》 IF=58.7 临床医生与视觉语言模型在放射学报告生成中的合作

数据派THU  · 公众号  · 大数据  · 2024-12-04 17:53

正文

来源:AI与医学

本文约2300字,建议阅读8分钟

多模态大模型在医学中应用很火,这一块高分论文最近也是频出。


多模态大模型在医学中应用很火,这一块高分论文最近也是频出,大家可以关注一下。


文章标题:Collaboration between clinicians and vision-language models in9 radiology report generation
中文标题:临床医生与视觉语言模型在放射学报告生成中的合作
发表期刊:《NATURE MEDICINE》
发表时间:2024年11月7日

0 论文介绍

研究背景

(1)放射学专家的短缺,导致放射科医生工作负担加重,可能会引起临床决策的延迟和错误。
(2)AI算法作为辅助技术在提高放射学服务的效率和质量方面展现出巨大潜力,FDA已批准超过200个相关产品。
(3)自动化报告生成系统在实际临床应用中的广泛采用仍面临挑战。

研究方法


(1)研究者构建了一个名为Flamingo-CXR的先进的报告生成系统,专门用于胸部X光片的报告生成。
(2)使用两个大型去标识化的胸部X光图像数据集(MIMIC-CXR和IND1)及其对应的放射学报告进行模型训练。
(3)通过让一组认证的放射科医生对AI生成的报告进行专家评估,包括偏好比较测试和错误纠正任务。
(4)研究者提出了一个评估框架,包括自主和辅助两种情况下的系统评估,以及AI报告与人类专家报告的直接比较。


研究结果


Flamingo-CXR 报告生成模型通过微调 Flamingo 视觉-语言基础模型,专门用于生成胸部X光片(CXR)的放射学报告。

为评估模型生成报告的质量,我们进行了专家放射科医师的评审,同时使用了一系列报告生成的评价指标。

1 自动化报告生成指标

1.1 CheXpert 和 RadGraph F1 得分表现优异

(1)Flamingo-CXR 在 MIMIC-CXR 数据集上的 CheXpert F1 得分为 0.519,RadGraph F1 得分为 0.205。
(2)相较于最新技术方法,CheXpert F1 得分提高 33%(从 0.389 提升),RadGraph F1 得分提高 33%(从 0.154 提升)。


1.2 文本生成能力的全面性

(1)Flamingo-CXR 同时生成报告的“发现”和“印象”部分,在更长文本评估中依然具有竞争力。
(2)在仅生成“发现”部分的评估中,其 CheXpert F1 得分也超过当前最新技术方法(高出 1%)。

1.3 自然语言生成(NLG)指标表现差异化

(1)BLEU4 和 Rouge 得分具有竞争力,但 CIDEr 得分稍低。
(2)此结果符合 NLG 指标不能完全反映生成报告临床准确性的观察。

1.4 临床准确性显著改进

相较于现有方法,Flamingo-CXR 提供了更高的临床准确性。

2 与人类放射科医师的疾病分类对比

(1)Flamingo-CXR 在 IND1 数据集中描述六种胸部临床状况的准确性(微平均 F1 得分)与两名放射科医师中的一位相当。  
(2)对于高频状况(如心脏肥大、胸腔积液),模型与专家标注的一致性(Kendall’s tau 系数)可达到或超过两位放射科医师的水平。  
(3)对于低频状况(如水肿和纵隔增宽,患病率分别为 0.19% 和 0.15%),模型的一致性得分低于放射科医师。  
(4)ROC 曲线显示,不同患病率的状况间,模型的分类准确性存在差异,符合临床数据分布规律。


3 对AI生成报告和人工撰写报告的专家评估

(1)为更细致和真实地评估模型生成的放射学报告的临床质量,对 MIMIC-CXR 和 IND1 数据集中的报告进行了专家评估。
(2)邀请了来自美国的 11 名和印度的 16 名具有执业资格认证的放射科医师参与评估。完成了两项互补的评估任务:成对偏好测试、错误纠正任务。

4 成对偏好测试  

(1)放射科医生评估AI生成的放射报告(Flamingo-CXR)与原始报告(GT)的优劣时:
  • 在IND1数据集中,77.7%的病例中AI报告被认为优于或等同于GT报告,正常病例中这一比例更高(94%)
  • 在MIMIC-CXR数据集中,偏好比例较低(56.1%),主要原因是训练数据规模较小且报告内容更复杂。
(2)IND1数据集中的病例一致性较高,达到了44%,其中正常病例的一致性最高(76%),大多数为等同评价。
(3)AI报告在结构化和常见场景下表现优异,但在复杂场景(如MIMIC-CXR)中存在挑战。不同地区评审员对报告的一致性分布接近。


5 错误修正评估

(1)在胸部X光片报告的评估中,MIMIC-CXR和IND1数据集中的原始报告存在超过10%的临床显著错误,异常病例错误频率较高。
(2)与人工报告相比,AI报告在IND1数据集中错误总数较少,但临床显著错误略高,而在MIMIC-CXR数据集中,AI报告的错误频率和显著错误均较人工报告高。
(3)美国评审员比印度评审员更频繁标记错误,报告风格差异影响错误检测。
(4)主要错误类型包括“误检”、“位置错误”和“严重性错误”,AI与人工报告中的错误大多不重,显示出AI与人工协作的潜在价值。


6 临床医生与AI协作模式总结

(1)在协作流程中,Flamingo-CXR生成初稿报告,放射科医生可根据需要编辑报告,形成最终的协作报告。
(2)通过专家评审,比较协作报告与原始报告的优劣。
  • 在MIMIC-CXR数据集中,协作报告在53.6%的案例中被认为优于或等同于原始报告,且优于未协作的AI报告(44.4%)。
  • 在IND1数据集中,协作报告在71.2%的案例中被认为优于或等同于原始报告,超过未协作的AI报告(51.2%)。
(3)偏好结果在不同类型的报告(正常/异常)和地区的临床医生之间有所不同,可能与报告风格的区域化差异有关。



学习心得

(1)通过构建和评估Flamingo-CXR系统,展示了AI在放射学报告生成中的潜力和挑战。
(2)AI生成的报告在某些情况下可以与专家报告相媲美,尤其是在正常病例中。
(3)AI系统与人类专家在报告生成中的互补性,为未来AI在临床放射学中的应用提供了新的思路。

引用


[1] Tanno R, Barrett DGT, Sellergren A, Ghaisas S, Dathathri S, See A, Welbl J, Lau C, Tu T, Azizi S, Singhal K, Schaekermann M, May R, Lee R, Man S, Mahdavi S, Ahmed Z, Matias Y, Barral J, Eslami SMA, Belgrave D, Liu Y, Kalidindi SR, Shetty S, Natarajan V, Kohli P, Huang PS, Karthikesalingam A, Ktena I. Collaboration between clinicians and vision-language models in radiology report generation. Nat Med. 2024 Nov 7. doi: 10.1038/s41591-024-03302-1 IF: 58.7 Q1 . Epub ahead of print. PMID: 39511432.


编辑:黄继彦


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU