核心速览
自动放射学报告生成具有改善患者护理和减轻放射科医生工作量的潜力。然而,由于评估人工智能(AI)生成报告的临床质量这一挑战,走向实际应用的途径一直受阻。我们构建了一个最先进的胸部X光片报告生成系统,称为火烈鸟-CXR,并通过让一组获得认证资质的放射科医生参与,对AI生成的报告进行专家评估。我们观察到小组内和不同临床环境中的偏好分布广泛,56.1%的火烈鸟-CXR重症监护报告被一半或更多的小组成员评价为优于或等同于临床医生的报告,整体门诊/住院X光片的这一比例为77.7%,而在没有相关异常发现的情况下的子集病例中,该比例上升至94%。在人工书写报告和火烈鸟-CXR报告中观察到错误,其中24.8%的门诊和住院病例在两种报告类型中都存在临床显著错误,22.8%仅在火烈鸟-CXR报告中,14.0%仅出现在人工报告中。对于包含错误的报告,我们开发了一种辅助设置,展示了临床医生与人工智能在放射科报告编写方面的合作,这表明了潜在临床用途的新可能性。
放射学在内科医学中扮演着不可或缺的角色,通过医学影像为患者提供诊断、治疗和管理信息。然而,目前全球放射科医生的短缺限制了获得专家护理的途径,并导致放射科医生的工作负担过重,从而引起不希望的延误和临床决策错误。在过去的十年中,我们见证了人工智能算法作为辅助技术改善放射科护理的可及性、效率和质量方面的巨大潜力,
在由20多个国家公司开发的模块中发挥着至关重要的作用,在美国,每三个放射科医生中就有大约一个已经在他们的临床工作流程中受益于人工智能。然而,这些获批的人工智能应用大多仅关注非常特定病变的分类和量化。实际上,临床放射学远不止是对此类狭窄解释任务的积累,因为发现必须
以恰当的细微差别进行沟通,在更广泛的临床背景下进行综合,并结合对患者护理有用的总体印象和建议。放射科专家使用自然语言书面报告的形式,来传达他们对影像学发现的这种综合、总体印象和建议。近期在AI方面同时建模视觉和语言数据的进展6-9,加上数字化多模态放射学数据日益丰富的可用性,使得开发一个能够生成医学图像完整自由文本描述的自动报告生成系统成为可能10-14。将报告生成作为有用放射科AI系统的指南针,与当前的放射科实践及患者护理更为一致,并允许对相关的发现进行更细致和多样的描述,这些描述可以根据特定临床场景的需求进行定制,包括位置、大小和严重程度、模糊性、与特定病变的临床背景关系或其对后续治疗的影响等方面。
尽管关于基于AI的报告生成及其改善放射学工作流程潜力的出版物数量不断增加,但在实际实践中自动化报告生成尚未被广泛采用。几个未满足的需求代表了阻碍自动化报告在实际世界中产生影响的关键障碍。一个显著的障碍是难以有意义的评估生成报告的临床质量。自由格式报告的高度自由性引入了多种可能的误差,以供度量和分类。加剧这一情况的是,报告的理想内容在不同临床环境(例如,急诊环境与医疗检查)、地理区域和标准化首选方法之间存在差异。先前的研究通过提出自动指标来评估生成报告的临床质量,以应对这一挑战,但仍有许多限制。首先,对于自动化报告与人类专家(认证放射科医师)所写报告的比较缺乏全面评估,而人类专家的报告本身风格和质量各异。尽管在报告质量的自动化度量方面取得了令人印象深刻的进展,但只有一项研究22直接评估了由人工智能生成的报告是否被认为比人类专家的报告更可取,而其他研究23仅在特定临床环境中评估了其实际应用。此外,对于偏好选择的原因尚未充分探讨。其次,以往的研究仅将人工智能生成的报告作为独立的人工产品进行评估,这意味着这些系统作为辅助工具的实用性仍然未知。考虑到大多数获批用于临床决策的人工智能工具都是为了在护理交付中的辅助而非自主角色而开发的,评估临床医师与人工智能协作场景下的应用可能更为现实。
除了上述评估挑战外,现有的人工智能报告生成模型在临床准确性方面仍有相当大的提升空间。最近在多模态基础模型方面的突破表明,通过在大量无标签数据上训练的AI系统可以适应并在广泛的下游专业任务中实现最先进的准确性,包括生物医学问题。然而,大多数现有的报告生成模型都是从头开始构建的,忽略了从这些预训练模型转移知识可能带来的有用性。通过利用在大规模视觉语言模型预训练过程中积累的优势,并针对特定需求进行定制,以构建一个更强大的报告生成系统。
在这项工作中,我们直接解决了人工智能报告生成的关键未满足需求。我们推出了Flamingo-CXR,这是一个基于最近在多个自动化指标上达到最先进性能的视觉语言基础模型的AI报告生成系统。我们在历史性的、去身份化的数据集上对Flamingo-CXR进行了评估,这些数据集涵盖了多种临床和地理背景——包括美国的重症监护和美国与印度的门诊及住院护理——并且超越了自动化指标,转而采用一组27位放射科医生的详细人类评估,包括对临床医生偏好AI报告还是人类报告的直接比较。此外,我们还在自主和辅助环境中对该系统进行了评估。图1展示了所提出的评估框架概览。
我们的贡献丰富地描述了临床专家之间、他们自身之间以及与Flamingo-CXR之间存在的广泛一致性和分歧,对于存在差异的地方,我们将其作为一个机会,开发一个协作辅助环境,让Flamingo-CXR和临床医生共同努力提高临床准确性。
核心速览
研究背景
-
研究问题
:这篇文章要解决的问题是如何在放射科报告中自动生成高质量的医学图像描述,特别是针对胸部X光(CXR)图像的报告生成。
-
研究难点
:该问题的研究难点包括:评估人工智能(AI)生成报告的临床质量、处理自由文本报告中的高自由度导致的广泛错误、以及在不同临床设置和地理区域中评估报告质量的差异性。
-
相关工作
:该问题的研究相关工作包括多种AI辅助诊断系统,但大多数仅限于特定病理的分类和量化,缺乏对完整报告生成的研究。已有研究提出了自动评估报告质量的方法,但这些方法在全面评估与人类专家生成的报告相比仍存在局限性。
研究方法
这篇论文提出了一个名为Flamingo-CXR的系统,用于解决胸部X光报告生成的问题。具体来说,
-
模型构建
:Flamingo-CXR系统基于最近的多模态基础模型(如Flamingo),通过微调该模型来生成CXR报告。模型结合了视觉编码器和语言模型,能够将医学图像和报告整合在一起。
-
训练数据
:使用两个大规模的去标识数据集进行训练,分别是美国的MIMIC-CXR数据集和印度的IND1数据集。这些数据集包含了大量的CXR图像及其对应的放射科报告。
-
优化目标
:通过最小化在MIMIC-CXR和IND1数据集上的加权负对数似然损失来优化模型参数。
-
推理策略
:在测试时,使用两种解码策略生成报告:束搜索和核采样。默认使用束搜索方法,但在需要生成多个报告时使用核采样方法。
实验设计
-
数据收集
:使用了两个大规模的去标识数据集,分别是美国的MIMIC-CXR数据集和印度的IND1数据集。MIMIC-CXR数据集包含377,110张图像和227,835份报告,IND1数据集包含263,021张正面胸透图像和相应的报告。
-
样本选择
:从两个数据集中随机选择了一定数量的正常和异常病例进行评估。具体来说,从MIMIC-CXR数据集中选择了34个正常病例和272个异常病例,从IND1数据集中选择了100个正常病例和200个异常病例。
-
标注接口
:使用内部平台进行数据收集和标注。标注任务包括成对偏好测试和错误校正任务。成对偏好测试要求专家在不知道报告来源的情况下选择更优的报告;错误校正任务要求专家识别并纠正报告中的错误。
结果与分析
-
自动报告生成指标
:在MIMIC-CXR数据集上,Flamingo-CXR系统在CheXpert F1得分上达到了0.519,在RadGraph F1得分上达到了0.205,均优于现有的最先进方法。在自然语言生成(NLG)指标方面,Flamingo-CXR在BLEU4和Rouge得分上表现良好,但在CIDEr得分上表现一般。
-
与放射科医生的比较
:在IND1数据集上,Flamingo-CXR系统在描述常见病理(如心脏肥大和水肿)时与人类专家的表现相当甚至更优。然而,对于低频病理(如肺气肿和心脏纵隔增宽),Flamingo-CXR系统的表现略低于人类专家。
-
成对偏好测试
:在两个数据集上,Flamingo-CXR系统生成的报告有56.1%(MIMIC-CXR)到77.7%(IND1)被至少一半的专家认为是可接受或优于人类专家的报告。
-
错误校正
:在两个数据集上,人类专家编写的报告中有24.8%包含临床显著错误,而Flamingo-CXR系统生成的报告中仅有22.8%包含此类错误,人类专家的报告中有14.0%包含此类错误。
-
报告样例
总体结论
这篇论文展示了Flamingo-CXR系统在生成高质量CXR报告方面的潜力。尽管在某些低频病理的描述上仍有改进空间,但总体上,Flamingo-CXR系统在与人类专家的成对偏好测试和错误校正任务中表现出色。未来的工作可以进一步改进系统在复杂临床场景中的应用,并探索其在辅助放射科医生编写报告中的实际应用。
论文评价
优点与创新
-
全面的专家评估
:论文进行了最全面的专家评估,包括成对偏好测试和错误校正任务,以评估AI生成的报告质量。
-
多样化的临床和地理设置
:研究在多个临床和地理设置中进行了评估,包括美国的重症监护和美国及印度的门诊和住院设置。
-
详细的错误分析
:提供了详细的错误类型分析,区分了错误发现、错误严重性和错误位置。
-
协作辅助设置
:开发了协作辅助设置,展示了AI与临床医生合作的潜力,提高了报告的临床准确性。
-
多种自动生成指标
:使用了多种自动生成指标(如CheXpert F1、RadGraph F1、CIDEr、BLEU4和Rouge)来衡量报告质量。
-
跨数据集和跨地区的一致性
:展示了在不同数据集和地区之间的一致性,证明了模型的泛化能力。
不足与反思
-
高评分变异性
:观察到高评分变异性,表明需要多次阅读每个案例,而不是像以前的工作那样只评估一次。
-
协作的潜在陷阱
:AI与临床医生的协作可能会导致报告准确性降低,特别是当专家过度依赖AI预测或对其过于批评时。
-
编辑时间未评估
:尽管编辑AI生成的报告可能比从头开始编写报告更快,但目前的研究并未明确评估这一点。
-
区域风格差异
:不同地区的临床报告风格存在显著差异,这可能影响评分结果。
-
未来工作方向
:未来的工作将考虑增强系统,使其能够遵循用户指令,并通过上下文学习和小样本学习技术更有效地从少量数据中学习。
关键问题及回答
问题1:Flamingo-CXR系统在评估其生成的报告质量时,采用了哪些具体的评估方法?
Flamingo-CXR系统采用了两种主要的评估方法:成对偏好测试和错误校正任务。
-
成对偏好测试
:在这个测试中,放射科医生在不知道报告来源的情况下,被要求在一组报告中选择一个更优的报告。报告包括AI生成的报告和人类专家生成的报告。医生需要说明他们的选择理由,以更好地理解两种报告的优缺点。
-
错误校正任务
:在这个任务中,放射科医生被要求识别并纠正报告中的错误。具体步骤包括:提供CXR图像和报告,医生需要指出报告中的错误部分,选择错误类型(如发现错误、位置错误或严重性错误),并决定是否这些错误是临床显著的,最后提供修正建议。
通过这两种方法,研究人员能够全面评估Flamingo-CXR系统生成的报告在临床质量和实用性方面的表现。
问题2:在成对偏好测试中,Flamingo-CXR系统生成的报告在不同数据集上的接受率如何?
在成对偏好测试中,Flamingo-CXR系统生成的报告在不同数据集上的接受率有所不同。
-
MIMIC-CXR数据集
:在MIMIC-CXR数据集上,Flamingo-CXR系统生成的报告有56.1%被至少一半的专家认为是可接受或优于人类专家的报告。这表明在MIMIC-CXR数据集上,Flamingo-CXR系统的报告质量相对较高,但仍然有一定的提升空间。
-
IND1数据集
:在IND1数据集上,Flamingo-CXR系统生成的报告有77.7%被至少一半的专家认为是可接受或优于人类专家的报告。这一结果显示出在IND1数据集上,Flamingo-CXR系统的表现更为出色,接近四分之三的专家对其报告持积极评价。
总体来看,Flamingo-CXR系统在两个数据集上的表现均较为出色,尤其是在IND1数据集上的接受率更高。
问题3:Flamingo-CXR系统在错误校正任务中的表现如何?与人类专家编写的报告相比,是否存在显著差异?
在错误校正任务中,Flamingo-CXR系统生成的报告表现出较高的准确性。
-
错误率