专栏名称: AI与医学
分享前沿的人工智能与医学交叉研究,提供医疗科研服务。关注大壮,科研顺畅。做医护人员科研的小助手,为您全心全意服务。
目录
相关文章推荐
51好读  ›  专栏  ›  AI与医学

顶刊速读:《Radiology》大规模验证GPT-4作为头部CT报告校对工具的可行性

AI与医学  · 公众号  ·  · 2025-02-01 12:33

正文

请到「今天看啥」查看全文


点击👆蓝字或👇名片,关注"AI与医学"




类型:超精简版

选文: 大壮

编辑: 大壮


今天正月初四,给大家拜个年。

感觉年味道越来越淡了,小时候喜欢到处拜年,现在也不喜欢了。大龄青年去哪里都会成为焦点,结婚没?挣多少?买房了吗?每一个问题都精准命中大壮的“七寸”。愁的时候就去村口转转 、再愁就去找“树哥”来根黄金叶,实在没办法看看论文......


今年大模型又火了,顶刊又开始关注大模型垂直应用,抓住机会做做deepseek。本次研究使用MIMIC开源数据。


《Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports》由Songsoo Kim等人撰写,发表于《Radiology》杂志2025年1月。论文探讨了OpenAI的GPT-4在头部CT报告校对中的可行性,通过大规模验证研究,评估了GPT-4在检测、推理和修正报告错误方面的能力,并与人类读者的表现进行了比较。


0.研究背景

随着影像学检查需求的增加,放射科医生的工作量不断上升,导致疲劳和报告错误率增加。这些错误可能会误导临床医生,影响患者护理。因此,研究者们尝试对 放射学报告错误进行分类并减少错误


放射学报告的生成过程主要分为两个步骤:

(a) 从图像中检测异常;

(b) 记录检测到的异常。

所有放射学报告的错误都发生在其中一个步骤中。第一阶段的错误可能源于视觉误判或认知限制,而第二阶段的错误可能由于对发现的误解或报告内容与事实不符。


为了纠正第二阶段的错误,研究者们尝试使用基于深度学习的自然语言处理模型,但这些模型通常需要大量训练数据,且往往只能处理单一报告或错误类型,限制了其在不同情境下的泛化能力。此外,这些模型在错误推理和修正方面也面临挑战。而大型语言模型(LLMs),如OpenAI的GPT-4,已经在放射学中数据挖掘、标记和语音识别错误检测等方面的潜力,但其可靠性和推理能力仍需验证。


1.研究目的

本研究旨在测试GPT-4在头部CT报告中的错误检测、推理和修正性能,并通过与人类读者的比较来验证其临床实用性。


2.研究材料与方法

研究从MIMIC-III公共数据集中提取了10,300份头部CT报告。实验1中,使用了300份未修改的报告和300份错误报告。


2.1实验1:GPT-4优化与性能评估


实验1旨在通过优化GPT-4模型,评估其在检测、推理和修正头部CT报告中不同错误类型的能力,并与人类读者的表现进行比较。


(1)数据准备

  • 报告选择:

从MIMIC-III数据集中随机选择300份头部CT报告,并人为引入错误,生成300份错误报告,总计600份报告。

  • 错误类型:

    错误分为两类:

    • 解释性错误(Interpretive Errors):包括替代错误(1a)、遗漏错误(1b)和添加错误(1c)。

    • 事实性错误(Factual Errors):包括位置不一致(2a)和数值测量不一致(2b)。

(2)GPT-4优化

  • 优化数据集 :使用200份报告(100份未修改和100份引入错误的报告)进行GPT-4的初步优化。

  • 提示设计(Prompts) :比较了两种不同自主性水平的提示(Prompt 1和Prompt 2),并确定了最佳的“温度”参数设置(控制模型输出多样性的参数)。

    • Prompt 1 :更高自主性,允许模型更自由地生成输出。

    • Prompt 2 :更低自主性,对模型的输出进行更严格的限制。

  • 优化结果 :Prompt 2的灵敏度更高(0.85–0.89 vs 0.77–0.81),但特异性较低(0.71–0.81 vs 0.85–0.93)。F1分数在温度设置为0.2时达到峰值。


(3)性能评估

  • 评估数据集 :使用剩余的400份报告(200份未修改和200份引入错误的报告)评估GPT-4的性能。

  • 错误检测性能

    • 灵敏度(Sensitivity) :检测到错误的报告数与实际有错误的报告数的比例。

    • 特异性(Specificity) :未检测到错误的报告数与实际无错误的报告数的比例。

    • F1分数(F1 Score) :灵敏度和特异性的调和平均值。

    • 准确性(Accuracy) :正确检测的报告数与总报告数的比例。

  • 推理和修正能力

    • 使用五点李克特量表(1=非常差,5=非常好)评估GPT-4对检测到的错误的推理和修正质量。

  • 报告比较分析

    • 比较检测到错误和未检测到错误的报告的单词数、句子数部分的数量。

  • 时间测量

    • 记录GPT-4处理每个报告的平均时间。

(4)与人类读者的比较

  • 人类读者测试

    • 8名人类读者(包括放射科医生和神经科医生)对400份报告中的200份进行校对,分为两组(A组和B组),每组包含未修改和引入错误的报告各100份。

    • 每位读者对每份报告的审查时间限制为3分钟。

  • 性能比较

    • 比较GPT-4和人类读者在错误检测灵敏度、特异性、F1分数、准确性和审查时间上的差异。


2.2 实验2:真实世界数据集验证


实验2旨在验证GPT-4在 真实世界数据集 上的错误检测性能,并评估假阳性结果的临床影响。


(1) 数据准备

  • 真实世界报告:

    • 从MIMIC-III数据集中随机选择10,000份未修改的头部CT报告,这些 报告已被医生确认为无错误。

  • 错误检测验证:

    • GPT-4对这些报告进行错误检测,标记为有错误的报告由两位放射科医生进行复审,确定是真错误还是假阳性结果。

(2)假阳性结果的临床影响评估

  • 分类标准:

    • 根据详细标准对假阳性结果进行分类,评估其实际危害性或潜在益处。

    • 有益的假阳性结果:例如纠正拼写和语法错误、使报告更清晰等。

    • 无害的假阳性结果:例如添加了临床不重要的观察结果。

    • 有害的假阳性结果:例如错误地添加了重要的临床发现。

  • 结果分布:

    • 将复审和评估任务均匀分配给两位放射科医生。

降低假阳性率的探索

  • 少样本提示(Few-Shot Prompts):

    • 进行探索性分析,研究少样本提示是否能降低假阳性率。

    • 5-shot提示:使用5个示例来引导模型,提高其对错误的识别能力。

    • 结果:正预测值从原始零样本提示的0.06提高到0.11。



3.研究结果

  • GPT-4的错误检测性能

GPT-4在错误检测方面表现出色,对解释性错误的检测灵敏度为84%,对事实性错误的检测灵敏度为89%。与人类读者相比,GPT-4在 事实性错误检测灵敏度上表现更好 (0.89 vs 0.33–0.69,P < .001),且审查速度更快(16秒 vs 82–121秒,P < .001)。


  • 推理和修正能力

GPT-4在推理和修正错误方面表现出色,对解释性错误的推理能力评分为4.96/5,对事实性错误的推理能力评分为5/5;修正能力方面,解释性错误为4.45/5,事实性错误为5/5。


  • 假阳性结果的临床影响

在10,000份报告中,GPT-4检测到96个错误,阳性预测值为0.05。虽然假阳性率较高,但14%的假阳性结果可能有益,例如纠正拼写和语法错误、使报告更清晰等。


4.研究结论

  • GPT-4能够有效地检测、推理和修正放射学报告中的错误,尤其是在识别事实性错误方面表现出色。

  • 然而,其在优先考虑临床重要发现方面的能力有限。

  • GPT-4仍可作为放射学报告校对的可行工具,有助于提高放射科医生生成报告的准确性和效率。


5.研究意义

  • 这项研究为GPT-4在放射学报告校对中的应用提供了有力支持,尤其是在检测事实性错误方面。

  • 研究也指出了GPT-4的局限性,为未来的研究和应用提供了方向,例如改进模型以更好地优先考虑临床重要发现,以及探索与其他人工智能模型的协同作用,以进一步提高放射学报告的质量和效率。



6.学习心得


(1)烽火再起大模型,顶刊不是没处寻

(2)大壮近期看了几个顶刊,感觉大模型仍然会继续霸榜,尤其是中美大模型博弈的情况下,deepseek成为焦点,大模型还是研究热点。在医学领域应用仍然需要继续挖掘,尤其垂直领域的专业大模型。



感谢您的阅读,如果您对这项研究感兴趣或想了解更多关于AI在医学中的应用,请继续关注我们,我们会定期分享最新的科研成果和健康资讯。别忘了点赞和转发哦!👍🔄


广告

快来看,大壮卖艺,提供医工交叉科研服务



— THE END —

排版:大壮

美工:大壮

注:本文仅用于分享和研究AI与医学相关学术论文

如存在侵权,请告知,及时删





往期推文

顶刊速读&大模型:《THE LANCET Digital Health》 GPT-4能读懂医疗笔记了?

顶刊速看:Nature Med 基于AI和超声的卵巢癌检测:一项国际多中心研究

顶刊速看:IF=9.4 基于影像组学的体成分分析在肝细胞癌患者1年生存预后中的作用

香港理工:EyeGPT—眼科专属大模型

顶刊速读:《Brain》 抑郁症的大尺度病变症状映射识别风险和韧性能力大脑区域

往期内容

抽奖送书!!!MICCI2024 RoCoSDF:基于AI的手持超声成像三维重建

顶刊速看:《JAMA Network Open》IF=10.5 基于人工智能的皮瓣监测系统

顶刊速看:NC IF=14.7 基于深度学习心电图和人工概念特征融合的先天性心脏病检测研究

顶刊速看:NC IF=14.7 通过深度学习揭示左心房结构与心房颤动风险的联系

顶刊快看:Radiology 基于CT和AI在非小细胞肺癌节段切除术预后模型研究

顶刊快看:NatMed=82.9 基于多队列改进心血管风险预测新算法开发和验证

顶刊快看:Cell Report Medicine IF=14.3 AI在前列腺癌管理中的革命性应用 - 最新研究进展

顶刊快看:NatMed=82.9 母亲糖尿病与后代注意力缺陷/多动障碍(ADHD)风险之间的关系:基于360万母子队列数据

顶刊快看:NC IF=16.6 基于可解释机器学习的骨关节炎亚组生物标志物分析和风险预测

顶刊快看:NC IF=16.6 眼泪也可以检测血糖?使用无线智能隐形眼镜深入分析泪液葡萄糖和血糖之间的相关性









请到「今天看啥」查看全文