类型:超精简版
选文: 大壮
编辑: 大壮
今天正月初四,给大家拜个年。
感觉年味道越来越淡了,小时候喜欢到处拜年,现在也不喜欢了。大龄青年去哪里都会成为焦点,结婚没?挣多少?买房了吗?每一个问题都精准命中大壮的“七寸”。愁的时候就去村口转转 、再愁就去找“树哥”来根黄金叶,实在没办法看看论文......
今年大模型又火了,顶刊又开始关注大模型垂直应用,抓住机会做做deepseek。本次研究使用MIMIC开源数据。
《Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports》由Songsoo Kim等人撰写,发表于《Radiology》杂志2025年1月。论文探讨了OpenAI的GPT-4在头部CT报告校对中的可行性,通过大规模验证研究,评估了GPT-4在检测、推理和修正报告错误方面的能力,并与人类读者的表现进行了比较。
0.研究背景
随着影像学检查需求的增加,放射科医生的工作量不断上升,导致疲劳和报告错误率增加。这些错误可能会误导临床医生,影响患者护理。因此,研究者们尝试对
放射学报告错误进行分类并减少错误
。
放射学报告的生成过程主要分为两个步骤:
(a) 从图像中检测异常;
(b) 记录检测到的异常。
所有放射学报告的错误都发生在其中一个步骤中。第一阶段的错误可能源于视觉误判或认知限制,而第二阶段的错误可能由于对发现的误解或报告内容与事实不符。
为了纠正第二阶段的错误,研究者们尝试使用基于深度学习的自然语言处理模型,但这些模型通常需要大量训练数据,且往往只能处理单一报告或错误类型,限制了其在不同情境下的泛化能力。此外,这些模型在错误推理和修正方面也面临挑战。而大型语言模型(LLMs),如OpenAI的GPT-4,已经在放射学中数据挖掘、标记和语音识别错误检测等方面的潜力,但其可靠性和推理能力仍需验证。
1.研究目的
本研究旨在测试GPT-4在头部CT报告中的错误检测、推理和修正性能,并通过与人类读者的比较来验证其临床实用性。
2.研究材料与方法
研究从MIMIC-III公共数据集中提取了10,300份头部CT报告。实验1中,使用了300份未修改的报告和300份错误报告。
2.1实验1:GPT-4优化与性能评估
实验1旨在通过优化GPT-4模型,评估其在检测、推理和修正头部CT报告中不同错误类型的能力,并与人类读者的表现进行比较。
(1)数据准备
从MIMIC-III数据集中随机选择300份头部CT报告,并人为引入错误,生成300份错误报告,总计600份报告。
(2)GPT-4优化
-
优化数据集
:使用200份报告(100份未修改和100份引入错误的报告)进行GPT-4的初步优化。
-
提示设计(Prompts)
:比较了两种不同自主性水平的提示(Prompt 1和Prompt 2),并确定了最佳的“温度”参数设置(控制模型输出多样性的参数)。
-
优化结果
:Prompt 2的灵敏度更高(0.85–0.89 vs 0.77–0.81),但特异性较低(0.71–0.81 vs 0.85–0.93)。F1分数在温度设置为0.2时达到峰值。
(3)性能评估
(4)与人类读者的比较
2.2 实验2:真实世界数据集验证
实验2旨在验证GPT-4在
真实世界数据集
上的错误检测性能,并评估假阳性结果的临床影响。
(1)
数据准备
(2)假阳性结果的临床影响评估
-
分类标准:
-
根据详细标准对假阳性结果进行分类,评估其实际危害性或潜在益处。
-
有益的假阳性结果:例如纠正拼写和语法错误、使报告更清晰等。
-
无害的假阳性结果:例如添加了临床不重要的观察结果。
-
有害的假阳性结果:例如错误地添加了重要的临床发现。
-
结果分布:
降低假阳性率的探索
-
少样本提示(Few-Shot Prompts):
-
进行探索性分析,研究少样本提示是否能降低假阳性率。
-
5-shot提示:使用5个示例来引导模型,提高其对错误的识别能力。
-
结果:正预测值从原始零样本提示的0.06提高到0.11。
3.研究结果
GPT-4在错误检测方面表现出色,对解释性错误的检测灵敏度为84%,对事实性错误的检测灵敏度为89%。与人类读者相比,GPT-4在
事实性错误检测灵敏度上表现更好
(0.89 vs 0.33–0.69,P < .001),且审查速度更快(16秒 vs 82–121秒,P < .001)。
GPT-4在推理和修正错误方面表现出色,对解释性错误的推理能力评分为4.96/5,对事实性错误的推理能力评分为5/5;修正能力方面,解释性错误为4.45/5,事实性错误为5/5。
在10,000份报告中,GPT-4检测到96个错误,阳性预测值为0.05。虽然假阳性率较高,但14%的假阳性结果可能有益,例如纠正拼写和语法错误、使报告更清晰等。
4.研究结论
5.研究意义
6.学习心得
(1)烽火再起大模型,顶刊不是没处寻
(2)大壮近期看了几个顶刊,感觉大模型仍然会继续霸榜,尤其是中美大模型博弈的情况下,deepseek成为焦点,大模型还是研究热点。在医学领域应用仍然需要继续挖掘,尤其垂直领域的专业大模型。