1、Phi-3-7B:具有70亿参数的小语言模型(SLM)。
2、Claude 3.5 Sonnet(2024-10-22):Claude 3.5系列的最新模型(≈1750亿参数),在多个编码、视觉和推理任务中展现出了SOTA的性能。
3、Gemini 2.0 Flash:最新/最先进的Gemini模型。其他谷歌模型(如专为医疗设计的Med-PaLM,5400亿参数)尚未公开。
4、ChatGPT(≈1750亿参数)和GPT-4(≈1.76万亿参数),是「高智能」模型。
5、GPT-4o(≈2000亿参数),提供「GPT-4级别的智能但速度更快」,以及专注于特定任务的小模型GPT-4o-mini(gpt-4o-2024-05-13)(≈80亿参数)。
6、最新的o1-mini(o1-mini-2024-09-12)(≈1000亿参数)和o1-preview(o1-preview-2024-09-12)(≈3000亿参数),具备「全新AI能力」,可处理复杂推理任务。
值得注意的是,大多数模型的参数量为估算值,主要用来帮助理解模型性能。少数模型(如Phi-3和Claude)需要进行少量自动后处理来修正格式问题。
结果
下表2展示了,由医疗医生手动标注的结果以及使用上述两个提示词的多个最新LLM的结果。
在错误标志(error flag)检测方面,Claude 3.5 Sonnet以70.16%的准确率优于其他方法,在错误句子检测中更是达到了65.62%的准确率。
o1-mini在错误标志检测中,拿下了第二高的准确率69.08%。
在错误纠正方面,o1-preview以0.698的综合评分(Aggregate Score)获得了最佳表现,远超第二名GPT-4 [P#2] 的0.639。
下表3展示了,在每个数据集(MEDEC-MS和MEDEC-UW)上的错误检测准确率和错误纠正评分。其中,MS子集对Claude 3.5 Sonnet和医生#2来说更具挑战性,而UW子集对o1-preview和医生#1来说更具挑战性。
结果表明,与医生的评分相比,最新的LLM在错误检测和纠正方面表现良好,但在这些任务中仍然不及人类医生。
这可能是因为,此类错误检测和纠正任务在网络和医学教科书中相对罕见,也就是,LLM在预训练中遇到相关数据的可能性较低。
这一点可以从o1-preview的结果中看出,该模型在基于公开临床文本构建的MS子集上的错误和句子检测中分别取得了73%和69%的准确率,而在私有的UW集合上仅取得了58%和48%的准确率。
另一个因素是,任务需要分析和纠正现有的非LLM生成的文本,这可能比从0开始起草新答案的难度更高。
下表4展示的则是,每种错误类型(诊断、管理、治疗、药物治疗和病因微生物)的错误检测召回率和错误纠正评分。
可以看到,o1-preview在错误标志和句子检测中,召回率显著高于Claude 3.5 Sonnet和两位医生。但在结合准确率结果(见表2)之后发现,医生在准确率上表现更佳。
这些结果表明,模型在精确度方面存在显著问题,并且与医生相比,AI在在许多情况下都过度预测了错误的存在(即产生了幻觉)。
另外,结果还显示,分类性能与错误纠正生成性能之间存在排名差异。
例如,在所有模型中,Claude 3.5 Sonnet在错误标志和句子检测的准确率上排名第一,但在纠正生成评分中排名最后(见表 2)。
此外,o1-preview在所有LLM中的错误检测准确率排名第四,但在纠正生成中排名第一且遥遥领先。同样的模式也可以在两位医疗医生之间观察到。
上述现象,可以通过纠正生成任务的难度来解释,同时也可能反映了当前SOTA的文本生成评估指标在捕捉医学文本中的同义词和相似性方面的局限性。
表5展示了参考文本、医生标注以及由Claude 3.5 Sonnet和GPT模型自动生成的纠正示例。
例如,第二个示例的参考纠正表明患者被诊断为Bruton无丙种球蛋白血症,而LLM提供的正确答案提到了X-连锁无丙种球蛋白血症(该罕见遗传疾病的同义词)。
此外,一些LLM(如Claude)提供了更长的答案/纠正,并附上了更多解释。类似的现象也出现在医生的标注中,其中医生#1提供的修正比医生#2更长,而两位医生在某些示例/案例中存在不同意见,这反映了由不同医生/专家撰写的临床笔记在风格和内容上的差异。
关于医疗错误检测和纠正的相关研究下一步,还需要在提示词中引入更多示例并进行示例优化。
Wen-wai Yim
Wen-wai Yim是微软的高级应用科学家。
她在UCSD获得生物工程学士学位,并在华盛顿大学获得生物医学与健康信息博士学位,研究方向包括从临床和放射学笔记中提取临床事件以及进行癌症分期预测。
此外,还曾在斯坦福大学担任博士后研究员,开发用于从自由格式临床笔记中提取信息的方法,并将这些信息与电子病历中的元数据相结合。
她的研究兴趣包括从临床笔记和医学对话中进行临床自然语言理解,以及从结构化和非结构化数据生成临床笔记语言。
Yujuan Fu
Yujuan Fu是华盛顿大学医学信息专业的博士生。
此前,她在上海交通大学获得电子与计算机工程学士学位,在密歇根大学获得数据科学学士学位。
研究领域是面向健康领域的自然语言处理:通过指令微调大语言模型,包括信息抽取、摘要、常识推理、机器翻译以及事实一致性评估。
Zhaoyi Sun
Zhaoyi Sun是华盛顿大学生物医学与健康信息学专业的博士生,隶属于UW-BioNLP团队,由Meliha Yetisgen博士指导。
此前,他在南京大学获得化学学士学位,并在康奈尔大学获得健康信息学硕士学位。
他的研究重点是将LLM应用于医疗问答和临床笔记中的错误检测,兴趣是结合生物医学图像与文本的多模态深度学习研究,目标是提升自然语言处理技术在临床领域中的应用效率和效果。
Fei Xia
Fei Xia是华盛顿大学语言学系的教授,也是华盛顿大学/微软研讨会的联合组织者。此前,曾在IBM T. J. Watson研究中心担任研究员。
她在北京大学计算机科学系获得学士学位,并在宾夕法尼亚大学计算与信息科学系获得硕士和博士学位。
在宾大期间,她是中文树库项目的团队负责人,也是XTAG项目的团队成员。博士论文导师是Martha Palmer博士和Aravind Joshi博士。
参考资料:
https://x.com/koltregaskes/status/1874535044334969104
https://arxiv.org/pdf/2412.19260