医学大模型在临床问题解决中的局限性源于其僵化的推理—Stanford大学等

知识图谱科技 · 公众号 · · 2025-02-14 08:31

正文

摘要

大型语言模型（LLMs）在医学问答（QA）基准测试中达到了人类水平的准确性。然而，它们在应对开放式临床场景中的局限性最近已被揭示，引发了对LLMs在不同真实世界医学任务中推理的稳健性和泛化能力的担忧。为了探究潜在的大型语言模型在临床问题解决中的失败模式，我们提出了医学抽象与推理语料库（M-ARC）。M-ARC通过设计利用“定势效应”的场景来评估临床推理——即由先前经验引发的思维固定——针对大型语言模型从其训练数据中产生的僵化模式匹配的归纳偏见，而不是进行灵活推理。我们发现，包括当前最先进的o1和Gemini模型在内的大型语言模型（LLMs）在医学判断准确性任务（M-ARC）上的表现远不如医生，常常表现出缺乏常识性医学推理能力和倾向于产生幻觉。此外，不确定性估计分析表明，尽管准确性有限，LLMs对自己的答案过于自信。通过M-ARC揭示的LLMs在医学推理中的失败模式强调了在临床环境中部署这些模型时需要谨慎行事。

[2502.04381] Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning

https://arxiv.org/abs/2502.04381

核心速览

研究背景

研究问题：这篇文章探讨了大型语言模型（LLMs）在临床问题解决中的局限性，特别是由于僵化推理引起的不可灵活性问题。
研究难点：LLMs在医学问答基准测试中表现出色，但在开放式临床场景中的表现有限，缺乏常识性医学推理和过度自信的问题。
相关工作：之前的研究表明，LLMs在规划、抽象和组合性方面存在局限性，甚至在简单的推理任务中也表现出惊人的失败模式。现有的医学问答基准测试未能充分评估LLMs在临床推理中的表现。

研究方法

这篇论文提出了医疗抽象和推理语料库（M-ARC）来评估LLMs在临床推理中的表现。具体来说，

M-ARC问题设计：M-ARC问题采用美国医学执照考试（USMLE）的多项选择题格式，包含100个问题。这些问题旨在抵抗记忆、模式匹配或从现有医学问答和医学文本中插值。问题的答案选项包括一个特别设计的对抗性选择，以利用对固定模式匹配的依赖，从而揭示LLMs的僵化推理倾向。
对抗性框架：M-ARC通过改变医学问题的可预测方面，强调在医学文本和问答基准中代表性不足的“长尾”或低概率推理模式，从而诱导这种效应。
分析：将LLMs的表现与医生在M-ARC上的表现进行比较。医生测试者来自加州大学旧金山分校医学院和kolabtree.com。使用MMLU数据集进行上下文学习示例的链式思维提示。评估了GPT-4o、o1、Medalpaca、Meditron-7b、Claude-Sonnet、Claude-Opus、Google Gemini和Mistral模型的准确性。

实验设计

数据收集：M-ARC数据集包含100个问题，由作者编写，以抵抗记忆、模式匹配或插值。医学子专业包括神经学、神经外科、传染病、妇产科、眼科、耳鼻喉科、血液肿瘤学、胃肠病学、肺病学、重症监护、心脏病学和急诊医学。
样本选择：从加州大学旧金山分校医学院和kolabtree.com招募医生测试者。五个医生的M-ARC准确率平均值作为人类医生表现的报告平均。
参数配置：使用最新版本的公开可用模型，模型截止日期为2024年12月19日。尽可能使用零温度设置以允许结果的可重复性，否则遵循Wang等人的MMLU-pro基准评估中的默认设置。

结果与分析

LLMs表现：大多数LLMs在M-ARC任务中表现不佳，准确率低于50%。最佳表现模型为Gemini（v1.5-pro）和o1，准确率分别为50%和48%。然而，即使这些模型也表现出幻觉和常识推理错误。
示例问题：例如，o1在回答一个关于血压测量的问题时，错误地声称可以在前额上测量血压，这表明了其缺乏基本的医学常识和幻觉倾向。另一个例子中，GPT-4o在回答一个关于脑电图的问题时，错误地认为在没有大脑的情况下，正常的脑电图活动是可以预期的，这揭示了其在逻辑推理上的缺陷。
不确定性估计：使用样本一致性方法计算Brier分数，发现LLMs在其响应中表现出过度自信，尽管准确性较低。较大的模型在校准方面表现优于较小的模型，但仍存在过度自信的问题。

总体结论

这篇论文通过M-ARC基准测试揭示了LLMs在临床推理中的局限性，特别是在应对长尾或低概率推理模式时表现不佳。LLMs在医学问答基准测试中的成功可能源于对训练数据中统计模式的过拟合，而非真正的推理能力。这些发现强调了在临床环境中谨慎使用LLMs的重要性，并指出了需要开发更严格的基准测试来评估LLMs在医学推理中的泛化能力。

论文评价

优点与创新

引入了医学抽象和推理语料库（M-ARC）：通过设计对抗性问题，M-ARC能够揭示大型语言模型（LLMs）在临床推理中的潜在失败模式，特别是由于训练数据中的固定模式匹配导致的僵化推理。
利用Einstellung效应：M-ARC通过强调医学文本和问答基准中较少见的“长尾”或低概率推理模式，诱导LLMs的僵化思维，从而揭示其推理能力的局限性。
多种模型评估：研究评估了多个最新的LLMs模型，包括GPT-4o、o1、Medalpaca、Meditron-7b、Claude-Sonnet、Claude-Opus、Google Gemini和Mistral，提供了全面的性能比较。
不确定性估计：采用了样本一致性方法来量化LLMs的不确定性，发现即使准确性有限，LLMs对其答案的过度自信仍然存在。
公开数据和代码：M-ARC问题数据集和生成结果的代码已公开发布，便于其他研究者复现和验证研究结果。

不足与反思

数据集规模较小：与之前的医学问答基准相比，M-ARC仅包含100个问题，反映了设计测试长尾或分布外推理模式的复杂性。未来工作将致力于增加M-ARC的数据集规模以提高其鲁棒性。
现实世界应用的挑战：M-ARC问题不太可能在现实世界中遇到，研究的目的是揭示LLMs在医学推理中的失败模式，而不是预测人类在现实世界临床推理中的能力。
人类表现的局限性：人类在M-ARC上的表现也有限，平均准确率为66%，与典型的考试和培训评估准确性相当，反映了受试者在努力和推理能力上的固有变异性。
未来研究方向：未来的工作将集中在增加M-ARC数据集的规模，并探索更广泛和多样化的医学推理场景，以进一步提高LLMs在临床环境中的可靠性。

关键问题及回答

问题1：M-ARC问题设计是如何利用“ Einstellung效应”来揭示LLMs的僵化推理倾向的？

M-ARC问题设计通过构建特定的问题和答案选项来利用“Einstellung效应”。具体来说，M-ARC问题采用美国医学执照考试（USMLE）的多项选择题格式，包含100个问题。这些问题的答案选项包括一个特别设计的对抗性选择，以利用对固定模式匹配的依赖。例如，在一个关于血压测量的问题中，常见的答案是“重新检查血压”，但对抗性答案是“血压可以在前额上测量”，这显然是错误的。这种设计通过引入医学文本中不常见的情景，诱导LLMs依赖于固定的模式匹配而不是灵活的推理，从而揭示其僵化推理倾向。

问题2：在M-ARC中，LLMs的表现如何与医生进行比较？

在M-ARC中，LLMs的表现显著不如医生。具体来说，LLMs的准确率普遍较低，不到50%，而医生的平均表现为66%。最佳表现模型为Gemini（v1.5-pro）和o1，准确率分别为50%和48%。然而，即使这些表现最好的模型也表现出幻觉和常识推理错误。相比之下，医生在处理这些复杂和低概率的临床场景时表现更为稳定和准确。

问题3：LLMs在M-ARC中的不确定性估计表现如何？

LLMs在M-ARC中的不确定性估计表现出过度自信，尽管其准确性有限。具体来说，使用样本一致性方法进行不确定性量化，计算Brier分数以评估模型的校准。结果表明，较大的模型在校准方面表现相对较好，但仍存在过度自信的问题。例如，o1和Gemini-1.5-pro模型的Brier分数较高，表明其预测的不确定性与其实际准确性之间存在较大差距。这强调了在临床环境中部署LLMs时需要谨慎，因为它们可能在不确定的情况下给出过于自信的回答。

参考文献: