介绍
为了评估大型语言模型 (LLM) 与医生相比诊断健康状况的能力,参考了最近的三篇论文:
-
使用“临床决策”框架的 Hager 论文,2024 年 1 月 26 日 [1]
2.
使用 “诊断推理” 框架的 Goh 论文,2024 年。测试时间 2023 年 11 月 29 日至 12 月 29 日 [2]
3.
使用“准确鉴别诊断”框架的 McDuff 论文,2023 年 11 月 [3]
Hager 论文框架在代理方面最具挑战性,因为它要求 LLM 做出自由裁量决定,例如要求进行体检和实验室测试,并遵循医疗指南。它测试了 5 个开源 LLM(Llama Chat 2 及其几个变体)。
Goh 论文更侧重于单独诊断。它要求参与者对每个病例进行 3 次鉴别诊断。它还包括此类诊断评估的许多定性因素。它测试了一个强大的专有 LLM:Chat GPT-4。
McDuff 论文在诊断分析因素方面最具挑战性,因为它侧重于医生必须进行鉴别诊断的复杂情况(每个病例最少 5 次和最多 10 次)。后者需要生成一份清单,其中包含最多 10 种潜在诊断,从最有可能到最不可能排序。McDuff 论文还包括许多定性因素,类似于 Goh 的定性因素,以评估诊断的质量。它测试了一个强大的专有 LLM:一个在医疗数据上训练的 Gemini 衍生物。
这三篇论文在 2023 年底进行了各自的测试。因此,它反映了当时 LLM 的表现。
https://marinpost.org/blog/2024/12/26/the-diagnostic-challenge-ai-vs-doctors
Hager 的论文表明,开源 LLM 在所有方面都几乎毫无价值。
Goh 论文测试了更强大的专有 LLM Chat GPT-4,发现它的性能远远超过了医生。而且,不知何故,医生并没有从使用 Chat GPT-4 中受益。
McDuff 论文还测试了一种非常强大的专有 LLM,它是 Gemini 的衍生物,在医疗数据上进行了训练。它的表现也比医生好得多。但是,与 Goh 论文相反,这篇论文表明,使用 LLM 的医生比其他方法表现得更好,但仍然不如单独的 LLM。
海格尔论文.临床决策 [1]
Hager 论文实验
match
在几个方面与其他两个不同:
-
他们测试了 5 种不同的 LLM,而不仅仅是 1 个
-
他们只测试了开源模型(出于数据隐私考虑),另外两个只测试了一个 LLM 专有模型。
-
他们测试了医生与 LLM 的表现。他们没有测试由 LLM 协助的医生的表现。其他两篇论文也这样做了(测试了 LLM 协助的医生的表现)。
Hager 团队使用了一个非常大的数据集,其中包含 2,400 例病例,这些病例发生在 2008 年至 2019 年之间,涉及四种常见的腹部疾病:
-
阑尾炎
-
胆囊炎
-
憩室炎
-
来源:Hager[1]
他们测试了 5 种不同的开源模型,包括 3 个通用模型:
Hager 团队刚刚使用 4 名医生从 2,400 个病例中随机选择 100 个诊断。每位医生必须为每种腹部疾病做出 20 次诊断,并为其他腹部疾病(胃炎、尿路感染、食管反流和疝气)做出 20 次诊断。
Hager 团队将他们的测试框架称为“临床决策”。因此,它涉及的不仅仅是诊断。作为其框架的一部分,他们在临床决策的 5 个不同维度上测试了他们的模型:
-
在医疗数据上训练的 2 个专业模型只能测试诊断准确性,而不能测试其他四个维度中的任何一个。
诊断准确性
简短的回答是,与医生相比,所有 LLM 的表现都很差。
从上述视觉数据中,我们可以提取直接比较 Llama 2 Chat(测试的通用开源 LLM 中最著名的)与医生的结果。而且,与医生相比,Llama 2 Chat 的诊断准确性看起来真的很差。
其他经过测试的 LLM 都没有比 Llama 2 Chat 做得更好。
这是一项具有挑战性的测试,要求 LLM 通过要求身体检查来模仿人类的自由裁量代理,并订购必要的实验室测试以全面诊断病情。如下面的视觉数据所示,LLM 没有很好地做出这些自由裁量决定。
来源:Hager [1]
这是另一个人类自由裁量决定或实施测试。同样,LLM 在这种情况下表现不佳,并犯了很多错误。
上述数据有点难以解释。因此,将指标转换为以 % 为单位的错误率每 2 名患者犯错相当于 50% 的错误率。
实验室测试解读
令人困惑的是,受过医学数据训练的专业 LLM 无法处理实验室测试解释。一般的 LLM 不能很好地处理这项任务。
在下图中,关键是 LLM 在识别超出范围的实验室测试结果(低或高)方面的表现有多糟糕。
来源:Hager [1]
接下来,我将上述数据转换为以 % 为单位的假阴性率。如下所示,Llama 2 Chat 和 Wizard LM 的假阴性率非常高。对于 OASST,它们要低得多。
即使是外行也很容易执行 0% 的完美假阴性率。你只需要阅读实验室结果,看看这些数字是否超出低端或高端的范围。
通过消除正常范围内的所有实验室测试值,模型能够改善很多。Llama 2 Chat 和 WizardLM 显示出更多的改进,只是因为它们的初始性能比 OASST 差得多。
来源:Hager [1]
鲁棒性
LLM 在这方面相当糟糕。更改传递给 LLM 的信息的顺序可能会对其整体诊断准确性产生巨大影响。但是,每个模型的顺序都不同。这是一个非常不可行的情况。
来源:Hager [1]
Hager 的论文表明,他们测试的开源 LLM 在 “临床决策” 方面几乎毫无价值。他们甚至无法准确地阅读和解释实验室结果,即使是外行也能轻松完成这项任务。
Goh 团队根据整体诊断性能评估诊断推理。后者包括:
-
鉴别诊断准确性
-
支持和反对因素的适当性
-
他们通过生成一个捕获所有上述三个标准的单一分数来评估医生的诊断表现。
他们测试了 50 名医生
的表现。他们被分为两组
:
来源:Goh [2]
医生在一小时内做出了 6 次诊断。
来源:Goh [2]
Goh 团队使用了以下诊断 — 结构化推理网格。
来源:Goh [2]
诊断性能评分
下表的要点是,干预组中使用 Chat GPT-4 的医生在统计上的表现并不优于使用传统搜索资源的医生对照组。
来源:
Goh
[2]
下面的箱形图最能说明问题。虽然它表明使用 Chat GPT-4(绿框)的医生并没有比没有使用(蓝框)的医生做得明显更好,但它确实表明单独使用 Chat GPT-4(红框)的效果要好得多!
来源:Goh [2]
下表揭示了在上面的箱形图中直观地捕获的基础数据。
单独的 Chat GPT-4 比使用 Chat GPT-4 的医生表现要好得多。这意味着医生犯的错误比 Chat GPT-4 引起的幻觉多得多。
使用 Chat GPT-4 的医生的表现并不比仅使用标准搜索资源的医生好。
换句话说,医生并没有从使用 Chat GPT-4 而不是他们的标准搜索资源中受益。但是,这不是 Chat GPT-4 的错,而是医生的错。
麦克达夫论文-准确的鉴别诊断 [3]
McDuff 团队是一个 Google 团队。谷歌开发了一种名为 Med-Palm 2 的专业医学 LLM,它是他们的 Gemini LLM 的衍生产品。
McDuff Team 精确鉴别诊断框架类似于 Goh Team 诊断推理框架。然而,它侧重于医生必须生成“鉴别诊断 (DDX)”的具有挑战性的病例。后者需要为每种情况生成一个潜在诊断的排名列表,其中最可能的诊断位于列表顶部(第 2 个最有可能的诊断位于第 2 位,依此类推)。医生需要生成包含至少 5 个和最多 10 个诊断的 DDX 列表。在 Goh 论文中,医生也做了 DDX。他们只需要提出 3 种可能性,而不是 McDuff 论文中的 5 到 10 种。
他们使用与 Goh 团队类似的标准评估了医生的诊断表现。这些包括:
20 名接受测试的医生被分为两组,每组 10 名。所有医生首先在没有任何帮助的情况下为每个病例提出了一份基线诊断清单。
接下来,一组医生使用传统的搜索辅助来修改他们的诊断;而另一组使用 LLM 的帮助来做同样的事情(下图中的第 1 阶段)。
第 2 阶段是评估步骤,专家生成黄金标准 DDX,然后评估以下 DDX 性能:
4. LLM alone
单独使用 LLM
来源: McDuff [3]
医生被要求为每个病例提出至少 5 种和最多 10 种不同的诊断方法的排名列表。这意味着用于测试的 302 个案例非常具有挑战性。这些研究于 2013 年至 2023 年间发表在《新英格兰医学杂志》上。
20 名医生共同诊断了 302 例病情病例。因此,每个人都进行了大约 15 次鉴别诊断。
诊断准确性
为了衡量诊断的准确性,他们测量了医生是否将正确的诊断列为最有可能的诊断在列表的顶部(前 1 准确率)。否则,如果医生将正确的诊断包含在他们的前 2 名中,他们就会称之为 top-2 准确性。他们一直这样做,直到准确率排名前 10。
下表仅披露了 LLM、帮助之前和帮助之后的医生在常规搜索或 LLM 的诊断准确性表现。该表还区分了两个数据集。第一个包括所有 302 个病例,第二个不包括 56 个可能已用于训练 Med-Palm 2 LLM 的病例。此数据分段对结果没有重大影响。
来源:McDuff [3]
下图提供的信息量最大,因为它们显示了从前 1 名到前 10 名准确率的整个诊断准确率曲线。左图使用了使用 Med-PaLM 2 LLM 的自动评估。右图使用 Specialists 进行相同的诊断准确性评估。
来源:McDuff [3]
上面的两个图表看起来非常相似。然而,使用 Med-PaLM 2 LLM 的自动评估在各个组之间更具差异性。您可以通过以下几种方式观察自动评估的更大差异化:
-
首先注意底部的蓝线(医生没有任何帮助)和顶部的红线(仅限 LLM)之间的空间要大得多。
-
其次,请注意红线(仅限 LLM)与橙线(医生 + LLM)之间的差异要大得多。在自动评估中,两者之间存在明显差距。在专家进行的评估中,红线和橙线几乎重叠。
Mc Duff 团队还使用下图表示了 5 个不同组的诊断准确性。他们现在查看 5 组,因为他们将接下来将使用 LLM 的独立医生与接下来将使用传统搜索资源的独立医生分开。
无论您从哪个角度看它,您都会发现相同的性能层次结构:
-
LLM 做得最好
-
协助 LLM 的医生排名第二
-
医生协助标准搜索资源排名第三
-
医生在无协助的情况下最后进来
下图显示了医生或 LLM 是否做出了正确的诊断,或者接近它,或者完全错过了机会。使用 LLM(橙色)的医生明显优于仅使用标准搜索资源(绿色)和无辅助搜索资源(蓝色)的医生。
来源:McDuff [3]
这是一个类似的图表,说明医生或 LLM 是否列出了所有最合理的诊断。与使用标准检索资源和无辅助检索的医生相比,在 LLM 的协助下得出了更全面的差异列表。
来源:McDuff [3]
下面是一个类似的适当性图表。全面性评论与适当性相关。你观察到完全相同的绩效排名,单独的 LLM 是最好的,而无辅助医生排在最后。
来源:McDuff [3]
所有三个因素的组合
首先,我捕获了 Chat GPT-4 LLM 与无辅助医生在每个类别(诊断、全面性、适当性)中获得最高分的诊断百分比。
接下来,我通过关注获得最差分数的诊断百分比来进行类似的视觉表示。
如上所示,在这个计数上,LLM 在三个维度中的两个维度(诊断准确性和全面性)上表现要好得多。而且,它与第三个 (Appropriateness) 并列。
ChatGPT-4 LLM在做出准确、全面和适当的诊断方面远远优于医生(无辅助)。而且,LLM实际上大大提高了医生的整体诊断性能。
是什么解释了这种分歧?
下表显示了Goh论文如何观察到LLM与医生之间的差异比较比Hager论文更多。而且,McDuff的论文比Goh 的论文观察到更多的此类比较。
以上解释了为什么McDuff论文比Goh论文产生了更多差异化结果。而且,Goh论文比Hager论文产生了更多这样的结果。