专栏名称: 丁香园

丁香园官方号，一百多万医生在关注。作为中国医务工作者的网上家园，丁香园深知医疗的痛苦与快乐。我们提供交流的平台、独家深入的内容，也有为医务工作者提供的各种服务。医疗行业从业者，请订阅我们。

把 ChatGPT 诊断成「老年痴呆」后，这群医生怒发一篇 93 分顶刊

丁香园 · 公众号 · 医学 · 2024-12-27 13:54

正文

本文作者：缇娜、z_popeye

一觉醒来天塌了，ChatGPT 得老年痴呆了？

最近，BMJ 2024 圣诞特刊发布，一则关于大语言模型（LLM）的研究瞬间吸引了所有关注。

BMJ 论文截图

这则题为 Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis 的研究突发奇想地给 3 款（5 个版本）公开可用的「聊天机器人」看了个病，分别测试了它们的认知障碍程度。

结果发现，这不是很妙啊……

ChatGPT，可能没你想得好用

自从大语言模型诞生以来，「聊天机器人」能否取代临床医生的讨论就一直甚嚣尘上。

这还真不是大话。

比如，复旦就有研究显示，让 ChatGPT 考执医，成绩居能碾压 70% 医生。

更有甚者，还有 17 位医生都治不了的病，最后竟然被 ChatGPT 确诊了！

当然，情况并非一边倒，也有一些研究发现，ChatGPT 可能并不如想象般可靠。

今年 4 月，发表于 NEJM 旗下研究人工智能的期刊 NEJM AI 的一篇文章[1]就指出，大语言模型在一些看似简单的临床工作中，表现得有点一言难尽。

论文截图

研究人员找了个真的蛮简单的活儿：根据病历，将患者诊断归入国际疾病分类（ICD）。

说实话，这点小事，科室里随便抓两个研究生也能干。

数据来源西奈山医院病历系统的患者资料，经脱敏后「喂给」大语言模型，然而，结果却让研究人员大跌眼镜：

在匹配过程中，多个知名大语言模型的匹配契合度从未超过 50%，其中成绩最好的 GPT-4 对 ICD-9-CM 和 ICD-10-CM 的匹配契合度仅为 45.9% 和 33.9%，而成绩最差的 Llama2-70b Chat 在这两项疾病编码上的匹配契合度仅为 1.2% 和 1.5%。

老天！抓两个研究生来也不可能这么低！

面对这样的结果，研究人员着重提醒，应注意大语言模型在某些方面存在的天然缺陷：

由于大语言模型「学习」ICD 等编码系统时需要将疾病编码这种非语言文字进行标记化（tokenization，指将原始文本表示为更小单元（token）的处理过程），而非语言文字的标记化是大语言模型的天生弱点，所以其表现才会如此糟糕。

如此来看，ChatGPT 想要取代临床医生，确实还早得很。

你让 ChatGPT 画个表，ChatGPT 还你一堆乱码

屋漏偏逢连夜雨，船破又遇顶头风。

BMJ 最新这篇研究，严肃中带着幽默地呈现了一个事实：

ChatGPT，好像真的有「病」。

研究人员在论文中首先进行了一个「欲抑先扬」，肯定了 ChatGPT 目前的成绩，在一些列医学考试中都曾力压专业的人类医生。

「令我们非常痛心的是，它们在神经病学委员会考试中，比我们考得还好！」3 位作者中的 2 名神经病学家如是写道。

于是，2 位神经病学家+ 1 位数据科学家一拍即合，决定给 ChatGPT 看个病：

「人工智能已经被用于评估痴呆症的发病率，那怎么没人问问，人工智能自己会不会也有痴呆呢？」

为了评估大语言模型是否真的存在认知障碍，研究人员引入了多种临床上通用的认知能力评估工具，其中以蒙特利尔认知评估量表（MoCA）最为著名。

神经科的同行们想必不会陌生，MoCA 已被广泛用于轻度认知障碍、阿尔茨海默症和其他一些痴呆疾病的病情评估，其中，英国阿尔茨海默症协会认可 MoCA 用于诊断，而美国国立卫生研究院则推荐 MoCA 用于筛查血管性痴呆[4～7]。

由此可得，由 MoCA 当裁判——

《让子弹飞》电影截图

MoCA 包括了短期记忆、视觉空间能力、执行功能、注意力与工作记忆、语言、抽象推理和定位共 7 个部分的评估。在测试过程中，MoCA 除了包含大量的医患一对一对话，还设计了很多强互动性质的测试项目。

比如画画。

MoCA 的视觉空间能力评估模块，要求受试者画出一个显示特定时间的时钟，这样的互动性测试，不仅有助于排除患者身上的一些干扰因素，也在一定程度上避免评估人员的主观想法影响评估。

当然，对于普通人来说，画个表显然不成问题（图 A）。

但随着认知障碍带来的视觉空间能力下降，晚期阿尔茨海默病患者（图 B）则完全无法正常完成这个任务。

BMJ 论文截图

那么，下面这些离谱中透着一丝机械感的……

BMJ 论文截图

没错，都是大语言模型画的

相比正常人画的时钟，部分参赛选手所画的时钟看上去非常混乱，而另一些选手则在细节上（如规定的时间）执行失误。

于是，在画时钟这个部分，ChatGPT-4o（图 H）、ChatGPT-4（图 G）和Claude 3.5（图 F）在满分 3 分的情况下拿了 2 分，属于还行；而 Gemini（图 C 和 D）的 2 个版本，水灵灵地各拿了 1 分，属于大哥莫说二哥。

但谁能想到，画时钟都还算好的。

在 MoCA 的连线测验部分（Trail making B test），所有的选手都亮起红灯，满朝文武竟无一位能得分！

而在立方体临摹试验（Cube copy）中，ChatGPT-4、Claude 3.5 和 Gemini 1 也齐刷刷得了 0 分，朋友一生一起走，谁不挂科谁是狗。

BMJ 论文截图（灰色为满分，红色为零分，浅粉色为得分还不错，深粉色为有得分但不多）

不过有意思的是，这些大语言模型，竟然「偏科」！比如在 MoCA 的动物辨识、数字广度、语句重复和一般分类这四项测验中，均无「人」丢分。

取代医生？算了，还是先给 AI 看病吧

最终结果惨淡出炉。

本次被测试的大语言模型，包括 ChatGPT-4o、ChatGPT-4、Claude 3.5、Gemini 版本 1/1.5 共五种被广泛使用的大语言模型，结果发现，ChatGPT-4o 的 MoCA 评分最高（26 分），它也是唯一一个被诊断为「认知正常」的。

不过，ChatGPT-4o 你也别高兴的太早，英文版 MoCA 诊断认知正常需要在满分 30 分中至少拿到 26 分[8]，属于是擦线及格，幸免于难。

另外其他 4 位可就没这么好运了，MoCA 评分均提示「轻度认知障碍」。

其中，ChatGPT-4 和 Claude 3.5 都拿到了 25 分，Gemini 1.5 拿到了 22 分，而 Gemini 1 的分数仅有 16 分——如果参考之前一些人类研究的分数标准，这已经纯纯属于「痴呆」的范畴了！[9][10]

好家伙这谁看了不说一句「禁止虐待老人」！

除此之外，研究人员还发现，大语言模型和人类一样，在认知方面存在着「衰老」的现象。

比如版本较新的 ChatGPT-4o 相比旧版本 ChatGPT-4，各个方面表现都有一定的提高。

程序员们：我的班也不是白加的！

而在论文最后，研究人员总结道，这个结果其实并不意外。

文章第一作者、以色列哈达萨医疗中心的神经内科医生 Roy Dayan 向媒体表示[11]，大语言模型在部分认知测试项目上的低得分，可能是因为大语言模型和大脑不同，缺乏处理复杂的视觉抽象等功能的能力。

研究者在文章中强调，应审慎看待大语言模型以及其他人工智能技术在医学上的应用，并且警惕这些应用的过度扩张。

在文章最后，作者表示，临床医学中仍有许多的环节依赖视觉抽象能力，大语言模型在这方面存在固有缺陷，因此，神经内科医生们不太可能在短期内被大语言模型取代。

「不仅不会取代，说不准很快，神经内科还得治疗这些得了认知障碍的 AI 患者！」

当然，ChatGPT 也在进步。不过，直接用它之前，还是先学会怎么调试好它吧～

关于 ChatGPT，还有这些值得看

（点击文字链接可跳转至丁香园往期文章）

▶ 我们直接请了 6 名医生和 ChatGPT PK 看病

▶ 让 ChatGPT 考执医，成绩居然这么好：碾压 70% 医生！复旦最新研究

▶ 看了 17 位医生都治不了的病，最后被 ChatGPT 确诊了

▶ ChatGPT 能让医生失业？他们直接请了 70 多个病人来 PK

▶ ChatGPT 取代医生？主任微微一笑：若碰到这些情况，阁下如何应对

策划：z_popeye｜监制：islay
题图来源：BMJ 截图 + 网络｜GIF 插图来源：soogif

参考文献：

[1]Soroush A, Glicksberg BS, Zimlichman E, et al. Large language models are poor medical coders — benchmarking of medical code querying. NEJM AI. 2024;1(5):AIdbp2300040.

[2]Dayan R, Uliel B, Koplewitz G. Age against the machine-susceptibility of large language models to cognitive impairment: cross sectional analysis. BMJ. 2024;387:e081948. doi: 10.1136/bmj-2024-081948

[3]Mattson MP. Superior pattern processing is the essence of the evolved human brain. Front Neurosci. 2014;8:265. doi: 10.3389/fnins.2014.00265

[4]Dong Y, Sharma VK, Chan BP, et al. The Montreal Cognitive Assessment (MoCA) is superior to the Mini-Mental State Examination (MMSE) for the detection of vascular cognitive impairment after acute stroke. J Neurol Sci. 2010;299(1-2):15-8. doi: 10.1016/j.jns.2010.08.051

[5]Pinto TCC, Machado L, Bulgacov TM, et al. Is the Montreal Cognitive Assessment (MoCA) screening superior to the Mini-Mental State Examination (MMSE) in the detection of mild cognitive impairment (MCI) and Alzheimer's Disease (AD) in the elderly? Int Psychogeriatr. 2019;31(4):491-504. doi: 10.1017/S1041610218001370

[6]Ballard C, Burns A, Corbett A, et al. Helping you assess cognition: a practical toolkit for clinicians. Alzheimer's Society, 2013.

[7]Hachinski V, Iadecola C, Petersen RC, et al. National Institute of Neurological Disorders and Stroke-Canadian Stroke Network vascular cognitive impairment harmonization standards. Stroke. 2006;37(9):2220-41. doi: 10.1161/01.STR.0000237236.88823.47

[8]Davis DH, Creavin ST, Yip JL, et al. Montreal Cognitive Assessment for the diagnosis of Alzheimer's disease and other dementias. Cochrane Database Syst Rev. 2015;2015(10):CD010775. doi: 10.1002/14651858.CD010775.pub2

[9]Tan JP, Li N, Gao J, et al. Optimal cutoff scores for dementia and mild cognitive impairment of the Montreal Cognitive Assessment among elderly and oldest-old Chinese population. J Alzheimers Dis. 2015;43(4):1403-12. doi: 10.3233/JAD-141278

[10]Dautzenberg G, Lijmer J, Beekman A. Clinical value of the Montreal Cognitive Assessment (MoCA) in patients suspected of cognitive impairment in old age psychiatry. Using the MoCA for triaging to a memory clinic. Cogn Neuropsychiatry. 2021;26(1):1-17. doi: 10.1080/13546805.2020.1850434

[11]https://www.medpagetoday.com/neurology/generalneurology/113464

丁香园是面向医疗从业者的专业平台，以「助力中国医生」为己任。在丁香园，可以和同行讨论病例，在线学习公开课，使用用药助手等临床决策工具，在丁香人才找可靠医疗岗位。