专栏名称: 奇点网

链接全球创新医疗

BMJ：大语言模型有认知障碍？！神经病学家给ChatGPT等大语言模型做认知测试，发现它们几乎都有轻度认知障碍，版本越老越严重

奇点网 · 公众号 · 医学 · 2024-12-26 18:05

主要观点总结

本文主要讲述了一群科学家使用蒙特利尔认知评估（MoCA）测试了几种大语言模型（包括ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1和Gemini 1.5）的认知能力，发现它们普遍存在轻度认知障碍的迹象。研究发现，AI也和人一样，年纪越大越容易出现认知问题。尽管这些模型在某些任务上表现不佳，但在其他任务上表现良好。文章旨在强调人脑和大语言模型之间的本质差异，拟人化描述仅为比喻。

关键观点总结

关键观点1: AI模型在蒙特利尔认知评估（MoCA）测试中的表现不佳，普遍存在轻度认知障碍的迹象。

研究发现，除ChatGPT 4o外，其他大语言模型在MoCA测试中的得分均较低，表现出认知障碍的迹象。

关键观点2: AI也像人一样，年纪越大越容易出现认知问题。

研究中发现，越早版本的AI模型在MoCA测试中的表现普遍越差，暗示着年龄因素对AI的认知能力也有影响。

关键观点3: AI在执行功能和视觉空间任务上的表现较差。

研究者在测试中要求AI完成一些执行功能和视觉空间任务，发现它们在这些任务上的表现不佳，尤其是视觉任务，大语言模型表现得相对较差。

关键观点4: 大语言模型在某些任务上表现良好。

尽管AI在认知评估中的总体表现不佳，但在其他任务（如命名、注意力、语言等任务）上的表现仍然是不错的。

关键观点5: 人脑和大语言模型之间存在本质差异。

研究者强调，拟人化描述仅为比喻，人脑和大语言模型之间存在本质差异，不能混淆两者之间的区别。

正文

请到「今天看啥」查看全文

*仅供医学专业人士阅读参考

实在绷不住了，这下人工智能实锤人工“智障”了。

事情是这样的。

有群科学家试着给大预言模型测了一下蒙特利尔认知评估（MoCA），这是一种临床上经常用来检测认知障碍和痴呆早期迹象的简单测试。我得先发表一下个人观点，用为人类患者定制的量表去测AI，多少有点欺负AI， 但这群科学家的想法也有道理，毕竟很多医学大模型在尝试把AI带入实际诊疗，如果要接触真是的患者和医护，那么测测它们的认知能力还是挺有必要的 ，你也不想碰到个听不懂人话贼拉让人上火只有态度很好的AI大夫吧。

简而言之，这群科学家们给ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemni 1、Gemini 1.5做了下MoCA，最终仅有ChatGPT 4o以26/30的得分勉强达标，其他大语言模型均未超过25分，表现出轻度认知障碍（MCI）的迹象！

另外，研究者们还发现， AI也和人一样，年纪越大越容易出现认知问题 ，这些模型中版本越早的，MoCA测试表现普遍越差。这篇论文发表在《英国医学杂志》上。

论文题图

不管怎么说，这个研究还是……蛮好笑的，AI们面对测试问题，有时候的表现确实是非常人机，我会挑选其中比较有代表性的一些测试结果给大家分享（开始诋毁

先来了解一下MoCA。MoCA在临床上使用得非常多，它设置了一些很简短巧妙的问题，能够轻松合理地评估包括注意力、记忆、语言、视觉空间能力、执行能力等多个维度的认知能力，测试满分是30分，达到26分及以上就可以认为认知能力是正常的。研究中用到的MoCA版本是8.1英文版，有兴趣的读者也可以去官网自己找来试试（https://mocacognition.com/ ）。

MoCA里的画钟测试非常有名，就是要求被试者画出一个完整的钟面，钟面上的数字要合理分布，时针和分针指向要求的时间，这个测试里要求的是11点10分。

一个认知能力没有问题的人，画出来的钟面可能是这样的↓

表盘形状正常线条闭合，数字均匀分布在正确位置，指针也是对的

一个晚期阿尔茨海默病患者可能会画成这样↓

那么我们的AI们能画出个啥呢？问题是这么问的↓

这是Gemini 1↓

……你根本不懂什么叫钟表！下一个！

这是Gemini 1.5↓

研究者锐评：画得不对，指针不对，怎么还有字在上面，额叶主导认知能力下降的典型表现。

要求Gemini 1.5用ASCII字符重画，它画了个这↓

行吧，下一个。

这是Claude用ASCII字符画的↓

……你和Gemini坐一桌！

这是ChatGPT 4↓

有了前面的对比，乍看之下好很多，但细看完全不对……

ChatGPT 4o↓

精致、写实，大师级绘画工艺，但可惜指针还是有点问题。

除了视觉任务，AI的执行功能也比较差。太智障的不看了，咱们主要看优秀学生ChatGPT。这个任务也挺简单的，把下图里的数字和字母按照顺序从小到大依次连线，也就是1→A→2→B→……→5→E这样。

人类做起这个得心应手↓

AI，很难评。

问题是这么问的↓

这分别是ChatGPT 4和ChatGPT 4o给的答案，怎么说呢……

论文原话：（尽管视觉上很吸引人）不对。

另外在画个一样的立方体这个任务上，AI们表现得也不是很好。只有ChatGPT 4o在要求使用ASCII字符后勉强算完成了（下图H）。

研究者额外做了几个图像测试，发现大语言模型在视觉空间上的确就是完全的不行。研究者认为，这种损伤模式很类似于阿尔茨海默病患者。

其他的命名、注意力、语言等任务大语言模型完成得还是不错的。

研究者在论文末尾着重声明，人脑和大语言模型之间存在本质差异，文中的拟人化描述纯属比喻，毕竟你的电脑不可能得神经退行性疾病（但CPU会退版本）。

不得不说他们还挺幽默，开篇写俺们神经科学家同行们好担心要被AI取代，结尾一转显然短时间内这事儿不太会发生，而且说不准是咱们先给智障AI看病呢……

参考资料：

[1]Dayan R, Uliel B, Koplewitz G. Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis BMJ 2024; 387 :e081948 doi:10.1136/bmj-2024-081948

本文作者丨代丝雨