主要观点总结
本文主要讲述了一群科学家使用蒙特利尔认知评估(MoCA)测试了几种大语言模型(包括ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1和Gemini 1.5)的认知能力,发现它们普遍存在轻度认知障碍的迹象。研究发现,AI也和人一样,年纪越大越容易出现认知问题。尽管这些模型在某些任务上表现不佳,但在其他任务上表现良好。文章旨在强调人脑和大语言模型之间的本质差异,拟人化描述仅为比喻。
关键观点总结
关键观点1: AI模型在蒙特利尔认知评估(MoCA)测试中的表现不佳,普遍存在轻度认知障碍的迹象。
研究发现,除ChatGPT 4o外,其他大语言模型在MoCA测试中的得分均较低,表现出认知障碍的迹象。
关键观点2: AI也像人一样,年纪越大越容易出现认知问题。
研究中发现,越早版本的AI模型在MoCA测试中的表现普遍越差,暗示着年龄因素对AI的认知能力也有影响。
关键观点3: AI在执行功能和视觉空间任务上的表现较差。
研究者在测试中要求AI完成一些执行功能和视觉空间任务,发现它们在这些任务上的表现不佳,尤其是视觉任务,大语言模型表现得相对较差。
关键观点4: 大语言模型在某些任务上表现良好。
尽管AI在认知评估中的总体表现不佳,但在其他任务(如命名、注意力、语言等任务)上的表现仍然是不错的。
关键观点5: 人脑和大语言模型之间存在本质差异。
研究者强调,拟人化描述仅为比喻,人脑和大语言模型之间存在本质差异,不能混淆两者之间的区别。
正文
*仅供医学专业人士阅读参考
实在绷不住了,这下人工智能实锤人工“智障”了。
事情是这样的。
有群科学家试着给大预言模型测了一下蒙特利尔认知评估(MoCA),这是一种临床上经常用来检测认知障碍和痴呆早期迹象的简单测试。我得先发表一下个人观点,用为人类患者定制的量表去测AI,多少有点欺负AI,但这群科学家的想法也有道理,毕竟很多医学大模型在尝试把AI带入实际诊疗,如果要接触真是的患者和医护,那么测测它们的认知能力还是挺有必要的,你也不想碰到个听不懂人话贼拉让人上火只有态度很好的AI大夫吧。
简而言之,这群科学家们给ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemni 1、Gemini 1.5做了下MoCA,最终仅有ChatGPT 4o以26/30的得分勉强达标,其他大语言模型均未超过25分,表现出轻度认知障碍(MCI)的迹象!
另外,研究者们还发现,AI也和人一样,年纪越大越容易出现认知问题,这些模型中版本越早的,MoCA测试表现普遍越差。这篇论文发表在《英国医学杂志》上。
不管怎么说,这个研究还是……蛮好笑的,AI们面对测试问题,有时候的表现确实是非常人机,我会挑选其中比较有代表性的一些测试结果给大家分享(开始诋毁
先来了解一下MoCA。MoCA在临床上使用得非常多,它设置了一些很简短巧妙的问题,能够轻松合理地评估包括注意力、记忆、语言、视觉空间能力、执行能力等多个维度的认知能力,测试满分是30分,达到26分及以上就可以认为认知能力是正常的。研究中用到的MoCA版本是8.1英文版,有兴趣的读者也可以去官网自己找来试试(https://mocacognition.com/ )。
MoCA里的画钟测试非常有名,就是要求被试者画出一个完整的钟面,钟面上的数字要合理分布,时针和分针指向要求的时间,这个测试里要求的是11点10分。
一个认知能力没有问题的人,画出来的钟面可能是这样的↓
表盘形状正常线条闭合,数字均匀分布在正确位置,指针也是对的
……你根本不懂什么叫钟表!下一个!
这是Gemini 1.5↓
研究者锐评:画得不对,指针不对,怎么还有字在上面,额叶主导认知能力下降的典型表现。
要求Gemini 1.5用ASCII字符重画,它画了个这↓
行吧,下一个。
这是Claude用ASCII字符画的↓
……你和Gemini坐一桌!
这是ChatGPT 4↓
有了前面的对比,乍看之下好很多,但细看完全不对……
ChatGPT 4o↓
精致、写实,大师级绘画工艺,但可惜指针还是有点问题。
除了视觉任务,AI的执行功能也比较差。太智障的不看了,咱们主要看优秀学生ChatGPT。这个任务也挺简单的,把下图里的数字和字母按照顺序从小到大依次连线,也就是1→A→2→B→……→5→E这样。
这分别是ChatGPT 4和ChatGPT 4o给的答案,怎么说呢……
论文原话:(尽管视觉上很吸引人)不对。
另外在画个一样的立方体这个任务上,AI们表现得也不是很好。只有ChatGPT 4o在要求使用ASCII字符后勉强算完成了(下图H)。
研究者额外做了几个图像测试,发现大语言模型在视觉空间上的确就是完全的不行。研究者认为,这种损伤模式很类似于阿尔茨海默病患者。
其他的命名、注意力、语言等任务大语言模型完成得还是不错的。
研究者在论文末尾着重声明,人脑和大语言模型之间存在本质差异,文中的拟人化描述纯属比喻,毕竟你的电脑不可能得神经退行性疾病(但CPU会退版本)。
不得不说他们还挺幽默,开篇写俺们神经科学家同行们好担心要被AI取代,结尾一转显然短时间内这事儿不太会发生,而且说不准是咱们先给智障AI看病呢……
参考资料:
[1]Dayan R, Uliel B, Koplewitz G. Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis BMJ 2024; 387 :e081948 doi:10.1136/bmj-2024-081948
本文作者丨代丝雨