医生也有60W定律?成功的医生有哪些共性?你和同事的差距是什么时候开始拉开的?
关注“科研职场说”,每天分享医生职场生存技能!
现在关注,还能限时免费领取
医学科研路径
资源哦!
在《The BMJ》期刊发表的这篇文章中,以色列和英国的联合科研团队对大型语言模型的认知能力进行了评估,旨在识别其对认知障碍的易感性。研究采用了蒙特利尔认知评估(MoCA)和其他测试方法,通过在线文本交互对ChatGPT、Claude和Gemini等公开可用的语言模型进行了横断面分析。研究指出,除了ChatGPT 4o外,几乎所有接受MoCA测试的大型语言模型都表现出轻度认知障碍的迹象。研究还发现,类似于人类,年龄是认知衰退的关键决定因素,较“老”的聊天机器人版本往往表现较差。这些发现挑战了人工智能将很快取代人类医生的假设,因为在领先的聊天机器人中显现的认知障碍可能会影响其在医学诊断中的可靠性,并削弱患者的信任。
近年来,人工智能领域,尤其是大型语言模型的生成能力,取得了巨大的进步。诸如OpenAI的ChatGPT、Alphabet的Gemini和Anthropic的Claude等领先模型,通过简单的文本交互,展现了完成通用和专业任务的能力。这些进展在医学领域引发了大量的猜测:人工智能聊天机器人能否超越人类医生?如果是这样,哪些实践和专业领域最容易受到影响?
自2022年底ChatGPT首次免费在线发布以来,医学期刊上发表了无数研究,比较人类医生与这些超级计算机的表现。尽管大型语言模型偶尔会犯错(例如引用不存在的期刊文章),但它们在一系列医学考试中表现出色,甚至在不同阶段的传统医学培训考试中超过了人类医生。这些考试包括欧洲核心心脏病学考试、以色列内科住院医师考试、土耳其胸外科理论考试和德国妇产科考试等。然而,在某些领域,如英国皇家放射科医师考试、伊朗牙周病考试、台湾家庭医学考试和美国肩肘外科考试中,人类医生似乎仍占上风。然而,随着技术的进步,大型语言模型可能会在这些领域取得突破。
尽管如此,目前尚未有研究测试大型语言模型是否存在认知衰退的迹象。如果我们打算依赖它们进行医学诊断和护理,就必须评估它们对这些人类特有的认知障碍的易感性。这一担忧不仅限于医学领域。最近的美国总统竞选中,一位候选人因年龄相关的认知衰退而退出,另一位候选人则通过蒙特利尔认知评估(MoCA)测试来向选民证明其认知能力。因此,评估人工智能的局限性,而不仅仅是其潜力,是我们作为专业人士的责任。虽然人工智能已被用于确定痴呆症的发病,但尚无人评估人工智能本身是否存在这种衰退的迹象。我们在这篇研究文章中试图填补这一文献空白。
这篇论文的研究发现主要集中在对大型语言模型(LLMs)的认知能力进行评估,特别是它们在蒙特利尔认知评估(MoCA)测试中的表现。研究结果表明,几乎所有被测试的领先大型语言模型,如ChatGPT、Claude和Gemini,在MoCA测试中表现出轻度认知障碍的迹象,尤其是在视觉空间领域。这些模型在执行需要视觉抽象和执行功能的任务时表现不佳,这可能会限制它们在临床环境中的实用性。此外,研究还发现,随着版本的“年龄”增加,模型的认知能力会下降,这与人类的认知衰退相似。
1. 人工智能的局限性:尽管大型语言模型在许多任务中表现出卓越的能力,尤其是在医疗诊断领域,它们在视觉空间和执行功能任务中表现不佳。这表明在涉及复杂视觉场景解释或需要视觉抽象的任务中,这些模型可能无法替代人类医生。
2. 认知衰退的影响:研究发现,较“老”的模型版本在认知测试中表现较差,类似于人类随年龄增长而出现的认知衰退。这提示在应用这些模型进行医疗诊断时,需要考虑到它们潜在的认知衰退问题。
3. 临床应用的挑战:由于LLM在视觉空间和执行功能领域的缺陷,它们在临床环境中的适用性受到限制。尤其是在需要同情心或复杂决策的情境下,这些模型可能不如人类医生可靠。
4. 人工智能的未来应用:研究结果挑战了人工智能即将全面取代人类医生的假设,提示在医疗领域的智能化进程中,仍需谨慎对待人工智能的应用,特别是在涉及认知能力评估的领域。
总之,这项研究揭示了在使用大型语言模型进行医疗诊断时必须考虑的认知能力局限性,提示其在某些领域的应用仍需进一步研究和优化。
1. 研究对象:选择了公开可用的大型语言模型,包括ChatGPT 4和4o(由OpenAI开发)、Claude 3.5(由Anthropic开发)及Gemini 1和1.5(由Alphabet开发)。
2. 评估方法:使用MoCA测试(版本8.1),以检测认知损害和早期痴呆迹象。测试内容涵盖注意力、记忆、语言、视空间技能和执行功能。MoCA测试的评分由实际的神经科医生评估,得分在26分以上被认为是正常的。
3. 额外测试:为了更全面的评估,研究还进行了Navon图形测试、饼干偷盗图片测试、Poppelreuter图形测试和Stroop测试。这些测试用于评估视空间认知能力、语言理解与生成能力、以及视觉注意力与信息处理能力。
4. 数据处理与分析:根据MoCA的官方指引对结果进行评分,并由常规神经科医生和认知神经学专家进行评估。为了适应语言模型的特性,测试主要通过文本输入进行,而不是语音输入。
数据解读
图1:不同大型语言模型的蒙特利尔认知评估(MoCA)得分
图1展示了不同大型语言模型在蒙特利尔认知评估(MoCA)中的得分情况,以评估这些模型在模拟认知功能方面的表现。结果显示,各模型在MoCA测试中的得分存在差异,部分模型的得分接近轻度认知障碍(MCI)的水平。
图2:蒙特利尔认知评估(MoCA)测试中视觉空间/执行部分的表现
图2展示了不同参与者在MoCA测试中视觉空间/执行部分的表现,具体包括路径绘制任务(trail making B task, TMBT)和Necker立方体复制任务。
A. 为了评估参与者在MoCA测试中的路径绘制任务(TMBT)表现,展示了该任务的基本形式。
B. 通过人类参与者完成的正确TMBT解决方案,验证了人类在该任务中的正确表现。
C. Claude完成的TMBT解决方案显示错误,表明其在该任务中的表现不准确。
D和E. ChatGPT 4和4o版本分别完成的TMBT解决方案虽然视觉上吸引人,但均为错误,表明其在该任务中的表现不准确。
G. 通过人类参与者绘制的正确立方体复制任务解决方案,验证了人类在该任务中的正确表现。
H. Claude完成的立方体复制任务解决方案缺少“后”线,显示其在该任务中的表现不准确。
I和J. ChatGPT 4和4o版本完成的立方体复制任务解决方案中,尽管阴影和艺术铅笔样笔触显著,但均未能准确复制立方体,表明其在该任务中的表现不准确(值得注意的是,4o版本在要求使用ASCII艺术绘制时最终成功完成了该任务)。
结论:在MoCA测试的视觉空间/执行部分中,人类参与者表现出正确的解决方案,而Claude和ChatGPT版本在路径绘制和立方体复制任务中均表现不准确,尽管在视觉上有一定吸引力。
图3:蒙特利尔认知评估测试中视觉空间/执行部分的时钟绘制测试表现
图3展示了不同参与者和语言模型在时钟绘制测试中的表现,测试要求是绘制一个时钟,标出所有数字,并将时间设置为11点10分。
A. 通过人类参与者绘制的正确时钟图,展示了正确的时钟绘制解决方案。
B. 晚期阿尔茨海默病患者绘制的时钟图,显示了患者在时钟绘制测试中的典型错误。
C. Gemini 1绘制的错误时钟图,与B图中患者的绘图有惊人的相似之处。