多模态大语言模型 vs 人类：视觉认知能力的较量

集智俱乐部 · 公众号 · · 2025-02-04 21:03

正文

关键词： 多模态语言模型，直觉物理学，因果推理，直觉心理学，视觉认知

论文题目：Visual cognition in multimodal large language models

论文地址：https://www.nature.com/articles/s42256-024-00963-y

期刊名称： Nature Machine Intelligence

随着大语言模型（Large Language Models, LLMs）的崛起，研究者比较人工智能模型和人类认知能力的兴趣再次高涨。人们普遍认为深度神经网络架构无法做到像人一样思考，在因果推理、直觉物理学和直觉心理学等领域的表现一直受到质疑，但最新的多模态大语言模型（Multimodal Large Language Models, MLLMs）展示了在视觉处理上的潜力，本文通过一系列实验探讨MLLMs在上述领域的表现。

实验方法与发现

研究采用一系列经典认知科学任务来评估多模态语言模型的认知能力。

在 直觉物理感 方面，使用了来自Lerer等人的木块塔实验，要求模型判断塔的稳定性， 从而评判模型是否掌握了复杂的物理相互作用 。结果显示，GPT-4V和Claude-3在稳定性判断上表现略高于随机水平，但与人类的65.6%准确率相比仍有差距。

在 因果推理 方面，研究采用了Jenga积木实验和Michotte发射范式，要求模型判断积木的因果关系，以 考验大模型对因果关系的理解 。结果表明，尽管模型在某些任务中表现略优于随机水平，但和人类的因果判断一致性上仍显不足。

在 直觉心理 方面，研究设计了宇航员任务和帮助或阻碍任务，要求模型推断场景中角色的意图和行为结果， 评估其对他人偏好的直觉理解能力 。结果显示，所有模型在任务复杂性递增时的表现均不及人类。此外，GPT-4V在个别任务中表现出与人类判断的微弱相关性，但整体上仍未达到人类水平。

讨论与结论

尽管多模态语言模型在视觉数据处理上展现出一定的能力，但在和人类直觉认知对比下仍有显著不足。研究指出，模型在基础视觉处理上的局限可能是导致其认知表现不佳的原因之一，以及实验中使用的静态图像可能限制了任务的复杂性，未来可以考虑使用更具动态性和复杂性的刺激材料。研究强调了需要 更为健全的因果关系、物理动态和社会认知机制 ，以提升多模态语言模型的表现。未来的研究可以探索通过调整模型规模或微调训练过程来改善模型的认知能力。

大模型2.0读书会启动