专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理

学术头条 · 公众号 · · 2024-12-23 12:30

正文

人类拥有视觉空间智能，可以通过连续的视觉观察记忆空间。然而，在百万规模的视频数据集上训练的 多模态大语言模型（MLLMs）也能从视频中进行“空间思维”吗 ？

今日凌晨，纽约大学计算机科学助理教授 谢赛宁 团队联合“AI 教母”、斯坦福大学首位红杉讲席教授 李飞飞 和耶鲁大学计算机科学与经济学本科生 Rilyn Han ，在一项名为 “空间思维”（Thinking in Space） 的研究中，探索了 MLLM 如何看见、记忆和回忆空间 。

他们发现，虽然空间推理能力仍然是 MLLM 达到更高基准性能的主要瓶颈，但在这些模型中确实出现了 局部世界模型和空间意识 。

谢赛宁在 X 上发文称，“ 在视觉方面，人类处理空间，但很少推理；多模态大语言模型思考，但往往忽略空间逻辑 。然而，作为人类，从进行心智旋转测验到为新家挑选家具，人类都依赖于空间和视觉思维，但这些思维并不总能很好地转化为语言。”

先看看官方给出的 demo：

视频以 2 倍速播放

基于以上视频中的情景，研究团队测试了 Gemini-1.5 Pro 的空间智能能力，结果发现，Gemini-1.5 Pro 无一答对。以下是一些问答案例：

问：如果我站在冰箱旁，面对着洗衣机，那么炉子在我的左边、右边还是后面？如果我至少要转 135 度才能面对一个物体，那么它就在我的后面。

问：从每个物体的最近点测量，哪个物体（桌子、凳子、沙发、炉子）离电视最近？

问：以下类别在视频中的首次出现顺序是什么：毯子、垃圾桶、微波炉、植物？

值得注意的是，目前流行的语言 推理技术（如思维链、自洽性、思维树）无法提高空间推理能力 ，而在问答过程中明确生成认知地图可提高 MLLM 的空间距离能力。

据介绍，研究团队通过研究涵盖各种视觉空间智能任务（包括关系任务和度量任务）的新基准来探索这一问题。视频是一种天然的媒介——它反映了人类体验世界的方式，并要求较长形式的推理（以及世界建模）。

那么，他们究竟是如何获得数据和标注的呢？ 在先前计算机视觉工作的基础上，他们重新利用了现有的空间扫描视频，并利用其 ground-truth 标注自动生成 VQA 问题。人类仍在环路中进行质量控制。

他们提出了一个新颖的基于视频的视觉空间智能基准（VSI-Bench），通过 5000 多个问答对，他们发现 MLLM 显示出具有竞争力的视觉空间智能，尽管仍低于人类。 Gemini Pro 模型表现最佳，但与人类的表现仍有差距 。虽然这对人类来说也并非易事（我们有时确实会迷失方向），但人类可以调整和完善我们的心智模型，而目前的 LLM 却无法做到这一点。

谢赛宁表示，他最喜欢的部分之一就是分析表明这些任务与以语言为中心的智能有多么不同。当被要求进行解释时，LLM 显示， 空间推理——而非物体识别或语言能力——是主要瓶颈 ，经常在视角转换、自我中心转换方面挣扎，并在较长的视野中失去对事物的追踪。

另一个例子是，语言提示技术在这种情况下并不有效——CoT 或多数投票（majority voting）等方法实际上对我们的任务相当不利。

谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理

正文

请到「今天看啥」查看全文