大数据文摘受权转载自学术头条
整理:学术君
人类拥有视觉空间智能,可以通过连续的视觉观察记忆空间。然而,在百万规模的视频数据集上训练的多模态大语言模型(MLLMs)也能从视频中进行“空间思维”吗?
今日凌晨,纽约大学计算机科学助理教授谢赛宁团队联合“AI 教母”、斯坦福大学首位红杉讲席教授李飞飞和耶鲁大学计算机科学与经济学本科生 Rilyn Han,在一项名为“空间思维”(Thinking in Space)的研究中,探索了 MLLM 如何看见、记忆和回忆空间。
他们发现,虽然空间推理能力仍然是 MLLM 达到更高基准性能的主要瓶颈,但在这些模型中确实出现了局部世界模型和空间意识。
谢赛宁在 X 上发文称,“在视觉方面,人类处理空间,但很少推理;多模态大语言模型思考,但往往忽略空间逻辑。然而,作为人类,从进行心智旋转测验到为新家挑选家具,人类都依赖于空间和视觉思维,但这些思维并不总能很好地转化为语言。”
先看看官方给出的 demo:
视频以 2 倍速播放
基于以上视频中的情景,研究团队测试了 Gemini-1.5 Pro 的空间智能能力,结果发现,Gemini-1.5 Pro 无一答对。以下是一些问答案例:
问:如果我站在冰箱旁,面对着洗衣机,那么炉子在我的左边、右边还是后面?如果我至少要转 135 度才能面对一个物体,那么它就在我的后面。
问:从每个物体的最近点测量,哪个物体(桌子、凳子、沙发、炉子)离电视最近?
问:以下类别在视频中的首次出现顺序是什么:毯子、垃圾桶、微波炉、植物?
值得注意的是,目前流行的语言推理技术(如思维链、自洽性、思维树)无法提高空间推理能力,而在问答过程中明确生成认知地图可提高 MLLM 的空间距离能力。
据介绍,研究团队通过研究涵盖各种视觉空间智能任务(包括关系任务和度量任务)的新基准来探索这一问题。视频是一种天然的媒介——它反映了人类体验世界的方式,并要求较长形式的推理(以及世界建模)。
那么,他们究竟是如何获得数据和标注的呢?在先前计算机视觉工作的基础上,他们重新利用了现有的空间扫描视频,并利用其 ground-truth 标注自动生成 VQA 问题。人类仍在环路中进行质量控制。
他们提出了一个新颖的基于视频的视觉空间智能基准(VSI-Bench),通过 5000 多个问答对,他们发现 MLLM 显示出具有竞争力的视觉空间智能,尽管仍低于人类。Gemini Pro 模型表现最佳,但与人类的表现仍有差距。虽然这对人类来说也并非易事(我们有时确实会迷失方向),但人类可以调整和完善我们的心智模型,而目前的 LLM 却无法做到这一点。
谢赛宁表示,他最喜欢的部分之一就是分析表明这些任务与以语言为中心的智能有多么不同。当被要求进行解释时,LLM 显示,空间推理——而非物体识别或语言能力——是主要瓶颈,经常在视角转换、自我中心转换方面挣扎,并在较长的视野中失去对事物的追踪。
另一个例子是,语言提示技术在这种情况下并不有效——CoT 或多数投票(majority voting)等方法实际上对我们的任务相当不利。
但值得注意的是,这些技术对于一般的视频分析任务(如 VideoMME 中的任务)也是有效的。这再次强调了两者的区别:并非所有视频都是一样的,理解电影情节等内容更依赖于语言智能,而不是视觉空间智能。
最后,他们还通过提示(prompting)模型在笛卡尔网格上“可视化”其记忆来探究模型,其中每个被占据的单元格都代表一个物体中心。
研究发现,在处理空间信息时,MLLM 会从给定的视频中构建一系列局部世界模型,而不是一个连贯的全局模型。当问题涉及相距甚远的物体时,这种局限性会迅速显现出来。
这些观察结果表明,该领域未来研究的一个重要方向是开发更有效的空间记忆机制。
谢赛宁表示,他们深信,视觉空间智能在现实世界中的应用比以往任何时候都要接近——想象一下,人工智能眼镜能向你展示你去过的地方,让你知道你在哪里,并指引你去你想去的地方。
论文地址:https://arxiv.org/abs/2412.14171