论文标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
论文链接:https://arxiv.org/pdf/2412.14171
项目链接:https://vision-x-nyu.github.io/thinking-in-space.github.io/
作者单位:纽约大学 耶鲁大学 斯坦福大学
写在前面&引言
人类具备通过连续视觉观察记忆空间的视觉-空间智能。那么,是否经过大规模视频数据集训练的多模态大语言模型(MLLMs)也能够从视频中实现“在空间中思考”?
Thinking in Space
提出了一个新颖的视频驱动视觉-空间智能基准(VSI-Bench),包含超过5000个问答对。研究发现,MLLMs表现出竞争力的——但仍低于人类水平的——视觉-空间智能。我们对模型进行探测,分析其如何以语言和视觉方式表达空间思考能力。结果表明,尽管空间推理能力是MLLMs提升基准性能的主要瓶颈,但局部世界模型和空间感知能力在这些模型中确实有所显现。值得注意的是,传统的语言推理技术(如chain-of-thought, self-consistency, tree-of-thoughts)未能提升性能,而在问答过程中明确生成认知地图则显著增强了MLLMs对空间距离的处理能力。
内容出自国内首个具身智能全栈学习社区:
具身智能之心知识星球
,这里包含所有你想要的。
VSI-Bench介绍
在选购家具时,我们常常会试图回忆起自己的客厅,以想象某个心仪的柜子是否合适。然而,估算距离并不容易,但即便仅仅观察一次,人类也能在脑海中重构空间,回忆房间中的物体、它们的位置及尺寸。我们生活在一个感官丰富的三维世界中,周围充满视觉信号,这些信号为我们的感知、理解和互动提供了基础。
视觉-空间智能包括感知和在脑海中操控空间关系,这需要多种能力的支持,例如关系推理以及在自我中心(egocentric)和他人中心(allocentric)视角之间的转换能力。尽管大语言模型(LLMs)在语言智能方面取得了显著进展,但视觉-空间智能的研究仍然不足。然而其在机器人技术、自动驾驶和增强/虚拟现实(AR/VR)等领域具有重要意义。
多模态大语言模型(MLLMs)结合了语言和视觉能力,在开放式对话和实际任务(如web agents)中表现出强大的思考和推理能力。为了推动视觉-空间领域的智能发展,本文提出了
VSI-Bench
,这是一个基于视频的基准,涵盖近290个真实室内场景视频,包含超过5000个问答对。视频数据通过捕捉连续的时序输入,不仅与我们观察世界的方式相似,还能比静态图像提供更丰富的空间理解和推理能力。对开源和闭源模型在VSI-Bench上的评估表明,尽管模型与人类之间仍存在显著的性能差距,但MLLMs在应对视频理解、文本理解和空间推理等挑战时,已经展现出初步的视觉-空间智能。
为了分析模型行为,我们借鉴了双编码理论,该理论认为语言处理与视觉处理是独立但互为补充的。这里引导选定模型生成自解释(语言)和认知地图(视觉)。对自解释的分析表明,与视觉感知、语言智能或时间处理相比,空间推理是模型在
VSI-Bench
上表现较弱的主要原因。“认知地图”是环境内部布局的表示,通过评估认知地图,我们发现 MLLMs 在构建局部空间模型方面表现较强,但在全局模型上表现较弱。此外,传统的语言推理技术未能提升模型在该基准上的性能,但在问答过程中明确生成并使用认知地图能够显著改善模型在空间距离问题上的表现。
表达视觉-空间智能即使对人类而言也十分困难(且常常是零散的)。通过本研究,旨在鼓励学术界探索将前沿模型与视觉-空间智能相结合的方法,并为这一研究方向开辟道路、提供指引。
图1 无论是在家中、工作场所还是其他环境中,感知空间、记住其布局,并能够按需检索这些空间信息以回答问题,是视觉-空间智能的关键方面。近年来,多模态大语言模型(MLLMs)已能够理解一般视频,但面对环境视频记录时,它们能否“进行空间思考”?它们能否构建准确且隐式的“认知地图”,以回答关于空间的问题?使用 MLLMs 增强空间智能的优势和局限性是什么?
我们通过以下方法深入探讨这些问题:
构建一个视频问答(VQA)基准以评估其记忆与回忆能力;
视觉-空间智能
本文讨论了视觉-空间智能的基本概念和范围,以为后续分析提供背景和框架。
术语使用
本文使用“智能”(intelligence)而非“认知”(cognition),因为前者范围更广,而“空间认知”(spatial cognition)是认知心理学的一个分支。本研究中,在“空间智能”之前加上“视觉”这一前缀,因为空间智能本身可以独立于感官模式存在(例如,盲人可以通过其他感官感知空间)。鉴于本文的研究重点是视频输入,因此讨论的是视觉-空间智能。
研究范围
尽管经典的空间智能测试也包括诸如心理旋转测试(Mental Rotation Test)等纸笔任务,本文的研究重点是视觉-空间智能在现实环境中的应用,尤其是在家庭、办公室和工厂等常见场景中的表现。
图2 视觉-空间智能能力分类法。
分类法
我们基于认知心理学研究以及在第3节中对基准任务的经验,提出了可能构成视觉-空间智能的能力分类(如图2所示)。在
VSI-Bench
中,视觉感知、语言智能、时间处理和空间推理是四个核心领域。例如,一些研究表明,视觉对象处理和空间处理在神经层面上是不同的,这促使本文将“视觉感知”和“空间推理”区分为独立领域。
我们将空间推理划分为两种主要能力:关系推理和自我中心-他人中心(egocentric-allocentric)视角转换。
关系推理
关系推理是指通过距离和方向识别物体之间关系的能力。这还包括基于视觉-空间常识推断物体之间的距离。例如,了解一个标准饮料罐约12厘米高,人类可以通过视觉比例比较估算其他物体的大小。
自我中心-他人中心转换
自我中心-他人中心(egocentric-allocentric)转换涉及在自我为中心的视角(egocentric)和以环境为中心的视角(allocentric)之间切换。在本文的设定中,每一帧自我中心的视频画面都映射到他人中心的物体位置和相机轨迹。当人类观察空间时,会将自我中心的感知转化为他人中心的心理地图,从而能够从不同视角进行透视——这对于相对方向判断或路径规划等任务至关重要。
这种转换依赖于两种能力:
视觉-空间工作记忆
视觉-空间工作记忆是指存储和操控空间信息的能力,例如通过新的自我中心输入更新物体位置。
在
VSI-Bench
中的每一项任务都需要感知、语言和时间处理能力,以及不同程度的空间推理能力。例如,在路径规划任务中,自我中心-他人中心转换尤为重要,而在物体大小估算任务中则相对次要。这些因素为视觉-空间智能的复杂性提供了背景参考。
VSI-Bench的详细设计
VSI-Bench
用于从自我中心视频中定量评估多模态大语言模型(MLLMs)的视觉-空间智能。VSI-Bench 包含超过5000个问答对,这些问答对基于288个真实视频生成。视频来源于公开的室内三维场景重建数据集(如 ScanNet、ScanNet++和 ARKitScenes)的验证集,涵盖多样化的环境,包括住宅空间、专业场所(如办公室、实验室)和工业空间(如工厂),以及多个地理区域。通过重新利用这些现有的3D重建和理解数据集,我们能够获得精确的物体级标注,这些标注不仅用于问题生成,还为研究 MLLMs 与3D重建的联系提供了可能性。
VSI-Bench 具有较高质量,经过多次迭代审查以尽量减少问题歧义并删除源数据集中可能传播的错误标注。
图3 VSI-Bench 任务示例
注:为提高清晰度与简洁性,上述问题已稍作简化。
任务类型
VSI-Bench 包含三类共八种任务:配置类、测量估算类和时空类。
配置类任务
包括物体计数、相对距离、相对方向和路径规划,测试模型对空间配置的理解,这些任务对人类来说较为直观(第4节详细比较了 MLLM 和人类的性能)。
测量估算类任务
包括物体大小、房间大小和绝对距离的估算,对于任何具身智能体都具有重要意义。尽管精确预测测量值对于人类和模型都非常困难,但对距离和其他测量的更好感知直观上与更强的视觉-空间智能相关,并支撑了需要空间意识的广泛任务,例如与物体交互和导航。
时空类任务
如出现顺序测试,评估模型对视频中所见空间的记忆能力。
请参阅图3了解 VSI-Bench 任务概览,以及图5获取数据集统计信息。
图4 基准数据集整理流程
该流程首先将多样化数据集统一为标准化格式和语义空间,以实现一致的处理。问答对通过人工标注和问题模板生成。在关键阶段实施人工验证,以过滤低质量视频、标注及模糊的问答对,从而确保数据集质量。
图5 基准统计信息
顶部:三大任务类别中各任务的分布情况。
底部:视频长度的统计分布。
实验结果分析
图6 性能比较
对比了启用视觉(Vision Enabled,具有视频输入)、禁用视觉(Vision Disabled,无视频输入)和随机水平(Chance Level,基于频率)的性能。
Enabled−Disabled
表示启用视觉与禁用视觉之间的性能差距。
Disabled−Chance
表示禁用视觉与随机水平之间的性能差距。
任务按
Enabled−Disabled
差距排序,以便更清晰地理解结果。
图7 MLLM 自解释示例
示例展示了 MLLM 的思考过程。从中可以看出,尽管 MLLM 在视频理解和语言推理能力方面表现出色,其空间推理能力仍处于发展阶段。
图8 按错误类型的人为分析
超过70%的错误源于空间推理能力的不足。
图9 CoT、Self-Consistency 与 Tree-of-Thought的相对改进
与基线相比,这三种常用的提示技术在本文的基准测试中平均未能取得提升,有些情况下甚至导致任务性能显著下降。这表明,仅依靠提升语言能力无法解决
VSI-Bench
中的任务。
图10 MLLM 与 GT 的认知地图可视化对比
图11 MLLM 预测认知地图的局部性
随着物体距离的增加,MLLM 的地图距离精度显著下降。