论文标题:GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models
论文链接:https://arxiv.org/pdf/2501.01428
项目链接:https://gpt4scene.github.io/
作者单位:香港大学 上海人工智能实验室
写在前面&引言
近年来,二维视觉-语言模型(2D Vision-Language Models, VLMs)在图像-文本理解任务中取得了显著进展。然而,在具身智能至关重要的3D空间理解任务上,这些模型的表现仍然有限。最近的一些研究利用3D点云和多视图图像作为输入,取得了有希望的结果。然而,我们提出了一种受人类感知启发的纯视觉解决方案,仅依赖视觉线索进行3D空间理解。
我们通过实证研究揭示了VLMs在3D空间知识上的局限性,发现其主要问题在于场景与单帧之间缺乏
全局-局部对应关系
。为了解决这一问题,我们提出了一种新颖的视觉提示范式(visual prompting paradigm),称为
GPT4Scene
,用于VLM的训练和推理过程,以构建全局与局部关系,显著提升室内场景的3D空间理解能力。具体来说,GPT4Scene从视频中生成一个3D俯视图(Bird's Eye View, BEV)图像,并在帧与BEV图像之间标记(marks)一致的物体ID。模型随后将拼接后的BEV图像和带有标记的视频帧作为输入。
在零样本评估中,GPT4Scene在如GPT-4o等闭源VLM上的性能得到提升。此外,我们还准备了一个包含16.5万条文本标注的处理后的视频数据集,用于微调开源VLM,在所有3D理解任务中实现了当前最先进的性能(state-of-the-art)。令人惊讶的是,在采用GPT4Scene范式进行训练后,即使在推理阶段没有显式使用视觉提示或BEV图像作为对应关系,VLMs的性能仍然持续提升。这表明所提出的范式帮助VLMs开发了一种内在能力来理解3D场景,为扩展预训练VLMs进行3D场景理解提供了一种非侵入式的方法。
内容出自国内首个具身智能全栈学习社区:
具身智能之心知识星球
,这里包含所有你想要的。
主要贡献:
提出了
GPT4Scene
框架,用于增强视觉-语言模型(VLMs)从纯视觉输入中直接理解3D场景的能力。
引入了两项技术:(1) 包含全局上下文信息的3D俯视图(BEV)图像;(2) 用于在BEV图像与视频帧之间保持空间和时间一致性的
时空物体标记(STO markers)
。
构建了
ScanAlign
数据集,包括视频帧、带有STO标记的BEV图像以及文本标注。对VLMs在该数据集上进行微调,显著提升了其3D场景理解能力。
GPT4Scene
在零样本和微调设置中表现出强大的性能,在各种3D场景理解任务中达到了当前最先进的结果(SOTA)。
方法设计:
具身智能(Embodied AI)是指能够通过与物理环境交互执行各种任务的智能系统。它在工业检测、智能家居和智慧城市等领域具有广泛的应用。3D场景理解涉及多模态语言模型理解室内环境整体布局及物体之间空间关系的能力。因此,有效理解场景是构建具身智能的坚实基础。
目前,3D点云LLMs是一种理解室内场景的流行方法,使用点云作为输入,并将点云特征与LLMs对齐以执行场景理解任务。然而,这种方法存在若干局限性。首先,点云在提供详细信息方面有限,例如精细的几何细节、材料属性以及复杂纹理。其次,尽管一些点云LLMs尝试同时使用点云和多图像作为输入,但它们在对齐文本、图像和点云模态时面临挑战。此外,点云数据与文本/视频数据在数量上的显著不平衡进一步加剧了这一问题。
这些局限性促使我们探索使用纯视觉输入进行室内场景理解。这种方法更贴近人类的感知方式,因为人类能够在无需依赖显式3D数据(如点云)的情况下理解3D场景。视觉-语言模型(Vision Language Models, VLMs)在图像-文本多模态任务中已展现出卓越的表现,但其在沉浸式3D室内场景理解中的应用尚未得到充分研究。为此,我们进行了一项初步研究,直接将场景视频输入VLMs,以探讨其潜力。结果表明,这种方法导致VLMs无法有效理解3D场景。问题的核心在于缺乏全局场景信息,以及每一帧局部位置与整体上下文之间的对齐不良。
为了解决这一问题,我们提出了一个名为
GPT4Scene
的框架,以帮助VLMs建立空间关系,如图1所示。首先,我们基于输入视频进行3D重建,生成一个俯视图(Bird’s Eye View, BEV)图像,作为额外输入,从而提供场景布局的全局视角。同时,我们在3D BEV图像和2D帧中引入了
时空物体标记(Spatial-Temporal Object markers, STO markers)
。这些STO标记表示在连续帧中一致的物体ID(时间层面),并与3D BEV图像中的物体ID(空间层面)对齐,从而帮助VLMs建立整体场景布局与视频帧之间的全局-局部关系。
在零样本设定下,首先将
GPT4Scene
应用于强大的闭源VLMs(如GPT-4o),使用包含STO标记的视频帧和BEV图像作为输入。其性能与现有基于3D点云的LLMs相当,验证了GPT4Scene在增强VLMs的3D场景理解能力方面的有效性。对于较小的开源VLMs,我们构建了一个名为
ScanAlign
的数据集,其中包含带有STO标记的视频帧、BEV图像和文本标注。在该数据集上微调后,我们的方法优于现有方法。此外,经过微调后,VLMs在仅以原始场景视频作为输入的情况下也表现出色,而在训练之前需要额外处理才能取得良好结果。这表明,GPT4Scene帮助VLMs发展了一种内在能力,可以建模3D场景关系。
图1. GPT4Scene的整体架构。
GPT4Scene能够理解3D场景,并仅通过视频输入执行诸如3D问答、密集描述和视觉定位等任务。与基于3D点云的LLMs相比,GPT4Scene仅依赖视觉模态作为输入,通过从视频提取的3D结构重建的BEV图像提供全局信息。
图2. 初步研究。
在开源VLM(Qwen2-VL)和闭源VLM(GPT-4o)上进行了零样本3D问答测试。对于GPT-4o,添加BEV图像及相应的物体标记(与视频帧一起输入)显著提升了性能,但对于Qwen2-VL则未见显著改进。这表明提供全局特征以及全局与局部信息的连接是有益的,但较小的VLM可能需要通过微调来增强其3D理解能力。
‘VID’
表示室内视频帧,
‘BEV’
表示室内俯视图(BEV Map),
‘Mrks’
表示视频帧和BEV图上的物体ID标记。
图3. GPT4Scene的框架。
场景视频经过采样帧处理、点云重建以及BEV图像生成。物体位置从点云中检测并投影到视频帧上。最终生成的帧和带有STO标记的BEV图像作为输入,用于VLM的训练和推理。
实验验证:
图4. 定性结果。
展示了GPT-4o在零样本GPT4Scene提示下的表现,能够通过视频帧和BEV图像理解3D场景。同时,它还可以接受其他图像输入并执行多种具身任务。
表1. ScanAlign的文本标注。
我们通过对与ScanNet相关的文本标注进行多样化处理,生成了
165K条文本标注
,用于构建ScanAlign数据集。
表2. 在ScanQA 和SQA3D 数据集上的3D问答评估。
在零样本设定下,
GPT-4o(GPT4Scene)
的表现优于大多数3D LLM模型。经过GPT4Scene微调的
Qwen2-VL
实现了当前最先进的性能(state-of-the-art)。
基础设定(Base)
使用
帧,分辨率为
;
“HD”
将分辨率提高到
;
“HDM”
结合了该分辨率和
帧的输入。
表3. 在Scan2Cap 数据集上的3D密集描述评估。
我们的结果优于现有基于3D LLM的模型。