专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
目录
相关文章推荐
51好读  ›  专栏  ›  arXiv每日学术速递

大步迈向VLA!港中文GPT4Scene:从视频中理解3D场景~

arXiv每日学术速递  · 公众号  ·  · 2025-01-16 12:15

正文

写在前面&笔者的个人理解

具身人工智能是指能够通过与物理环境交互来执行各种任务的智能系统。它在工业检测、智能家居和智能城市中有着广泛的应用和发展前景。3D 场景理解涉及多模态语言模型理解室内环境整体布局和物体之间空间关系的能力。因此,具身智能的坚实基础在于能否有效地理解场景内容。

目前,基于3D点云大语言模型是一种流行的理解室内场景的方法,使用点云数据作为输入,并将点云数据特征与LLM对齐以执行场景理解任务。然而,这种方法有以下几个方面的局限性。

  • 点云提供的详细信息有限,例如精细的几何细节、材料特性和复杂的纹理
  • 尽管一些点云大语言模型尝试使用点云和多幅图像作为输入,但它们在对齐文本、图像和点云模态方面面临挑战
  • 点云数据与文本/视频数据的数据量明显不平衡,这也带来了进一步的复杂性

这些限制促使我们探索使用纯视觉输入的室内场景理解。这种方法更符合人类的感知模式,因为人们可以在不依赖点云等显式 3D 数据信息的情况下理解 3D 场景。视觉语言模型 (VLM) 在图像文本多模态任务中表现出色。然而,它们在理解沉浸式 3D 室内场景中的应用尚未得到很好的探索和开发。我们进行了一项初步研究,通过将场景视频直接输入到VLM模型中来调查这种潜力。我们的实验结果表明,这种方法导致VLM无法理解 3D 场景。我们认为其核心问题在于缺乏全局场景信息,以及每帧的局部位置与整体背景的不一致。

针对上述提到的相关问题,我们提出了一个名为GPT4Scene 的框架来帮助 VLM 建立空间关系,其整体结构如下图所示。

此外,我们也构建了一个由 165K 文本标注组成的处理后的视频数据集来微调开源的VLM模型,相关的实验结果表明,在所有 3D 理解任务上均实现了SOTA的性能。在使用 GPT4Scene 范式进行训练后,即使没有视觉prompt和 BEV 图像作为显式对应,VLM在推理过程中也可以不断改进。相关结果表明所提出的范式有助于 VLM 开发理解 3D 场景的内在能力。

论文链接:https://arxiv.org/abs/2501.01428

网络模型结构&细节梳理

在详细介绍本文提出的算法模型网络结构细节之前,下图展示了GPT4Scene算法模型的整体网络结构图,如下图所示。

GPT4Scene Framework

首先,我们假设捕获的视频是在室内场景中移动时拍摄的。整个视频由 帧图像组成。使用 VLM 处理图像序列面临着图像容量有限、上下文消耗快和推理成本高等挑战。因此,我们均匀采样 帧图像。其中, 代表采样的帧。我们把这种采样后的视频记作如下的表示形式:

这种预选择大大减少了 VLM 在训练和推理过程中的时间和成本,同时又不会丢失重要的室内场景信息。

以自身为中心的视频仅仅捕获了局部信息,缺少更广泛的场景背景。为了解决这个问题,我们将整个场景重建为点云形式,并将全景图像渲染为鸟瞰图,为 VLM 提供完整的场景概览。具体来说,从室内场景视频和相应的相机外参开始,我们使用3D重建技术来生成3D网格和点云数据,其过程可以用下式的公式进行表示:

在公式中, 表示重建过程,我们假设相机内参是已知的。然后,我们从全局点云生成场景的 BEV 图像,其过程可以用下式进行表示:

其中, 代表自上而下视角相机的外参, 代表基于相机外参相应视角的渲染过程,从而生成BEV场景的图片。值得注意的是,我们继续以图像的形式向 VLM 提供全局 3D 信息。

为了帮助 VLM 聚焦于特定目标,我们引入了 Spatial-Temporal Object Markers,确保 2D 帧和 3D BEV 图像之间的一致性。为了获取从输入视频 重建3D点云,我们应用Mask3D等3D实例分割方法来生成实例Mask。

对于 BEV 图像,我们首先将 3D Mask投影到xy平面上,然后提取投影形成的边界框的中心坐标,然后将其显示在BEV 图像上。对于以自身为中心的 2D markers,我们首先将 投影到视频帧上,然后使用 2D Mask形成的边界框的中心作为 2D标记。带有标记的 2D 帧和 BEV 图像可以用如下的公式进行表示:

Unlocking VLMs with Zero-shot Prompts

我们在零样本设置中评估 VLM,最初重点关注强大的闭源 VLM(例如 GPT-4o),以评估 GPT4Scene 框架是否能够有效地实现 3D 场景理解。这个过程被称为“unlock”,它使 VLM 能够通过提示理解 3D 场景,而无需额外的训练。具体而言,我们输入 。为了减少开销,我们将 中的图像拼接起来形成一张大的图像。我们评估了三项任务:3D 问答、密集字幕和视觉grounding。

在 3D 问答中,目标是回答与场景相关的问题,例如“地板的颜色是什么?”在密集字幕中,任务是描述特定目标,例如“描述 C5 所代表的目标。”在视觉grounding中,目标是从描述中识别目标ID,例如“窗户旁边的黑色椅子的 ID 是什么?”虽然问答与目标标签无关,但密集字幕和视觉grounding需要目标标记。这些任务涉及检测目标并根据其边界框的 IoU 进行过滤。与 Chat-Scene和 Robin3D一致,我们使用 Mask3D 分割结果作为预测边界框来计算 IoU。

除了传统任务外,我们还在这种零样本设置中进行了进一步的实验。相关的实验结果如下图所示。

通过输入 ,VLM 可以理解室内场景的全局特征。此时,GPT-4o 仍然可以接受额外的第一人称视角帧,使其能够理解场景中的当前位置以规划下一步动作。此外,使用 GPT-4o 作为agent,VLM 可以根据给定的问题确定任务类型并选择合适的prompt。因此,GPT4Scene 框架作为下一代具身智能的核心技术展现出巨大的潜力。

Enhancing VLMs with ScanAlign Fine-Tuning

零样本prompt可以解锁强大的 VLM 的 3D 理解能力,但如下图所示,这种方法并不能改善较小的VLM的能力。因此,我们的目标是通过微调来增强开源、较小的 VLM。我们首先基于 ScanNet 构建一个室内场景数据集 ScanAlign,其中包含以自我为中心、BEV 图像和文本标注。

该数据集包括三个 3D 视觉相关任务,视觉输入包括带有 STO 标记的选定视频帧和 BEV 图像, 表示从五个ScanNet标注中得出的文本标注,相关信息如下表所示。

我们使用提示随机改变标注格式以增加标注多样性。该数据集总共包含约 165K 条标注。由于我们的方法不需要额外的模态对齐步骤,我们可以直接在 ScanAlign 数据集上执行单阶段指令微调,以增强模型的 3D 空间理解能力。在训练阶段,训练损失是语言模型的交叉熵损失。我们的目标是通过最小化目标答案的负似然对数来优化可学习参数。我们统一了系统消息和用户的问题。因此,损失函数可以表示成如下的公式形式:

使用 ScanAlign 进行微调后,在推理过程中,我们可以输入 ,其中







请到「今天看啥」查看全文