一句话总结:我们提议建造多视图场景图(MSG)从未定位的图像,拓扑地表示具有互连的地点和对象节点的场景。
0. 论文信息
标题:Multiview Scene Graph
作者:Juexiao Zhang, Gao Zhu, Sihang Li, Xinhao Liu, Haorui Song, Xinran Tang, Chen Feng,
机构:New York University
原文链接:https://arxiv.org/abs/2410.11187
代码链接:https://github.com/ai4ce/MSG
数据集链接:https://huggingface.co/datasets/ai4ce/MSG
官方主页:https://github.com/ai4ce/MSG
1. 导读
适当的场景表示是追求空间智能的核心,在空间智能中,代理可以鲁棒地重建和有效地理解3D场景。场景表示或者是度量的,例如3D重建中的界标图、对象检测中的3D边界框或者占用预测中的体素网格,或者是拓扑的,例如SLAM中的具有循环闭合的姿态图或者SfM中的可见性图。在这项工作中,我们建议从未发布的图像构建多视图场景图(MSG ),用互连的地点和对象节点在拓扑上表示场景。构建MSG的任务对于现有的表征学习方法来说是具有挑战性的,因为它需要共同解决视觉位置识别、对象检测和来自具有有限视野和潜在大视点变化的图像的对象关联。为了评估解决这一任务的任何方法,我们开发了MSG数据集和基于公共3D数据集的注释。我们还提出了一个基于MSG边的交并分数的评价指标。此外,我们开发了一种基于主流预训练视觉模型的新基线方法,将视觉位置识别和对象关联结合到一个变压器解码器架构中。实验表明,与现有的相关基线相比,我们的方法具有更好的性能。
2. 引言
理解3D空间以及2D观测之间的空间关系,在移动智能体与物理现实世界进行交互时起着核心作用。人类很大程度上是通过视觉智能来获得这种空间智能的。当人类置身于一个未见过的环境中,并试图从视觉观测中理解空间结构时,我们并不是通过精确的米和度来感知和记忆场景的。相反,我们基于视觉观测和常识来构建拓扑认知图。给定图像观测,我们能够通过寻找重叠的视觉线索和从不同视角识别相同或不同的物体,将同一地点拍摄的图像关联起来。这种从视觉感知中建立对应关系的能力,构成了我们空间记忆和认知表征世界的基础。我们能否为AI模型配备类似的空间智能呢?
受这一问题的启发,我们提出了构建多视图场景图(MSG)的任务,以明确评估表征学习模型理解空间对应关系的能力。具体来说,给定一组从同一场景拍摄的未定位RGB图像,此任务要求构建一个由图像和对象节点组成的地点+对象图,其中在附近位置拍摄的图像是相互连接的,并且不同视角中出现的相同对象应关联为一个对象节点。
我们将提出的多视图场景图定位为一种通用的拓扑场景表征。它连接了机器人技术文献中的地点识别和计算机视觉文献中的对象跟踪和语义对应任务。与之前在拓扑绘图方面的工作不同,这些工作通过导航等下游任务来评估方法的性能,我们提议直接评估多视图场景图的质量,这明确展示了模型通过对象和地点在多个视图中的正确视觉对应来理解空间的能力。此外,MSG不需要任何度量图、深度或姿态信息,使其能够适应日常图像和视频的大量数据。这也使MSG区别于之前在2D和3D场景图方面的工作,这些工作强调对象的语义关系或需要不同级别的3D和度量信息。
推荐课程:
零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战]
。
为了促进MSG的研究,我们从公开可用的3D场景级数据集ARKitScenes中整理了一个数据集,并基于图邻接矩阵的交并比设计了一组评估指标。同时,由于此任务主要涉及解决地点识别和对象关联,我们分别在地点识别和对象跟踪中,以及一些主流预训练视觉基础模型中,对流行的基线方法进行了基准测试。我们还设计了一种新的基于Transformer的架构作为我们的方法,即注意力关联MSG(Attention Association MSG),简称AoMSG,它在单个Transformer解码器中联合学习地点和对象的嵌入,并根据学习到的嵌入空间中的距离构建MSG。我们的实验表明,与基线相比,我们的新模型具有显著的优势,但仍然揭示了未来在空间智能研究方面取得进展的强烈需求。
3. 效果展示
多视图场景图。MSG的任务是将未定位的RGB图像作为输入,输出一个地点+对象图。该图包含地点-地点边和地点-对象边。连接的地点节点表示在同一地点拍摄的图像。从不同视图识别的相同对象被关联并合并为一个节点,并连接到相应的地点节点。
4. 主要贡献
我们的贡献有两方面:
我们提出了多视图场景图(MSG)生成作为评估空间智能的新任务。我们从公开可用的3D场景数据集中整理了一个数据集,并设计了评估指标来促进该任务的研究。
我们为MSG任务设计了一种新颖的Transformer解码器架构。它联合学习地点和对象的嵌入,并根据嵌入距离确定图。实验表明,该模型在现有基线之上具有有效性。
5. 我们的基线:注意力关联MSG生成
在开发用于MSG生成任务的新模型时,我们遵循两个核心原则:
首先,模型应充分利用预训练视觉模型的优势。这些预训练模型为后续视觉任务提供了稳健的初始化,因为它们的输出特征封装了丰富的语义信息,为我们这样的任务奠定了坚实的基础。其次,地点识别和对象关联从根本上解决了视觉对应问题,并且可以通过上下文信息相互加强。因此,我们的模型旨在将这两项任务整合到一个统一的框架中。在这些指导原则下,我们提出了注意力关联MSG(AoMSG)模型,如图2所示。
地点和对象编码
给定一批未定位的RGB图像作为输入,AoMSG模型首先使用预训练的视觉编码器和检测器从每张图像中导出图像令牌和对象检测边界框。我们使用基于Vision Transformer的预训练模型DINOv2作为我们的编码器,尽管我们的设计适用于任何基于Transformer或CNN的编码器,这些编码器能够产生令牌序列或特征图。在DINOv2编码器的情况下,我们将输出的令牌序列重塑为特征图,然后将其与对象边界框对齐,为每个检测到的对象聚合一个编码特征。为了将地点识别和对象关联整合到一个统一的框架中,我们通过将其视为一个具有涵盖整个图像的边界框的大型对象来获得地点编码特征,就像检测到的对象一样聚合特征。获得的地点特征然后与对象特征并排放置,作为Transformer解码器的查询,如后续部分所述。
AoMSG解码器 我们遵循DETR类似的结构来设计我们的AoMSG解码器。具体来说,导出的地点特征和对象特征被堆叠为Transformer解码器的一组查询,而前面的图像令牌被用作键和值。如图2所示,我们通过归一化和嵌入边界框坐标来增强查询。例如,对于地点特征,等效边界框是前面提到的整个图像,从而得到归一化坐标[0, 0, 1, 1]。这些坐标被投影以匹配编码的维度,并逐元素添加到地点查询中。AoMSG Transformer解码器的输出是已经聚合了来自图像令牌的上下文信息的地点和对象嵌入。然后,对每个对象和地点嵌入分别应用两个线性投影头,以获得最终的对象和地点嵌入,将它们投影到任务的表征空间中。
损失和预测 在训练期间,我们分别以多任务的方式对来自同一训练批次的地点和对象嵌入计算监督对比学习。对于对象损失,我们简单地使用具有更高正权重的二元交叉熵。对于地点损失,最小化其余弦距离的平均平方误差,这给出了更好的实证结果。在推理期间,我们简单地计算地点嵌入之间的余弦相似性,并应用阈值来获得地点-地点预测。对于对象,我们跟踪它们的外观,并为每个场景维护一个现有对象的存储库,基于余弦相似性和阈值更新它们的嵌入或注册新对象。结果随后被转换为地点-对象部分。值得注意的是,计算对比损失和确定预测的方法可能有很多选择,我们保持选择简单,因为我们实证发现标准损失和简单的余弦阈值已经能够产生不错的结果,同时保持嵌入空间直观上有意义。
6. 实验结果
主要结果 表1展示了我们的结果与基线方法的比较。我们发现,在位置召回率@1(Recall@1)和点对点交并比(PP IoU)方面,基线方法具有相当的性能。虽然SepMSG基线方法的结果与之相当,但AoMSG在所有基线方法中表现最优,在这两项指标上都取得了最佳结果。我们还注意到,所有模型的召回率@1都很高,但它们的点对点交并比得分各不相同且均低于50。这表明,仅有高召回率并不足以保证构建出优质的图。在点对对象交并比(PO IoU)方面,AoMSG模型大幅优于所有基线方法。Unitrack和DEVA表现不佳,因为它们在处理对象在大视角变化或长时间后重新出现的情况时遇到困难。我们注意到,当使用GroundingDINO作为检测器而非真实值检测时,所有MSG方法的结果都相对较差。这表明,不准确的对象检测造成了性能差距。尽管如此,它们的性能仍然保持一致,且AoMSG的表现仍然最佳。这表明,更好的检测器可能会为MSG任务带来更好的结果。总之,AoMSG在所有指标上都表现出最佳性能。
投影器维度 如表2所列,我们比较了不同投影器维度的影响,因为据文献报道,在自监督表示学习领域,投影器维度对性能有重要影响。我们发现,在我们的实验中,不同投影器维度的实验结果相当。
主干网络的选择 图3展示了不同预训练主干网络选择的性能。我们实验了最先进的基于卷积神经网络(CNN)的模型ConvNext、视觉转换器(Vision Transformer,ViT)和DINOv2。我们发现DINOv2表现最佳。我们使用DINOv2作为默认编码器。有趣的是,随着DINOv2的大小增加,性能趋于饱和。我们怀疑,如果能进一步扩大数据量,性能仍会有所提升。
定性分析 在图5中,我们可视化了AoMSG、SepMSG-Linear基线方法和SepMSG-Direct(直接使用预训练的DINOv2编码器的输出特征完成任务)在6个场景中学到的对象嵌入。可视化的目的是从定性角度评估学到的对象嵌入,即嵌入空间中不同对象的分离程度。我们可以看到,预训练嵌入已经提供了一些不错的分离。SepMSG-Linear仅在顶部调整了一个线性探测分类器,因此分离效果略有提升。例如,参见左侧的第一和第二场景。与之相比,AoMSG提供了最显著的分离,相同对象的外观被紧密地聚集在一起,而不同对象则被拉远。此外,图4可视化了某些地点和对象的结果。
7. 限制性 & 总结
当前工作仍存在许多局限性。首先,我们仅在一个数据集上进行了实验。尽管该数据集包含约5000个场景,足以获得令人信服的结果,但如果在更多样化的数据集上进行训练,能否产生更好的模型和更强的泛化能力,尤其是对于更大的模型,仍然值得探讨。我们将此留给未来的工作。其次,当前数据集中的场景仅包含静态对象,扩展到动态对象是一个值得探索的方向。
此外,鉴于本工作的范围是提出MSG作为促进空间智能的新视觉任务,我们专注于明确评估图的质量。因此,我们没有研究对象检测的质量,也没有将MSG部署到如导航等下游任务中。请注意,尽管检测质量确实会影响MSG的性能,但我们发现它在不同的检测模式(即真实值和GroundingDINO)下表现一致。将检测器与MSG模型一起训练,并将MSG应用于下游任务,将是我们下一步的工作,以使该系统更加完善。
本文提出将多视图场景图(MSG)构建为评估空间智能的新视觉任务。该任务以未设定的RGB图像为输入,要求模型构建一个连接在同一地点拍摄的图像,并将从不同视角识别的对象相关联的地点+对象图,从而形成一个拓扑场景表示。为了评估MSG生成任务,我们设计了评估指标,整理了一个数据集,并提出了一种新模型,该模型联合学习地点和对象的嵌入,并根据嵌入距离构建图。该模型优于现有的分别处理地点识别和对象关联的基线方法。最后,我们讨论了MSG的可能应用及其当前局限性。我们希望这项工作能够激发未来在空间智能和场景表示方面的研究进展。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉知识星球