0. 论文信息
标题:RoMo: Robust Motion Segmentation Improves Structure from Motion
作者:Lily Goli, Sara Sabour, Mark Matthews, Marcus Brubaker, Dmitry Lagun, Alec Jacobson, David J. Fleet, Saurabh Saxena, Andrea Tagliasacchi
机构:Google DeepMind、University of Toronto、Adobe Research、Simon Fraser University
原文链接:https://arxiv.org/pdf/2411.18650
代码链接:https://romosfm.github.io/
1. 导读
在从单目随意捕获的视频重建和生成4D场景方面已经有了广泛的进展。虽然这些任务在很大程度上依赖于已知的相机姿态,但是使用运动构造(SfM)来找到这样的姿态的问题通常取决于从视频的动态部分中鲁棒地分离静态部分。缺乏解决这个问题的可靠方案限制了SfM摄像机校准流水线的性能。我们提出了一种新的基于视频的运动分割方法来识别场景中相对于固定世界帧运动的部分。我们的简单而有效的迭代方法RoMo将光流和核线线索与预训练的视频分割模型相结合。它优于运动分割的无监督基线以及从合成数据训练的有监督基线。更重要的是,现成的SfM管道与我们的分段掩模相结合,为具有动态内容的场景建立了一种新的最先进的摄像机校准方法,大大优于现有方法。
2. 引言
视频中运动物体的分割,即从相机运动引起的运动中分离出物体运动,是众多下游任务和应用(包括增强现实、自主导航、动作识别和4D场景重建)的自然前序步骤。在本文中,我们特别关注运动分割作为提升结构从运动(Structure-from-Motion, SfM)方法(例如COLMAP)鲁棒性的手段。运动物体是有问题的,因为它们违反了SfM的刚性假设,极大地限制了SfM可以成功应用的视频范围。尽管运动分割具有潜在的应用价值,但与图像和视频分割相比,运动分割任务的研究相对不足。存在监督方法,但鉴于现实世界中标注数据的稀缺性,大多数此类技术严重依赖合成训练数据。还有无监督运动分割方法,但这些方法没有利用3D几何约束,并且性能往往不如监督方法。用于动态场景的鲁棒SfM流程利用3D几何线索来识别动态物体上有问题的对应关系,但为运动物体提供的是稀疏掩码,而不是对整个物体进行密集分割。
本文介绍了一种简单但非常有效的运动分割迭代方法。它结合了光流和3D几何线索,以及现成的分割基础模型的丰富特征空间,以促进连贯运动物体掩码的推断。特别是,在给定相机姿态估计的情况下,可以使用极线约束来预测哪些光流对应关系与估计的相机姿态不一致。这些稀疏的异常值随后作为在预训练于图像和视频分割任务的基础模型特征空间中进行聚类的一种形式,来锚定运动物体分割掩码的推断。通过重复这些步骤,我们迭代地优化相机姿态估计、对应关系异常值的检测以及运动分割掩码。
所得方法,称为RoMo,在运动分割基准(DAVIS16、SegTrackv2和FBMS59)上优于合成监督和无监督方法。我们展示了该方法在动态场景基准上估计相机姿态时也明显优于当前最优的鲁棒SfM方法(例如MPI Sintel)。为了评估SfM估计在合成基准以外的性能,我们收集了一个具有真实相机运动地面真值的真实场景数据集。在这个新数据集上,我们的新SfM流程利用RoMo来识别和丢弃运动物体,从而大幅优于之前的当前最优方法。
3. 效果展示
我们介绍了一种基于核几何(右上)和光流线索的视频零镜头运动分割方法。我们预测的遮罩(左下)可以帮助改进高动态场景(右下)的SfM相机校准。
4. 方法
给定图像序列{It}Tt=1,我们的目标是估计相应的像素二值运动掩码{Mt},其中u是2D像素坐标,D是动态物体像素的集合。我们提出了一种迭代方法,包括两个关键步骤:(1)通过考虑相邻图像之间的光流,并使用极线几何来识别场景中仅能通过相机姿态变化来解释其运动的像素,从而识别可能的静态像素;(2)使用这些噪声标签以及预训练视频分割模型的特征来学习分类器,该分类器能够生成质量更高且时间稳定的分割掩码。迭代这些步骤可以优化估计的极线几何,进而优化预测的掩码,从而实现进一步的性能提升。最后,为了获得更高分辨率的分割掩码,我们再次利用预训练的视频分割模型。
核线匹配–Ut和Lt分别捕捉场景中最可能的动态和静态部分。
基于特征的分类器-基础模型的特征空间表现出很强的客观性先验,如特征的前三个PCA分量所示。我们利用这些特征在来自核监督的稀疏和有噪声的标签上训练我们的分类器,生成连贯的运动掩模。
迭代优化-重复的基本矩阵估计和运动预测改善了估计的相机姿态和遮罩,通常在2次迭代后收敛。
最终优化-通过SAMv2,我们改进了遮罩中的精细细节。特别是,注意手指周围的细节和裙子的褶边。
6. 实验结果
定性结果展示了我们的方法在多个方面的表现:(第1行)展示了一个具有挑战性的示例,其中我们正确分割了背景中缓慢移动的行人,而这是以往工作通常会忽略的;(第2行)基线方法要么完全遗漏,要么对动态对象暂时静止的帧进行了过度分割;(第3行)我们的方法对运动模糊具有鲁棒性;(第4行)大多数以往的工作未能分割出完整的伪装对象,而是包含了一些背景;(第5行)动物的一部分被树干遮挡。因此,该动物包含多个部分。虽然以往的工作遗漏了动物的一个或多个部分,但我们能够正确分割出它。(第6行)OCLR-adap将深度与汽车相似的静态标志进行了掩蔽。
我们使用与ParticleSFM相同的协议,在MPI Sintel数据集上进行了评估,去除了无效序列(例如静态相机),最终得到14个序列。在相对于最先进方法的RPE-R方面,我们的相机轨迹预测显示出显著的改进。此外,相机轨迹的定性可视化也证明了我们的性能更优。
推荐课程:
聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等
。
我们将我们的掩膜与MPI Sintel数据集上的其他SoTA(当前最优)动态SfM基线进行了比较,这些基线在其方法中使用了运动掩蔽。结果表明,我们的方法在这些场景上具有优越的运动分割性能。
我们在自己的数据集上评估了我们的运动分割方法与COLMAP的结合,并与LEAP-VO、MonST3R和COLMAP进行了比较。图9的结果显示,我们的方法在定性和定量方面均优于所有基线。值得注意的是,COLMAP在8个场景中有1个完全失败,ParticleSFM在8个场景中有3个失败。我们为这两种方法在各自没有失败的子集上计算了平均结果(详见补充材料中的每个场景的详细评估)。我们通过实验观察到,与SIFT特征相比,使用密集轨迹并未在此数据集上带来显著改善,因为场景的静态部分具有足够的纹理和几何特征。这与在合成数据集(如MPI Sintel)上通常需要使用轨迹的必要性相反,进一步强调了仅在合成场景上评估SfM方法可能不足够。请注意,真实相机轨迹的尺度是任意的,因此ATE和RPE-T也是基于COLMAP对Clean Casual Motion数据集的解决方案的任意尺度。
7. 总结
我们提出了RoMo,这是一种新颖的运动分割方法,旨在改进野外视频的结构从运动(SfM)效果。我们提出了一种新颖的迭代方法,该方法结合了极线约束和语义分割先验,以在具有挑战性的场景中预测准确的运动掩膜。结果表明,RoMo在标准基准测试上显著优于现有的无监督运动分割技术。我们还评估了我们的运动掩膜在改进动态SfM方面的能力,并证明了在相机姿态估计方面的显著改善。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球