专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

谷歌革新SfM！MegaSaM：精确、快速、鲁棒的位姿估计和稠密结构！

计算机视觉工坊 · 公众号 · · 2024-12-09 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

作者：Zhengqi Li, Richard Tucker, Forrester Cole, Qianqian Wang, Linyi Jin, Vickie Ye, Angjoo Kanazawa, Aleksander Holynski, Noah Snavely

机构1Google DeepMind、UC Berkeley、University of Michigan

原文链接：https://arxiv.org/abs/2412.04463

代码链接：https://mega-sam.github.io/

1. 导读

我们提出了一个系统，允许从动态场景的偶然单目视频中准确、快速和鲁棒地估计相机参数和深度图。大多数来自运动的传统结构和单目SLAM技术假设输入视频主要以具有大量视差的静态场景为特征。如果没有这些条件，这些方法往往会产生错误的估计。最近基于神经网络的方法试图克服这些挑战；然而，当在具有不受控制的摄像机运动或未知视野的动态视频上运行时，这种方法要么计算量大，要么不可靠。我们展示了深度视觉SLAM框架令人惊讶的有效性:通过仔细修改其训练和推理方案，该系统可以扩展到具有无约束相机路径的复杂动态场景的真实世界视频，包括几乎没有相机视差的视频。在合成和真实视频上的大量实验表明，与先前和并发工作相比，我们的系统在摄像机姿态和深度估计上明显更准确和更鲁棒，并且具有更快或可比的运行时间。

2. 引言

从一组图像中提取相机参数和场景几何信息是计算机视觉中的一个基本问题，通常被称为从运动恢复结构（Structure from Motion, SfM）或同步定位与地图构建（Simultaneous Localization and Mapping, SLAM）。尽管数十年的研究已经为具有大基线距离的静止场景开发出了成熟的算法，但这些方法在处理在非控制环境下拍摄的随意单目视频时往往效果不佳。这类视频通常由手持相机拍摄，通常表现出有限的相机运动视差（例如，几乎静止或旋转的相机）和广泛的焦距范围，并且经常包含移动物体和场景动态。为解决这些挑战，近期的研究主要聚焦于两种策略：通过微调单目深度网络或重建辐射场来优化相机和场景几何；或将从单目视频中得出的中间估计（如深度、光流、长期轨迹和运动分割）整合到全局优化框架中。然而，当应用于具有长时间跨度、无约束相机路径或复杂场景动态的无约束视频时，这些方法要么计算成本高昂，要么不够稳健。

在本文中，我们提出了MegaSaM，一个用于从野外动态场景的单目视频中准确、快速且稳健地进行相机跟踪和深度估计的完整流程。我们的方法结合了多项先前工作的优点，取得了前所未有的高质量结果，如图1所示。特别是，我们重新审视并扩展了用于相机跟踪的先前深度视觉SLAM框架。像DROID-SLAM[60]这样的深度视觉SLAM系统的一个显著特点是，它们采用了可微分的捆集调整（Bundle Adjustment, BA）层，该层可以迭代更新场景几何和相机姿态变量，并通过相机和光流监督从大量数据中学习中间预测。我们发现，这样一个学习层对于在更具挑战性的动态视频情况下实现准确高效的相机姿态估计至关重要。在此基础上，我们处理动态场景的关键创新之一是将单目深度先验和运动概率图整合到可微分的SLAM范式中。

此外，我们分析了视频中结构和相机参数的可观测性，并引入了一种不确定性感知的全局BA方案，当相机参数受到输入视频的约束较差时，该方案可以提高系统的稳健性。我们还展示了如何在无需测试时网络微调的情况下，准确高效地获得一致的视频深度。在合成和真实世界数据集上的广泛评估表明，我们的系统在相机和深度估计的准确性方面显著优于先前的和同期的方法，同时实现了具有竞争力或更优的运行时性能。

3. 效果展示

MegaSaM能够从动态场景的随意捕获的单目视频中准确、快速和鲁棒地估计摄像机和场景结构。顶部:输入视频帧(每十帧显示一次)。下图:我们估计的相机和3D点云，没有经过任何后期处理，没有通过预测的视频深度进行投影。

MegaSaM从任何静态或动态视频中快速准确地估计摄像机和密集结构。

我们的方法适用于几乎任何视频，甚至是那些随意捕捉的视频，包含侵略性的摄像机运动或场景动态。这些结果是从其对应的源视频以大约0.7 FPS的速度处理的。

4. 方法

给定一个无约束的连续视频序列，我们的目标是估计相机姿态和密集的视频深度图。我们的方法不对输入视频中相机和物体的运动施加任何约束。我们的相机跟踪和视频深度估计模块分别建立在先前的深度视觉SLAM（特别是DROID-SLAM）和随意结构与运动框架之上。推荐课程：单目深度估计方法：算法梳理与代码实现。

我们首先总结了为跟踪具有足够相机运动视差的静态场景视频而设计的深度视觉SLAM框架的关键组件。然后，我们介绍了在训练和推理阶段对该框架的关键修改，这些修改使得无约束动态视频的相机跟踪更加快速、稳健和准确。最后，我们展示了在给定估计的相机参数的情况下，如何高效地估计一致的视频深度。

5. 实验结果

在三个基准数据集上，相机位姿估计的数值结果分别报告在表1、表2和表3中。我们的方法在标定和未标定设置下的所有误差指标上均表现出显著提升，并取得了最佳的相机跟踪精度，同时在运行时间上也具有竞争力。值得注意的是，即便MonST3R（一项同期工作）采用了更新的全局3D点云表示来处理动态场景，我们的方法在鲁棒性和准确性方面都优于MonST3R。此外，我们在表4中报告了在Sintel和Dycheck数据集上的深度预测结果。我们的深度估计在所有指标上再次显著优于其他基线方法。

6. 总结 & 局限性

局限性。尽管在各种真实场景视频中表现出色，但我们发现，在极具挑战性的场景中，我们的方法可能会失效，这与先前工作[79]的发现类似。例如，如果运动物体占据整个图像，或者系统无法可靠跟踪任何物体，则相机跟踪会失败。有关失败案例的可视化，请参阅补充材料。此外，我们的系统无法处理具有不同焦距或视频内存在强烈径向失真的视频。将当前视觉基础模型中的更好先验知识融入管道，是一个值得探索的有前途的研究方向。

结论。我们提出了一种管道，能够从动态场景的随意单目视频中生成准确的相机参数和一致的深度信息。我们的方法能够有效地扩展到不同时间长度的真实场景视频，且不受相机路径和复杂场景动态的限制。我们已证明，通过仔细扩展，先前的深度视觉SLAM和SfM框架可以进一步扩展，从而实现对广泛视频的强泛化能力，并显著优于最近的最先进方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球