专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

杀疯了！帝国理工开源MASt3R-SLAM：实时、鲁棒、全局一致的稠密SLAM

3D视觉工坊 · 公众号 · · 2024-12-20 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

作者：Riku Murai, Eric Dexheimer, Andrew J. Davison

机构：Imperial College London

原文链接：https://arxiv.org/abs/2412.12392

代码链接：https://edexheim.github.io/mast3r-slam/

1. 导读

我们提出了一个实时单目稠密SLAM系统，它是从MASt3R(一个两视图3D重建和匹配先验)自底向上设计的。有了这个强先验，我们的系统在野外视频序列上是鲁棒的，尽管除了唯一的摄像机中心之外，没有对固定的或参数化的摄像机模型进行假设。我们介绍了点图匹配、相机跟踪和局部融合、图形构造和循环闭合以及二阶全局优化的有效方法。在已知校准的情况下，对系统进行简单的修改就可以在各种基准测试中实现一流的性能。总之，我们提出了一个即插即用的单目SLAM系统，它能够以15 FPS的速度产生全局一致的姿态和密集的几何图形。

2. 引言

视觉即时定位与地图构建（SLAM）是当今机器人和增强现实产品的基础构建模块。通过精心设计的集成硬件和软件堆栈，实现稳健且准确的视觉SLAM已成为可能。然而，SLAM尚未成为一种即插即用的算法，因为它需要硬件专业知识和校准。即使是最简单的单摄像头设置（不配备惯性测量单元（IMU）等额外传感器），也不存在一种能在复杂环境中可靠提供精确姿态和一致稠密地图的SLAM解决方案。实现这样的可靠稠密SLAM系统将为空间智能领域开辟新的研究方向。

仅从二维图像进行稠密SLAM需要推断随时间变化的姿态和相机模型，以及三维场景几何。为了解决这种高维逆问题，已提出了各种先验知识，从手工设计到数据驱动。单视图先验（如单目深度图和法线）尝试从单张图像预测几何形状，但这些先验包含歧义且在不同视图间缺乏一致性。虽然多视图先验（如光流）可以减少歧义，但由于像素运动取决于外参和相机模型，因此解耦姿态和几何形状颇具挑战性。尽管这些潜在原因可能随时间和不同观察者而变化，但三维场景在不同视图间保持不变。因此，从图像中求解姿态、相机模型和稠密几何所需的统一先验是在共同坐标系框架下的三维几何空间。

最近，由DUSt3R及其后继者MASt3R开创的双视图三维重建先验为从运动恢复结构（SfM）带来了范式转变，其利用了精心挑选的三维数据集。这些网络直接从共同坐标系框架下的两张图像输出点图，从而在联合框架中隐式地解决了上述子问题。未来，这些先验将在具有显著畸变的各种相机模型上进行训练。虽然三维先验可以接收更多视图，但SfM和SLAM利用空间稀疏性并避免冗余，以实现大规模一致性。双视图架构以双视图几何作为SfM的基本构建块，这种模块化特性为后端的高效决策制定和稳健共识奠定了基础。

在本工作中，我们提出了首个实时SLAM框架，该框架利用双视图三维重建先验作为跟踪、映射和重定位的统一基础，如图1所示。虽然之前的工作已在无序图像集合的离线环境中将这些先验应用于SfM [10]，但SLAM是逐步接收数据且必须保持实时运行。这需要对低延迟匹配、精细地图维护和大规模优化高效方法采取新视角。此外，受SLAM中滤波和优化技术的启发，我们在前端对点图进行局部滤波，以便在后端进行大规模全局优化。我们的系统对每张图像的相机模型不做任何假设，仅假设所有光线都通过唯一的相机中心。这实现了一个实时稠密单目SLAM系统，该系统能够使用通用且随时间变化的相机模型重建场景。在给定校准的情况下，我们还展示了在轨迹精度和稠密几何估计方面的最先进性能。

3. 效果展示

使用未校准的RGB摄像头实时重建大型办公室：

4. 主要贡献

我们的贡献包括：

• 首个以双视图三维重建先验MASt3R为基础的实时SLAM系统。

• 点图匹配、跟踪和局部融合、图构建和闭环检测以及二阶全局优化的高效技术。

• 一个能够处理通用且随时间变化的相机模型的最先进稠密SLAM系统。

5. 方法

基本的构建模块是MASt3R，它在给定两个图像的情况下输出公共坐标框架中的点地图，以及我们高效的点地图匹配。这在前端用于相机跟踪和点地图融合，在后端用于循环闭合和大规模全局优化。

对于每一帧，我们的系统通过将点映射归一化为光线来定义一个通用的中央相机模型。这使得SLAM具有时变相机模型，例如上面显示的高度动态变焦。

3D或特征空间中的匹配对于实时SLAM来说太慢了。给定公共坐标框架中来自DUSt3R或MASt3R的点图，我们通过最小化从相机中心到3D点的光线和当前像素查询的光线之间的角度误差来执行大规模并行匹配。

后端优化确保姿势和密集几何图形的全局一致性。由于梯度下降收敛缓慢，我们利用高斯-牛顿优化来实现有效的大规模更新。推荐课程：（第二期）彻底搞懂基于LOAM框架的3D激光SLAM：源码剖析到算法优化。

6. 总结

我们提出了一种基于MASt3R的实时密集SLAM系统可以处理野外视频，并实现最先进的性能。SLAM领域最近的许多进展都遵循了DROID-SLAM的贡献，它训练了一个端到端框架，从流更新中解决姿态和几何问题。我们采取了一种不同的方法，围绕现成的几何先验构建系统，首次实现了可比较的姿态估计，同时还提供了一致的密集几何。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括：