CVPR'25开源 | DUSt3R升级！MUSt3R：无缝让SLAM、SfM、3D重建、深度估计达到SOTA！

3D视觉工坊 · 公众号 · · 2025-03-07 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：MUSt3R: Multi-view Network for Stereo 3D Reconstruction

作者：Yohann Cabon, Lucas Stoffl, Leonid Antsfeld, Gabriela Csurka, Boris Chidlovskii, Jerome Revaud, Vincent Leroy

机构：NAVER LABS Europe

原文链接：https://arxiv.org/abs/2503.01661

代码链接：https://europe.naverlabs.com/

1. 导读

DUSt3R通过提出一种模型在几何计算机视觉中引入了一种新的范式，该模型可以在没有关于相机校准或视点姿态的先验信息的情况下提供任意图像集合的密集和无约束的立体3D重建。然而，在幕后，DUSt3R处理图像对，回归需要在全球坐标系中对齐的局部3D重建。成二次方增长的对的数量是一个固有的限制，这对于在大图像集合的情况下的鲁棒和快速优化变得尤其重要。在本文中，我们建议将DUSt3R从pairs扩展到multiple views，以解决上述所有问题。事实上，我们提出了用于立体3D重建的多视图网络，或MUSt3R，其通过使DUSt3R架构对称并将其扩展为在公共坐标框架中直接预测所有视图的3D结构来修改DUSt3R架构。第二，我们需要具有多层存储机制的模型，该多层存储机制允许降低计算复杂度并将重建缩放到大集合，以高帧速率推断数千个3D点地图，而增加的复杂度有限。该框架旨在离线和在线执行3D重建，因此可以无缝地应用于SfM和视觉SLAM场景，显示各种3D下游任务的最新性能，包括未校准的视觉里程计、相对相机姿势、比例和焦点估计、3D重建和多视图深度估计。

2. 效果展示

Aachen Day-Night数据集和TUM-RGBD数据集的重建结果：

3. 引言

近期，DUSt3R[71]在计算机视觉的几何领域引入了一种新颖范式。简而言之，它能够对任意图像集合进行密集且无约束的立体三维重建，即无需任何关于相机校准或视角姿态的先验信息。

通过将成对重建问题转化为点对图（pointmap）对的回归问题（其中，点对图定义为像素与三维点之间的密集映射），DUSt3R有效地放宽了传统投影相机模型的硬性约束。点对图表示现已用于后续工作中，它涵盖了三维几何和相机参数，并允许统一且联合解决各种三维视觉任务，如深度、相机姿态和焦距估计、密集三维重建以及像素对应。通过对数百万对带有深度和相机参数真实值标注的图像进行训练，DUSt3R在无样本设置下的不同相机传感器的各种真实场景中展现了前所未有的性能和泛化能力。

这种架构在单目和双目情况下均能无缝工作，然而，当输入多张图像时，该方法的成对性质便成为了一种缺点而非优点。由于预测的点对图是在每对图像中第一张图像定义的局部坐标系中表达的，因此所有预测都位于不同的坐标系中。因此，该设计需要一个全局后处理步骤来将所有预测对齐到一个全局坐标系中，而在朴素实现时，对于大型图像集合而言，这一步骤很快就会变得难以处理。

这引发了以下问题：如何解决成对方法的二次复杂度？如何稳健且快速地优化此类问题？如果需要实时预测，又该如何应对？虽然Mast3R-SfM]部分解决了这些合理关切，但本文采取了不同的立场，设计了一种新的架构，该架构能够扩展到任意规模的大型图像集合，并能够在高帧率下推断出位于同一坐标系中的相应点对图。为实现这些目标，我们的用于立体三维重建的多视图网络（MUSt3R）通过几项关键修改（即使其对称并添加工作记忆机制）扩展了DUSt3R架构，且增加的复杂度有限。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解。

该模型不仅能够处理结构从运动（SfM）场景中的无序图像集合的离线重建，还能够解决密集视觉里程计（VO）和即时定位与地图构建（SLAM）的任务，这些任务旨在在线预测由移动相机录制的视频流的相机姿态和三维结构。据我们所知，我们提出了首个能够无缝利用记忆机制来覆盖这两种场景的方法，从而无需更改架构，同一网络便能够以无差别的方式执行这两项任务中的任何一项。

4. 主要贡献

我们的贡献有三方面：

• 我们通过使DUSt3R架构对称并能够在度量空间中实现N视图预测，从而对其进行了改进；

• 我们为其添加了一个记忆机制，以降低离线和在线重建的计算复杂度；

• 在估计视场、相机姿态、三维重建和绝对尺度方面，我们在无约束重建场景中均达到了最先进的性能，且没有牺牲任何推理速度。

5. 方法

我们的首要贡献是将DUSt3R扩展到任意数量的𝑁个视图。如前所述，其双目架构包含两个不同的解码器。若简单地扩展到𝑁个视图则无法实现缩放，因为这实际上需要一组𝑁个不同的解码器。相反，我们提出通过使架构对称并采用单个共享权重的孪生解码器来重新表述并简化之前的框架。此架构自然能够扩展到𝑁个视图，并且与DUSt3R相比，解码器中的可训练参数数量减半。最后，我们扩展了DUSt3R以预测额外的点对图，该点对图将用于高效的相机参数估计。