超越DUSt3R：MUSt3R基于记忆增强网络实现千帧级三维重建，精度提升50%

3D视觉之心 · 公众号 · · 2025-03-09 07:00

正文

作者 | INDEMIND

点击下方卡片，关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

>> 点击进入→ 3D视觉之心技术交流群

DUSt3R在几何计算机视觉领域开创了全新范式，其提出的模型能够在无需相机标定与视点姿态先验信息的条件下，实现任意图像集合的密集无约束立体三维重建。然而，该模型的底层机制仍基于图像对处理，其回归的局部三维重建结果需在全局坐标系中进行对齐。由于图像对数量随样本规模呈二次方增长，这一固有局限在大规模图像集合的鲁棒快速优化中尤为突出。本文提出将DUSt3R从图像对扩展至多视图的解决方案：我们构建了一种多视角立体三维重建网络——MUSt3R。

• 文章：

MUSt3R: Multi-view Network for Stereo 3D Reconstruction

• 作者：

Yohann Cabon, Lucas Stoffl, Leonid Antsfeld, Gabriela Csurka, Boris Chidlovskii, Jerome Revaud, Vincent Leroy

• 论文链接：

https://arxiv.org/abs/2503.01661

• 编译：

INDEMIND

本文核心内容

最近，DUSt3R提出了一种几何计算机视觉的新范式。简而言之，它能够对任意图像集合进行密集且无约束的立体三维重建，即无需任何相机标定或视角位姿的先验信息。通过将成对重建问题建模为点图对的回归（其中点图定义为像素与三维点之间的密集映射），该方法有效放松了传统投影相机模型的硬约束。这种点图表示方式（现已被后续工作采用）同时包含三维几何和相机参数，使得深度估计、相机位姿与焦距估计、密集三维重建和像素对应关系等多种三维视觉任务能够被统一联合求解。通过使用数百万张带有深度和相机参数真值标注的图像对进行训练，DUSt3R在零样本设置下展现出前所未有的性能，并能够泛化到使用不同相机传感器的各类真实场景。

该架构在单目和双目场景中均能无缝运行，但在输入多幅图像时，其成对处理特性反而成为劣势。由于预测的点图存在于以每对图像首帧定义的局部坐标系中，所有预测结果分布于不同坐标系。这种设计需要通过全局后处理步骤将所有预测对齐到统一全局坐标系，而当处理大规模图像集合时，这种简单对齐方式的计算复杂度会迅速变得难以承受。

这引发了一系列问题：如何解决成对方法的二次方复杂度？如何稳健高效地优化此类问题？若需要实时预测又当如何？虽然Mast3R-SfM部分解决了这些合理关切，但本文采取不同思路，设计了一个可扩展至任意规模大型图像集合，并能以高帧率推断同坐标系下点图的新架构。为实现这些目标，我们提出的多视角立体三维重建网络（MUSt3R）通过几个关键改进（即对称化设计和添加工作记忆机制）扩展了DUSt3R架构，同时保持较低的复杂度提升。

该模型不仅能以运动恢复结构（SfM）方式处理无序图像集合的离线重建，还可胜任密集视觉里程计（VO）和SLAM任务——即在线预测移动相机拍摄视频流的相机位姿与三维结构。据我们所知，这是首个能无缝利用记忆机制覆盖两种场景的方法，无需调整网络架构，同一网络即可以不可知方式执行任任务。

主要贡献

我们的贡献包括三方面：

• 通过对称化设计和支持度量空间下的N视角预测，对DUSt3R架构进行改进

• 引入记忆机制，降低离线与在线重建的计算复杂度

• 在非约束重建场景下（包括视场角估计、相机位姿估计、三维重建和绝对尺度恢复）实现最先进性能，且不损失推理速度。

方法架构

DUSt3R：双目架构DUSt3R旨在从成对图像中联合推断密集三维重建和相机参数。其通过将图像对映射到共享坐标系下的三维点云图（3Dpointmaps）来实现这一目标。具体而言，该模型基于Transformer的网络架构，通过输入两张图像，预测出两组密集三维点云（其中）。这本质上建立了输入图像中每个像素𝑝与其观测三维点之间的二维到三维映射关系，且所有三维点均以第一个相机的坐标系为基准进行表达。

实验

超越DUSt3R：MUSt3R基于记忆增强网络实现千帧级三维重建，精度提升50%

正文

请到「今天看啥」查看全文