专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

DUSt3R升级至251 FPS！Meta重磅新作Fast3R：一次实现1000幅图像的3D重建

计算机视觉工坊 · 公众号 · · 2025-02-04 00:00

正文

请到「今天看啥」查看全文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

作者：Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

机构：Meta、University of Michigan

原文链接：https://arxiv.org/abs/2501.13928

代码链接：https://fast3r-3d.github.io/

1. 导读

多视图三维重建仍然是计算机视觉中的一个核心挑战，特别是在需要跨不同视角的精确和可伸缩表示的应用中。诸如DUSt3R的当前领先方法采用基本上成对的方法，成对地处理图像，并且需要昂贵的全局对准过程来从多个视图进行重建。在本文中，我们提出了快速三维重建(Fast3R)，一种新的多视图推广到DUSt3R，通过并行处理许多视图来实现高效和可扩展的三维重建。Fast3R基于Transformer的架构在一次转发中转发N幅图像，无需重复对齐。通过对相机姿态估计和3D重建的大量实验，Fast3R展示了最先进的性能，推理速度有了显著提高，误差累积减少。这些结果确立了Fast3R作为多视图应用的稳健替代方案，提供增强的可扩展性，而不损害重建精度。

2. 效果展示

Fast3R 是一种在单个正向通道中3D重建1000多个无序、无位置图像的方法。

Fast3R输出的定性示例

3. 引言

从多个视角进行3D重建一直是自主导航、增强现实和机器人技术等应用领域中的一项基础任务。在这些应用中，建立图像间的对应关系（即多视角匹配）至关重要，它能够实现场景的精确表示。传统的重建流程，如基于运动恢复结构（Structure-from-Motion, SfM）和多视角立体视觉（Multi-View Stereo, MVS）的方法，从根本上依赖于图像对来重建3D几何结构。尽管在某些场景下这些方法有效，但它们需要复杂的工程来管理特征提取、对应匹配、三角测量和全局对齐等顺序阶段，从而限制了可扩展性和速度。

这种传统的“流水线”范式最近受到了DUSt3R的挑战，DUSt3R能够直接从RGB图像预测3D结构。它通过一种设计实现了这一目标，该设计“将成对重建问题转化为点图的回归问题，放宽了常规投影相机模型的严格约束”，从而在具有挑战性的视角下表现出令人印象深刻的鲁棒性。这标志着3D重建领域的一次根本性转变，因为端到端可学习的解决方案不易受到流水线误差累积的影响，同时也显著简化了流程。

另一方面，DUSt3R的一个根本限制是它仅限于两个图像输入。虽然图像对是一个重要的用例，但通常人们更感兴趣的是从两个以上视角进行重建，例如在扫描物体或场（例如用于资产生成或地图绘制）时。为了处理两个以上的图像，DUSt3R计算O(N²)对点图，并执行全局对齐优化过程。随着图像集合的增长，这个过程计算成本高昂且扩展性差。例如，在A100 GPU上，仅48个视角就会导致内存溢出（Out Of Memory, OOM）。

此外，这样的过程从根本上仍然是成对进行的，这限制了模型的上下文，既影响训练期间的学习，也影响推理期间的最终准确性。在这个意义上，DUSt3R与传统SfM和MVS方法一样，都受到了成对瓶颈的限制。

我们提出了Fast3R，这是一种旨在克服这些限制的新型多视角重建框架。在DUSt3R的基础上，Fast3R利用基于Transformer的架构[56]并行处理多个图像，允许在一次前向传递中重建N个图像。通过消除对顺序或成对处理的需求，在重建过程中，每个帧可以同时关注输入集中的所有其他帧，从而显著减少了误差累积。也许令人惊讶的是，Fast3R还显著减少了所需时间。

4. 主要贡献

我们的贡献有三方面：

我们引入了Fast3R，这是一种基于Transformer的多视角点图估计模型，无需全局后处理；从而在速度、计算开销和可扩展性方面实现了显著提升。

我们通过实证表明，模型性能随着视角轴的扩展而提高。对于相机姿态定位和重建任务，当在逐渐增大的视角集上进行训练时，模型性能会提高。在推理期间使用更多视角时，每个视角的准确性会进一步提高，并且模型能够泛化到比训练期间看到的更多视角。推荐课程：彻底搞懂3D人脸重建原理，从基础知识、算法讲解、代码解读和落地应用。

我们展示了在相机姿态估计方面的最新性能，并显著提高了推理时间。在CO3Dv2[39]上，Fast3R在姿态估计方面实现了99.7%的15度以内准确率，与具有全局对齐的DUSt3R相比，误差降低了14倍以上。Fast3R为现实世界应用提供了一种可扩展且准确的替代方案，为高效多视角3D重建设定了新的标准。

5. 方法

Fast3R是一个基于Transformer的模型，它能够从一组无序且未定位的图像中预测3D点图。模型架构的设计旨在在推理期间可扩展至超过1000张图像，尽管在训练期间我们使用图像掩码来用远更少的图像进行训练。在本节中，我们将详细介绍Fast3R的实现，并讨论使其具有可扩展性的设计选择。

6. 实验结果

7. 总结 & 局限性

我们介绍Fast3R，这是一种转换器，可以在单个正向传递中直接预测共同参考框架中所有像素的3D位置。通过将整个SfM管道替换为经过端到端训练的通用架构，Fast3R和类似方法应该受益于转换器的通常缩放规则:随着数据的改善和参数的增多，保持一致的改进。由于Fast3R使用全局注意力，因此避免了现有系统中瓶颈导致的两个潜在的人为缩放限制。首先，图像对重建的瓶颈限制了模型可用的信息。其次，对偶全局优化只能弥补这么多，并且不会随着更多数据的增加而提高。

通过我们的有效实现，Fast3R可以在>250FPS下运行，并在一次正向传递中处理1500张图像，远远超过了其他方法，同时在3D重建和相机姿态估计基准上取得了具有竞争力的结果。我们证明，通过改变数据和无需修改点图回归目标和架构，Fast3R可以微调以重建视频。与受定制和缓慢操作瓶颈影响的管道方法相比，Fast3R继承了未来工程改进的好处，以高效地服务和训练大型基于变压器的模型。例如，像Deepspeed-Inference这样的打包方式FlashAttention提供融合内核、模型并行和数据并行。这些加速推理并减少内存需求，允许每个设备处理更多图像，并且图像数量随着设备数量的增加而增加。

局限性:数据准确性和数量可能是当前缩放的限制因素。合成数据可能是一个解决方案，因为总的来说，用于几何估计的模型似乎能够从模拟数据中很好地推广。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网： www.3dcver.com

大模型、扩散模型、具身智能、3DGS、NeRF 、 结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测 、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真 、 C++、三维视觉python、dToF、相机标定、ROS2 、 机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap 、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里 👇 关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

DUSt3R升级至251 FPS！Meta重磅新作Fast3R：一次实现1000幅图像的3D重建

正文

请到「今天看啥」查看全文

0. 论文信息

1. 导读

2. 效果展示

3. 引言

4. 主要贡献

5. 方法

(adsbygoogle = window.adsbygoogle || []).push({}); 6. 实验结果

7. 总结 & 局限性

3D视觉工坊知识星球

3D视觉模组选型：www.3dcver.com

请到「今天看啥」查看全文

6. 实验结果