0. 论文信息
标题:Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
作者:Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
机构:Meta、University of Michigan
原文链接:https://arxiv.org/abs/2501.13928
代码链接:https://fast3r-3d.github.io/
1. 导读
多视图三维重建仍然是计算机视觉中的一个核心挑战,特别是在需要跨不同视角的精确和可伸缩表示的应用中。诸如DUSt3R的当前领先方法采用基本上成对的方法,成对地处理图像,并且需要昂贵的全局对准过程来从多个视图进行重建。在本文中,我们提出了快速三维重建(Fast3R),一种新的多视图推广到DUSt3R,通过并行处理许多视图来实现高效和可扩展的三维重建。Fast3R基于Transformer的架构在一次转发中转发N幅图像,无需重复对齐。通过对相机姿态估计和3D重建的大量实验,Fast3R展示了最先进的性能,推理速度有了显著提高,误差累积减少。这些结果确立了Fast3R作为多视图应用的稳健替代方案,提供增强的可扩展性,而不损害重建精度。
2. 效果展示
Fast3R 是一种在单个正向通道中3D重建1000多个无序、无位置图像的方法。
Fast3R输出的定性示例
3. 引言
从多个视角进行3D重建一直是自主导航、增强现实和机器人技术等应用领域中的一项基础任务。在这些应用中,建立图像间的对应关系(即多视角匹配)至关重要,它能够实现场景的精确表示。传统的重建流程,如基于运动恢复结构(Structure-from-Motion, SfM)和多视角立体视觉(Multi-View Stereo, MVS)的方法,从根本上依赖于图像对来重建3D几何结构。尽管在某些场景下这些方法有效,但它们需要复杂的工程来管理特征提取、对应匹配、三角测量和全局对齐等顺序阶段,从而限制了可扩展性和速度。
这种传统的“流水线”范式最近受到了DUSt3R的挑战,DUSt3R能够直接从RGB图像预测3D结构。它通过一种设计实现了这一目标,该设计“将成对重建问题转化为点图的回归问题,放宽了常规投影相机模型的严格约束”,从而在具有挑战性的视角下表现出令人印象深刻的鲁棒性。这标志着3D重建领域的一次根本性转变,因为端到端可学习的解决方案不易受到流水线误差累积的影响,同时也显著简化了流程。
另一方面,DUSt3R的一个根本限制是它仅限于两个图像输入。虽然图像对是一个重要的用例,但通常人们更感兴趣的是从两个以上视角进行重建,例如在扫描物体或场(例如用于资产生成或地图绘制)时。为了处理两个以上的图像,DUSt3R计算O(N²)对点图,并执行全局对齐优化过程。随着图像集合的增长,这个过程计算成本高昂且扩展性差。例如,在A100 GPU上,仅48个视角就会导致内存溢出(Out Of Memory, OOM)。
此外,这样的过程从根本上仍然是成对进行的,这限制了模型的上下文,既影响训练期间的学习,也影响推理期间的最终准确性。在这个意义上,DUSt3R与传统SfM和MVS方法一样,都受到了成对瓶颈的限制。
我们提出了Fast3R,这是一种旨在克服这些限制的新型多视角重建框架。在DUSt3R的基础上,Fast3R利用基于Transformer的架构[56]并行处理多个图像,允许在一次前向传递中重建N个图像。通过消除对顺序或成对处理的需求,在重建过程中,每个帧可以同时关注输入集中的所有其他帧,从而显著减少了误差累积。也许令人惊讶的是,Fast3R还显著减少了所需时间。
4. 主要贡献
我们的贡献有三方面:
我们引入了Fast3R,这是一种基于Transformer的多视角点图估计模型,无需全局后处理;从而在速度、计算开销和可扩展性方面实现了显著提升。
我们通过实证表明,模型性能随着视角轴的扩展而提高。对于相机姿态定位和重建任务,当在逐渐增大的视角集上进行训练时,模型性能会提高。在推理期间使用更多视角时,每个视角的准确性会进一步提高,并且模型能够泛化到比训练期间看到的更多视角。
推荐课程:
彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用
。
我们展示了在相机姿态估计方面的最新性能,并显著提高了推理时间。在CO3Dv2[39]上,Fast3R在姿态估计方面实现了99.7%的15度以内准确率,与具有全局对齐的DUSt3R相比,误差降低了14倍以上。Fast3R为现实世界应用提供了一种可扩展且准确的替代方案,为高效多视角3D重建设定了新的标准。
5. 方法
Fast3R是一个基于Transformer的模型,它能够从一组无序且未定位的图像中预测3D点图。模型架构的设计旨在在推理期间可扩展至超过1000张图像,尽管在训练期间我们使用图像掩码来用远更少的图像进行训练。在本节中,我们将详细介绍Fast3R的实现,并讨论使其具有可扩展性的设计选择。
6. 实验结果
7. 总结 & 局限性
我们介绍Fast3R,这是一种转换器,可以在单个正向传递中直接预测共同参考框架中所有像素的3D位置。通过将整个SfM管道替换为经过端到端训练的通用架构,Fast3R和类似方法应该受益于转换器的通常缩放规则:随着数据的改善和参数的增多,保持一致的改进。由于Fast3R使用全局注意力,因此避免了现有系统中瓶颈导致的两个潜在的人为缩放限制。首先,图像对重建的瓶颈限制了模型可用的信息。其次,对偶全局优化只能弥补这么多,并且不会随着更多数据的增加而提高。
通过我们的有效实现,Fast3R可以在>250FPS下运行,并在一次正向传递中处理1500张图像,远远超过了其他方法,同时在3D重建和相机姿态估计基准上取得了具有竞争力的结果。我们证明,通过改变数据和无需修改点图回归目标和架构,Fast3R可以微调以重建视频。与受定制和缓慢操作瓶颈影响的管道方法相比,Fast3R继承了未来工程改进的好处,以高效地服务和训练大型基于变压器的模型。例如,像Deepspeed-Inference这样的打包方式FlashAttention提供融合内核、模型并行和数据并行。这些加速推理并减少内存需求,允许每个设备处理更多图像,并且图像数量随着设备数量的增加而增加。
局限性:数据准确性和数量可能是当前缩放的限制因素。合成数据可能是一个解决方案,因为总的来说,用于几何估计的模型似乎能够从模拟数据中很好地推广。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球