专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
涵江时讯  ·  全到涵江闹元宵 | ... ·  2 天前  
涵江时讯  ·  全到涵江闹元宵 | ... ·  2 天前  
ZOL中关村在线  ·  2024机圈热门技术总结:AI入端、纯血鸿蒙 ... ·  2 天前  
EETOP  ·  用加密数据进行计算的芯片即将问世 ·  2 天前  
EETOP  ·  精品芯片课·打折倒计时! ·  2 天前  
电脑吧评测室  ·  【2025年2月】2月装机走向与推荐(市场分 ... ·  3 天前  
电脑吧评测室  ·  【2025年2月】2月装机走向与推荐(市场分 ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

DUSt3R升级至251 FPS!Meta重磅新作Fast3R:一次实现1000幅图像的3D重建

计算机视觉工坊  · 公众号  ·  · 2025-02-04 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

作者:Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

机构:Meta、University of Michigan

原文链接:https://arxiv.org/abs/2501.13928

代码链接:https://fast3r-3d.github.io/

1. 导读

多视图三维重建仍然是计算机视觉中的一个核心挑战,特别是在需要跨不同视角的精确和可伸缩表示的应用中。诸如DUSt3R的当前领先方法采用基本上成对的方法,成对地处理图像,并且需要昂贵的全局对准过程来从多个视图进行重建。在本文中,我们提出了快速三维重建(Fast3R),一种新的多视图推广到DUSt3R,通过并行处理许多视图来实现高效和可扩展的三维重建。Fast3R基于Transformer的架构在一次转发中转发N幅图像,无需重复对齐。通过对相机姿态估计和3D重建的大量实验,Fast3R展示了最先进的性能,推理速度有了显著提高,误差累积减少。这些结果确立了Fast3R作为多视图应用的稳健替代方案,提供增强的可扩展性,而不损害重建精度。

2. 效果展示

Fast3R 是一种在单个正向通道中3D重建1000多个无序、无位置图像的方法。

Fast3R输出的定性示例

3. 引言

从多个视角进行3D重建一直是自主导航、增强现实和机器人技术等应用领域中的一项基础任务。在这些应用中,建立图像间的对应关系(即多视角匹配)至关重要,它能够实现场景的精确表示。传统的重建流程,如基于运动恢复结构(Structure-from-Motion, SfM)和多视角立体视觉(Multi-View Stereo, MVS)的方法,从根本上依赖于图像对来重建3D几何结构。尽管在某些场景下这些方法有效,但它们需要复杂的工程来管理特征提取、对应匹配、三角测量和全局对齐等顺序阶段,从而限制了可扩展性和速度。

这种传统的“流水线”范式最近受到了DUSt3R的挑战,DUSt3R能够直接从RGB图像预测3D结构。它通过一种设计实现了这一目标,该设计“将成对重建问题转化为点图的回归问题,放宽了常规投影相机模型的严格约束”,从而在具有挑战性的视角下表现出令人印象深刻的鲁棒性。这标志着3D重建领域的一次根本性转变,因为端到端可学习的解决方案不易受到流水线误差累积的影响,同时也显著简化了流程。

另一方面,DUSt3R的一个根本限制是它仅限于两个图像输入。虽然图像对是一个重要的用例,但通常人们更感兴趣的是从两个以上视角进行重建,例如在扫描物体或场(例如用于资产生成或地图绘制)时。为了处理两个以上的图像,DUSt3R计算O(N²)对点图,并执行全局对齐优化过程。随着图像集合的增长,这个过程计算成本高昂且扩展性差。例如,在A100 GPU上,仅48个视角就会导致内存溢出(Out Of Memory, OOM)。

此外,这样的过程从根本上仍然是成对进行的,这限制了模型的上下文,既影响训练期间的学习,也影响推理期间的最终准确性。在这个意义上,DUSt3R与传统SfM和MVS方法一样,都受到了成对瓶颈的限制。

我们提出了Fast3R,这是一种旨在克服这些限制的新型多视角重建框架。在DUSt3R的基础上,Fast3R利用基于Transformer的架构[56]并行处理多个图像,允许在一次前向传递中重建N个图像。通过消除对顺序或成对处理的需求,在重建过程中,每个帧可以同时关注输入集中的所有其他帧,从而显著减少了误差累积。也许令人惊讶的是,Fast3R还显著减少了所需时间。

4. 主要贡献

我们的贡献有三方面:

我们引入了Fast3R,这是一种基于Transformer的多视角点图估计模型,无需全局后处理;从而在速度、计算开销和可扩展性方面实现了显著提升。

我们通过实证表明,模型性能随着视角轴的扩展而提高。对于相机姿态定位和重建任务,当在逐渐增大的视角集上进行训练时,模型性能会提高。在推理期间使用更多视角时,每个视角的准确性会进一步提高,并且模型能够泛化到比训练期间看到的更多视角。 推荐课程: 彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用

我们展示了在相机姿态估计方面的最新性能,并显著提高了推理时间。在CO3Dv2[39]上,Fast3R在姿态估计方面实现了99.7%的15度以内准确率,与具有全局对齐的DUSt3R相比,误差降低了14倍以上。Fast3R为现实世界应用提供了一种可扩展且准确的替代方案,为高效多视角3D重建设定了新的标准。

5. 方法

Fast3R是一个基于Transformer的模型,它能够从一组无序且未定位的图像中预测3D点图。模型架构的设计旨在在推理期间可扩展至超过1000张图像,尽管在训练期间我们使用图像掩码来用远更少的图像进行训练。在本节中,我们将详细介绍Fast3R的实现,并讨论使其具有可扩展性的设计选择。

6. 实验结果

7. 总结 & 局限性

我们介绍Fast3R,这是一种转换器,可以在单个正向传递中直接预测共同参考框架中所有像素的3D位置。通过将整个SfM管道替换为经过端到端训练的通用架构,Fast3R和类似方法应该受益于转换器的通常缩放规则:随着数据的改善和参数的增多,保持一致的改进。由于Fast3R使用全局注意力,因此避免了现有系统中瓶颈导致的两个潜在的人为缩放限制。首先,图像对重建的瓶颈限制了模型可用的信息。其次,对偶全局优化只能弥补这么多,并且不会随着更多数据的增加而提高。

通过我们的有效实现,Fast3R可以在>250FPS下运行,并在一次正向传递中处理1500张图像,远远超过了其他方法,同时在3D重建和相机姿态估计基准上取得了具有竞争力的结果。我们证明,通过改变数据和无需修改点图回归目标和架构,Fast3R可以微调以重建视频。与受定制和缓慢操作瓶颈影响的管道方法相比,Fast3R继承了未来工程改进的好处,以高效地服务和训练大型基于变压器的模型。例如,像Deepspeed-Inference这样的打包方式FlashAttention提供融合内核、模型并行和数据并行。这些加速推理并减少内存需求,允许每个设备处理更多图像,并且图像数量随着设备数量的增加而增加。

局限性:数据准确性和数量可能是当前缩放的限制因素。合成数据可能是一个解决方案,因为总的来说,用于几何估计的模型似乎能够从模拟数据中很好地推广。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文