0. 论文信息
标题:Light3R-SfM: Towards Feed-forward Structure-from-Motion
作者:Sven Elflein, Qunjie Zhou, Sérgio Agostinho, Laura Leal-Taixé
机构:NVIDIA、Vector Institute、University of Toronto
原文链接:https://arxiv.org/abs/2501.14914
1. 导读
我们提出了Light3R-SfM,这是一个前馈、端到端的可学习框架,用于从无约束图像集合中高效地进行大规模运动结构重建。与依赖昂贵的匹配和全局优化来实现精确3D重建的现有SfM解决方案不同,Light3R-SfM通过一种新型的潜在全局对齐模块解决了这一限制。该模块用可学习的注意力机制取代了传统的全局优化,有效地捕捉图像间的多视图约束,以实现鲁棒而精确的相机姿态估计。Light3R-SfM通过检索分数引导的最短路径树构建稀疏场景图,与朴素方法相比,大大减少了内存使用和计算开销。大量实验表明,Light3R-SfM在显著减少运行时间的同时实现了竞争精度,使其成为运行时间受限的现实世界应用中3D重建任务的理想选择。这项工作开创了一种数据驱动的前馈SfM方法,为在野外实现可扩展、精确和高效的3D重建铺平了道路。
2. 效果展示
各种SfM方法的处理速度与准确性。与传统的流水线相比,我们的工作显著降低了各种大小图像集的运行时间,同时获得了相当高的准确性。结果在Tanks&Temples数据集上进行测量。
3. 主要贡献
我们总结了这项工作的关键贡献如下:(i)我们提出了Light3R-SfM,这是一种新颖的前馈SfM方法,它利用可伸缩的注意力机制,用可学习的潜在对齐模块代替了传统的全局优化。(ii)通过广泛的实验,我们证明Light3R-SfM在全局对齐相机位置方面比同时的Spann3R方法更准确。它的性能与最先进的基于优化的SfM技术相媲美,同时在效率和可扩展性方面提供了显著的改进。具体来说,Light3R-SfM可以在短短33秒内重建200张图像的场景,而与之相比的MASt3R-SfM需要大约27分钟因此速度提高了49倍。我们强调了全前馈SfM的潜力,并旨在激励未来的研究,以开发更可靠和准确的前馈方法,用于实际环境中的大规模3D重建
4. 方法
我们提出了Light 3R-SfM,这是一种新颖的前馈SfM模型,可以为大尺度的真实世界应用提供鲁棒、准确和高效的结构化运动。关键组件是一个注意力机制,允许对整个图像集进行无优化的全局对齐姿态估计。
推荐课程:
基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]
。
给定一个无序的图像集合或一系列图像,我们重建每个图像相机的外参、内参 和密集的 3D 点图,它表示单个图像观察到的全局对齐场景几何图形。如图2所示,我们从(i)编码开始,图像编码器提取每个图像的特征。在此之后,我们有了(ii)潜在的全局对齐,其中通过可伸缩的注意机制在所有图像标记之间交换信息,以在特征空间中全局对准图像标记。接下来,(iii)场景图构建通过运行最短路径树(SPT)算法构建场景图,以最大化图像相似性。(iv)解码步骤使用立体重建解码器将连接边缘的图像对转换为点图。最后,我们运行(iiv)全局优化重建,通过遍历场景图累积对偶点图,以获得全局对齐的点图。
5. 实验结果
我们遵循以前的工作,包括稀疏采样的25/50/100/200帧子集和原始完整序列。如表1所示,我们的方法与包括VGGSfM、ACE-Zero和FlowMap在内的其他基于学习的方法相比具有竞争力。我们的方法不如Glomap、Colmap和同时工作的MASt3R-SfM准确,特别是在具有超过200张图像的密集视图设置中。这些方法依赖于经典的优化技术,如包络调整或3D全局对齐来实现更好的准确性,但它们受到有限的可伸缩性的限制。例如,Glomap和MASt3R-SfM的整个运行时间比我们的方法多30倍和43倍。
6. 总结
我们提出了Light3R-SfM,这是一种新的管道,可(如匹配或全局优化)的情况以在没有传统组件下执行SfM。为此,我们基于在图像对上操作的3D基础模型,并通过可伸缩的全局潜在对齐模块将这些模型扩展到大型图像集合,有效地在潜在空间中对成对预测进行对齐,从而取代全局优化。此外,我们利用稀疏场景图保持低内存要求。我们表明,这种方法可以在提供具有竞争力的准确性的同时显著减少运行时间,为传统上由基于优化方法主导的领域开辟了激动人心的新研究机会。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉工坊官网:
www.3dcver.com
大模型、扩散模型、具身智能、3DGS、NeRF
、
结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测
、
BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制
、
无人机仿真
、
C++、三维视觉python、dToF、相机标定、ROS2
、
机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap
、线面结构光、硬件结构光扫描仪等。
▲
长按扫码学习3D视觉精品课程
3D视觉模组选型:www.3dcver.com
点这里
👇
关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~