专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉工坊

完虐MASt3R和Spann3r!NVIDIA重磅新作Light3R-SfM:革新三维重建!

计算机视觉工坊  · 公众号  ·  · 2025-02-01 08:46

正文

请到「今天看啥」查看全文


点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Light3R-SfM: Towards Feed-forward Structure-from-Motion

作者:Sven Elflein, Qunjie Zhou, Sérgio Agostinho, Laura Leal-Taixé

机构:NVIDIA、Vector Institute、University of Toronto

原文链接:https://arxiv.org/abs/2501.14914

1. 导读

我们提出了Light3R-SfM,这是一个前馈、端到端的可学习框架,用于从无约束图像集合中高效地进行大规模运动结构重建。与依赖昂贵的匹配和全局优化来实现精确3D重建的现有SfM解决方案不同,Light3R-SfM通过一种新型的潜在全局对齐模块解决了这一限制。该模块用可学习的注意力机制取代了传统的全局优化,有效地捕捉图像间的多视图约束,以实现鲁棒而精确的相机姿态估计。Light3R-SfM通过检索分数引导的最短路径树构建稀疏场景图,与朴素方法相比,大大减少了内存使用和计算开销。大量实验表明,Light3R-SfM在显著减少运行时间的同时实现了竞争精度,使其成为运行时间受限的现实世界应用中3D重建任务的理想选择。这项工作开创了一种数据驱动的前馈SfM方法,为在野外实现可扩展、精确和高效的3D重建铺平了道路。

2. 效果展示

各种SfM方法的处理速度与准确性。与传统的流水线相比,我们的工作显著降低了各种大小图像集的运行时间,同时获得了相当高的准确性。结果在Tanks&Temples数据集上进行测量。

3. 主要贡献

我们总结了这项工作的关键贡献如下:(i)我们提出了Light3R-SfM,这是一种新颖的前馈SfM方法,它利用可伸缩的注意力机制,用可学习的潜在对齐模块代替了传统的全局优化。(ii)通过广泛的实验,我们证明Light3R-SfM在全局对齐相机位置方面比同时的Spann3R方法更准确。它的性能与最先进的基于优化的SfM技术相媲美,同时在效率和可扩展性方面提供了显著的改进。具体来说,Light3R-SfM可以在短短33秒内重建200张图像的场景,而与之相比的MASt3R-SfM需要大约27分钟因此速度提高了49倍。我们强调了全前馈SfM的潜力,并旨在激励未来的研究,以开发更可靠和准确的前馈方法,用于实际环境中的大规模3D重建

4. 方法

我们提出了Light 3R-SfM,这是一种新颖的前馈SfM模型,可以为大尺度的真实世界应用提供鲁棒、准确和高效的结构化运动。关键组件是一个注意力机制,允许对整个图像集进行无优化的全局对齐姿态估计。 推荐课程: 基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

给定一个无序的图像集合或一系列图像,我们重建每个图像相机的外参、内参 和密集的 3D 点图,它表示单个图像观察到的全局对齐场景几何图形。如图2所示,我们从(i)编码开始,图像编码器提取每个图像的特征。在此之后,我们有了(ii)潜在的全局对齐,其中通过可伸缩的注意机制在所有图像标记之间交换信息,以在特征空间中全局对准图像标记。接下来,(iii)场景图构建通过运行最短路径树(SPT)算法构建场景图,以最大化图像相似性。(iv)解码步骤使用立体重建解码器将连接边缘的图像对转换为点图。最后,我们运行(iiv)全局优化重建,通过遍历场景图累积对偶点图,以获得全局对齐的点图。

5. 实验结果

我们遵循以前的工作,包括稀疏采样的25/50/100/200帧子集和原始完整序列。如表1所示,我们的方法与包括VGGSfM、ACE-Zero和FlowMap在内的其他基于学习的方法相比具有竞争力。我们的方法不如Glomap、Colmap和同时工作的MASt3R-SfM准确,特别是在具有超过200张图像的密集视图设置中。这些方法依赖于经典的优化技术,如包络调整或3D全局对齐来实现更好的准确性,但它们受到有限的可伸缩性的限制。例如,Glomap和MASt3R-SfM的整个运行时间比我们的方法多30倍和43倍。

6. 总结

我们提出了Light3R-SfM,这是一种新的管道,可(如匹配或全局优化)的情况以在没有传统组件下执行SfM。为此,我们基于在图像对上操作的3D基础模型,并通过可伸缩的全局潜在对齐模块将这些模型扩展到大型图像集合,有效地在潜在空间中对成对预测进行对齐,从而取代全局优化。此外,我们利用稀疏场景图保持低内存要求。我们表明,这种方法可以在提供具有竞争力的准确性的同时显著减少运行时间,为传统上由基于优化方法主导的领域开辟了激动人心的新研究机会。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目&作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网: www.3dcver.com

大模型、扩散模型、具身智能、3DGS、NeRF 结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制 无人机仿真 C++、三维视觉python、dToF、相机标定、ROS2 机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap 、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

点这里 👇 关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~







请到「今天看啥」查看全文