专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

完虐MASt3R和Spann3r！NVIDIA重磅新作Light3R-SfM：革新三维重建！

计算机视觉工坊 · 公众号 · · 2025-02-01 08:46

正文

请到「今天看啥」查看全文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Light3R-SfM: Towards Feed-forward Structure-from-Motion

作者：Sven Elflein, Qunjie Zhou, Sérgio Agostinho, Laura Leal-Taixé

机构：NVIDIA、Vector Institute、University of Toronto

原文链接：https://arxiv.org/abs/2501.14914

1. 导读

我们提出了Light3R-SfM，这是一个前馈、端到端的可学习框架，用于从无约束图像集合中高效地进行大规模运动结构重建。与依赖昂贵的匹配和全局优化来实现精确3D重建的现有SfM解决方案不同，Light3R-SfM通过一种新型的潜在全局对齐模块解决了这一限制。该模块用可学习的注意力机制取代了传统的全局优化，有效地捕捉图像间的多视图约束，以实现鲁棒而精确的相机姿态估计。Light3R-SfM通过检索分数引导的最短路径树构建稀疏场景图，与朴素方法相比，大大减少了内存使用和计算开销。大量实验表明，Light3R-SfM在显著减少运行时间的同时实现了竞争精度，使其成为运行时间受限的现实世界应用中3D重建任务的理想选择。这项工作开创了一种数据驱动的前馈SfM方法，为在野外实现可扩展、精确和高效的3D重建铺平了道路。

2. 效果展示

各种SfM方法的处理速度与准确性。与传统的流水线相比，我们的工作显著降低了各种大小图像集的运行时间，同时获得了相当高的准确性。结果在Tanks&Temples数据集上进行测量。

3. 主要贡献

我们总结了这项工作的关键贡献如下:(i)我们提出了Light3R-SfM，这是一种新颖的前馈SfM方法，它利用可伸缩的注意力机制，用可学习的潜在对齐模块代替了传统的全局优化。(ii)通过广泛的实验，我们证明Light3R-SfM在全局对齐相机位置方面比同时的Spann3R方法更准确。它的性能与最先进的基于优化的SfM技术相媲美，同时在效率和可扩展性方面提供了显著的改进。具体来说，Light3R-SfM可以在短短33秒内重建200张图像的场景，而与之相比的MASt3R-SfM需要大约27分钟因此速度提高了49倍。我们强调了全前馈SfM的潜力，并旨在激励未来的研究，以开发更可靠和准确的前馈方法，用于实际环境中的大规模3D重建

4. 方法

我们提出了Light 3R-SfM，这是一种新颖的前馈SfM模型，可以为大尺度的真实世界应用提供鲁棒、准确和高效的结构化运动。关键组件是一个注意力机制，允许对整个图像集进行无优化的全局对齐姿态估计。推荐课程：基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研] 。

给定一个无序的图像集合或一系列图像，我们重建每个图像相机的外参、内参和密集的 3D 点图，它表示单个图像观察到的全局对齐场景几何图形。如图2所示，我们从(i)编码开始，图像编码器提取每个图像的特征。在此之后，我们有了(ii)潜在的全局对齐，其中通过可伸缩的注意机制在所有图像标记之间交换信息，以在特征空间中全局对准图像标记。接下来，(iii)场景图构建通过运行最短路径树(SPT)算法构建场景图，以最大化图像相似性。(iv)解码步骤使用立体重建解码器将连接边缘的图像对转换为点图。最后，我们运行(iiv)全局优化重建，通过遍历场景图累积对偶点图，以获得全局对齐的点图。

5. 实验结果

我们遵循以前的工作，包括稀疏采样的25/50/100/200帧子集和原始完整序列。如表1所示，我们的方法与包括VGGSfM、ACE-Zero和FlowMap在内的其他基于学习的方法相比具有竞争力。我们的方法不如Glomap、Colmap和同时工作的MASt3R-SfM准确，特别是在具有超过200张图像的密集视图设置中。这些方法依赖于经典的优化技术，如包络调整或3D全局对齐来实现更好的准确性，但它们受到有限的可伸缩性的限制。例如，Glomap和MASt3R-SfM的整个运行时间比我们的方法多30倍和43倍。

6. 总结

我们提出了Light3R-SfM，这是一种新的管道，可(如匹配或全局优化)的情况以在没有传统组件下执行SfM。为此，我们基于在图像对上操作的3D基础模型，并通过可伸缩的全局潜在对齐模块将这些模型扩展到大型图像集合，有效地在潜在空间中对成对预测进行对齐，从而取代全局优化。此外，我们利用稀疏场景图保持低内存要求。我们表明，这种方法可以在提供具有竞争力的准确性的同时显著减少运行时间，为传统上由基于优化方法主导的领域开辟了激动人心的新研究机会。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网： www.3dcver.com

大模型、扩散模型、具身智能、3DGS、NeRF 、 结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测 、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真 、 C++、三维视觉python、dToF、相机标定、ROS2 、 机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap 、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里 👇 关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

完虐MASt3R和Spann3r！NVIDIA重磅新作Light3R-SfM：革新三维重建！

正文

请到「今天看啥」查看全文

0. 论文信息

1. 导读

2. 效果展示

3. 主要贡献

4. 方法

5. 实验结果

6. 总结 (adsbygoogle = window.adsbygoogle || []).push({});

3D视觉工坊知识星球

3D视觉模组选型：www.3dcver.com

请到「今天看啥」查看全文

6. 总结