0. 论文信息
标题:SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
作者:Yuzheng Liu, Siyan Dong, Shuzhe Wang, Yingda Yin, Yanchao Yang, Qingnan Fan, Baoquan Chen
机构:Peking University、The University of Hong Kong、Aalto University、VIVO
原文链接:https://arxiv.org/abs/2412.09401
代码链接:https://github.com/PKU-VCL-3DV/SLAM3R
1. 导读
在本文中,我们介绍了一种新颖有效的单目RGB SLAM系统,用于实时和高质量的密集三维重建。SLAM3R通过前馈神经网络无缝集成局部3D重建和全局坐标配准,提供了端到端的解决方案。给定一个输入视频,系统首先使用滑动窗口机制将其转换成重叠的剪辑。与传统的基于姿势优化的方法不同,SLAM3R直接从每个窗口中的RGB图像回归3D点图,并逐步对齐和变形这些局部点图,以创建全局一致的场景重建-所有这些都不需要显式求解任何相机参数。跨数据集的实验一致表明,SLAM3R在保持20+ FPS的实时性能的同时,实现了最先进的重建精度和完整性。
2. 引言
密集三维重建是计算机视觉领域一项长期存在的挑战,旨在捕获并重建真实世界场景的详细几何结构。传统方法大多依赖于多阶段流程。这些流程通常以稀疏的同时定位与地图构建(SLAM)或运动恢复结构(SfM)算法开始,用于估计相机参数,随后采用多视图立体(MVS)技术来填充场景细节。虽然这些方法能够生成高质量的重建结果,但通常需要离线处理才能生成完整模型,这限制了它们在真实场景中的应用。
在文献中,已经开发了密集SLAM方法来解决将密集场景重建作为完整系统的问题。然而,这些方法在重建精度或完整性方面往往有所欠缺,或者严重依赖于深度传感器。最近,提出了几种单目SLAM系统来处理从RGB视频中重建密集场景的问题。通过结合先进的场景表示方法,这些系统能够生成准确且完整的场景重建结果。然而,这以牺牲运行效率为代价。例如,NICER-SLAM的运行速度远低于1帧每秒(FPS)。因此,当前方法至少在以下三个关键标准之一上存在困难:重建精度、完整性或效率。
虽然单目密集SLAM系统存在上述局限性,但双视图几何领域的最新进展显示出了巨大潜力。DUSt3R引入了一种纯端到端的方法来学习密集重建。该网络在大规模数据集上进行训练,能够实时地从成对图像中生成高质量的密集重建结果。然而,对于多视图情况,需要全局优化步骤来对齐这些图像对,这极大地影响了其效率。一项并行工作,即Spann3R,通过成对增量重建管道将DUSt3R扩展到多视图(视频)场景。虽然该方法加速了重建过程,但遗憾的是,它会导致显著的累积漂移和重建质量下降。
为解决这些挑战,我们引入了SLAM3R(发音为“slæm@r”),这是一种新颖的SLAM系统,旨在仅使用RGB视频实时执行密集三维重建。SLAM3R采用两级框架。首先,它利用一个滑动窗口从输入视频的短片段中重建局部三维几何结构。然后,它逐步注册这些局部重建结果,以构建全局一致的三维场景。两个模块都采用了简单而有效的前馈模型,从而实现了端到端和高效的场景重建。具体来说,这两个模块是图像到点(I2P)网络和局部到世界(L2W)网络。受DUSt3R启发,I2P模块在局部窗口中选择一个关键帧作为坐标系参考,并直接预测该窗口内其余帧所支持的密集三维点图。L2W模块则将局部重建的点逐步融合到连贯的全局坐标系中。这两个过程都在不显式估计任何相机参数的情况下重建三维点。
推荐课程:
对于3D激光SLAM,LeGo-LOAM到底有多重要?
通过大量实验,我们证明SLAM3R提供了高质量的场景重建结果,且漂移最小,在各种基准测试中优于现有的密集SLAM系统。此外,SLAM3R以20+ FPS的速度实现了这些结果,在仅使用RGB的密集场景重建中填补了质量与效率之间的空白。
3. 效果展示
我们介绍了一个新颖的密集SLAM系统- SLAM3R。该系统采用单目RGB视频作为输入,并将场景重建为密集的点云。视频被转换成用于局部重建的短剪辑(表示为内窗口),然后这些短剪辑被递增地配准在一起(窗口间)以创建全局场景模型。这一过程实时运行,产生既准确又完整的重建。
我们在两个场景上可视化重建结果:来自7-Scenes 和Replica数据集的Office-09和Office 2。我们的方法实时运行,并实现了与离线方法DUSt3R相当的高质量重建。
4. 主要贡献
我们的贡献总结如下:
• 我们提出了一种新颖的实时端到端密集三维重建系统,该系统能够在统一的坐标系中直接预测三维点图。
• 通过精心设计,我们的图像到点模块可以同时处理任意数量的图像,有效地将DUSt3R扩展到处理多视图并生成更高质量的预测。
• 所提出的局部到世界模块直接将预测的局部三维点图对齐到统一的全局坐标系中。这消除了显式相机参数估计和昂贵全局优化的需求。
• 我们在多个公共基准测试上评估了我们的方法。它在实时速度下实现了准确性和完整性方面的最佳重建质量。
5. 方法
图2展示了所提出的密集SLAM系统的概述。它主要由两个主要组件组成:图像到点(I2P)网络,用于从视频片段中恢复局部三维点;以及局部到世界(L2W)网络,用于将局部重建结果注册到全局场景坐标系中。在密集点云的重建过程中,系统不显式求解任何相机参数。相反,它直接在统一的坐标系中预测三维点图。
系统首先应用长度为L的滑动窗口机制,将输入视频转换为短片段。然后,I2P网络处理每个窗口Wi以恢复局部三维点图。在每个窗口内,系统选择一个关键帧来定义点重建的参考坐标系。默认情况下,滑动窗口的步长设置为1,确保视频中的每个输入帧至少被选择一次作为关键帧。对于全局场景重建,我们使用第一个窗口初始化世界坐标系,并将重建的帧(由I2P生成的图像和局部点图)作为L2W模型的输入。L2W模型逐步将这些局部重建结果注册到统一的全局三维坐标系中。为确保此过程的准确性和效率,系统维护了一个有限的已注册帧库,称为场景帧。每当L2W模型注册一个新的关键帧时,我们都会检索最佳相关的场景帧作为参考。
6. 实验结果
在7 Scenes数据集上的实验。场景重建质量的数值结果见表1。遵循Spann3R的设置,我们在每个测试序列中均匀采样了二十分之一的帧作为输入视频。每个视频被视为一个独立场景。我们使用两种设置来评估SLAM3R:一种是直接使用为所有输入帧预测的全部点云来创建重建结果(记为SLAM3R-NoConf),另一种是在创建重建结果之前,用同时预测的置信图对每个帧预测的点云进行过滤(记为SLAM3R)。我们将我们的方法与基于优化的重建方法DUSt3R[、基于三角测量的MASt3R和在线增量重建方法Spann3R进行了比较。DUSt3R使用分辨率为224×224的weight-224模型进行测试,这与我们的输入分辨率相同,而MASt3R则使用分辨率为512×384的weight-512模型进行测试。我们的方法在准确性和完整性方面均优于所有基线方法,同时保持了实时性能。
在Replica数据集上的实验。除了7 Scenes数据集中提到的基线方法外,我们还比较了在Replica数据集上基于SLAM的重建方法NICERSLAM、DROID-SLAM、DIM-SLAM和GO-SLAM。全场景重建的数值结果见表2。由于内存限制,DUSt3R和MASt3R仅处理二十分之一的帧进行重建。如表所示,我们的方法在每秒帧数(FPS)大于1的情况下超越了所有基线方法。值得注意的是,在没有任何优化程序的情况下,我们的方法实现了与基于优化的方法(如NICER-SLAM和DUSt3R)相当的重建质量。
7. 总结
在本文中,我们提出了一种新颖且高效的单目RGB SLAM系统SLAM3R,用于实时高质量密集3D重建。它采用两级神经网络框架,通过精简的前馈过程执行端到端的3D重建,无需显式求解任何相机参数。实验证明了其最先进的重建质量和实时效率,实现了20+ FPS的帧率。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球