0. 论文信息
标题:VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes
作者:Ke Wu, Zicheng Zhang, Muer Tie, Ziqing Ai, Zhongxue Gan, Wenchao Ding
机构:Fudan University
原文链接:https://arxiv.org/abs/2501.08286
代码链接:https://vings-mono.github.io
1. 导读
VINGS-Mono是一个为大型场景设计的单目(惯性)高斯Splatting (GS) SLAM框架。该框架包括四个主要部分:VIO前端,2D高斯图,NVS环闭合,和动态橡皮擦。在VIO前端,RGB帧通过密集光束调整和不确定性估计进行处理,以提取场景几何和姿态。基于该输出,映射模块递增地构建和维护2D高斯图。2D高斯贴图的关键组件包括基于样本的光栅化器、分数管理器和姿态优化,它们共同提高了贴图速度和定位精度。这使得SLAM系统能够处理高达5000万高斯椭球的大规模城市环境。为了确保大规模场景中的全局一致性,我们设计了一个循环闭合模块,该模块创新性地利用了高斯分布图的新颖视图合成(NVS)功能,用于高斯图的循环闭合检测和校正。此外,我们提出了一个动态橡皮擦,以解决现实世界户外场景中不可避免的动态对象的存在。在室内和室外环境中的广泛评估表明,我们的方法实现了与视觉惯性里程计相当的定位性能,同时超过了最近的GS/NeRF SLAM方法。在映射和渲染质量方面,它也明显优于所有现有的方法。此外,我们开发了一个移动应用程序,并验证了我们的框架可以仅使用智能手机摄像头和低频IMU传感器实时生成高质量的高斯地图。据我们所知,VINGS-Mono是第一个能够在户外环境中操作并支持千米级大场景的单目高斯SLAM方法。
2. 效果展示
VINGS-Mono估计的轨迹和重建的3个不同场景的高斯地图。我们的方法有效地估计了姿态,并在大规模驾驶场景、无人机视图和室内环境中重建了高质量的高斯地图。特别是左边的驾驶场景,轨迹跨度为3.7公里,包括包含3250万个高斯椭球体的高斯地图。在训练过程中,我们跟踪高斯体的数量并放大特定区域以提高可视化清晰度。
分层小城市中的V0性能。由于被大的浮动体遮挡,MonoGS在跟踪中失败,而Photoslam由于缺乏复杂纹理和自我快速运动而无法匹配特征点以重新定位到起始点。相比之下,我们的方法稳健且稳定地实现了定位,并构建了高质量的高斯地图。
推荐课程:
彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战
。
3. 引言
富含信息、几何密集的地图对于机器人的环境感知和场景理解至关重要。三维高斯溅射(3DGS)因其非凡的渲染速度和高质量视觉效果而迅速普及。3DGS通过提供详细的场景信息和实现新视角合成,增强了同步定位与地图构建(SLAM)系统。此外,由于高斯溅射的可微渲染过程,我们仅需使用低成本的RGB监督即可构建密集地图。
现有的3DGS SLAM系统主要聚焦于有限数量的显示对象或小型室内空间,以深度相机为输入,并利用传统的SLAM前端或深度点云迭代最近点(ICP)算法进行定位和高斯更新。室外GS-SLAM方法稀缺且仅限于重建几百米范围内的场景,且严重依赖高线束激光雷达传感器。然而,深度相机在室外环境中表现不佳,且激光雷达传感器的高成本限制了其在消费级应用中的普及。鉴于尺寸、重量和功耗的限制,低成本相机与惯性测量单元(IMU)的组合构成了实现SLAM的最小传感器套件。因此,开发一种能够处理大规模环境的鲁棒单目(惯性)GS-SLAM系统既至关重要又迫在眉睫。
目前,以随机或稀疏特征点初始化高斯函数的单目输入支持的3DGS SLAM系统,由于易受到姿态漂移和几何噪声的影响,无法处理大规模、快速移动的场景。此外,在大规模环境中常观察到显著的累积误差。这些误差通常通过回环检测来缓解。传统的回环检测方法依赖于描述符或网络特征向量,需要额外编码和存储词袋模型,这效率低下,且随着场景规模的增加会导致性能下降。另一方面,GO-SLAM[7]通过保持帧之间的共视矩阵来识别回环,但这会导致二次存储需求和计算开销的增加。
为大规模场景开发高效且高保真度的单目GSSLAM面临着几个重大挑战。首先,表示大规模、街道级别的场景需要管理数千万个高斯函数,这既存储密集又计算量大。其次,单目设置存在严重的尺度漂移问题,这破坏了重建场景的准确性和可靠性。此外,大规模环境中还会出现显著的累积误差。虽然传统的回环检测技术在优化基于地标的地图方面有效,但在检测到回环后校正密集高斯地图极具挑战性,通常需要对所有历史帧进行重新训练。最后,大型城市环境中动态对象的存在带来了重大挑战,因为它们在高斯地图中产生了大量伪影和噪声,进一步使优化过程复杂化。
在本文中,我们介绍了VINGS-Mono,这是一个支持大规模城市场景的单目(惯性)高斯溅射SLAM框架。该框架包含四个主要模块:视觉惯性前端(VIO Front End)、二维高斯地图(2D Gaussian Map)、新视角合成(NVS)回环检测和动态对象擦除器(Dynamic Object Eraser)。为解决高斯地图存储和优化效率方面的挑战,我们开发了一个得分管理器,通过结合局部和全局地图表示来管理二维高斯地图。此外,我们设计了一个样本光栅化器来加速高斯溅射的反向传播算法,显著提高了其计算效率。为增强跟踪准确性并缓解大规模场景中不可避免的漂移问题,我们提出了单帧到多帧姿态优化模块。该模块将单帧的渲染误差反向传播,以优化视锥体视场内所有帧的姿态,从而提高整体姿态一致性。对于累积误差,我们利用高斯溅射的新视角合成能力进行回环检测。我们进一步提出了一种高效的回环校正方法,能够在检测到回环时同时调整数百万个高斯属性。最后,为解决动态对象对建图的影响,我们设计了一种基于重渲染损失的启发式语义分割掩膜生成方法。该方法确保动态对象得到有效处理,增强了建图过程的鲁棒性。
4. 主要贡献
我们的贡献可总结如下:
• 我们是首个能够在室外运行并支持公里级城市场景的单目(惯性)基于GS的SLAM系统。
• 我们提出了二维高斯地图模块,包括样本光栅化器、得分管理器和单帧到多帧姿态优化,确保我们的方法能够实现实时准确定位和构建高质量高斯地图。
• 我们引入了一种基于GS的回环检测方法,以及一种高效方法,该方法可在检测到回环时一次性校正数十万个高斯属性,有效消除累积误差并确保地图的全局一致性。
• 在不同场景(室内环境、无人机航拍视图和驾驶场景)上的综合实验表明,VINGS-Mono在渲染和定位性能上均优于现有方法。此外,我们还开发了一款移动应用并进行了现实世界实验,以证明我们方法的实际可靠性。
5. 方法
我们的框架流程如图2所示。给定一系列RGB图像和IMU读数,我们首先利用视觉惯性前端选择关键帧,并通过密集捆集调整计算关键帧的初始深度和姿态信息。此外,我们还根据深度估计过程中的协方差计算深度图的不确定性,滤除几何不准确区域和天空区域。二维高斯地图模块使用视觉前端的输出逐步添加和维持高斯椭球体。我们设计了一种基于贡献分数和误差分数的管理机制来有效修剪高斯函数。此外,我们提出了一种新方法,利用单帧渲染损失优化多帧姿态。为确保可扩展性以适应大规模城市场景,我们实现了CPU-GPU内存传输机制。在新视角合成回环检测模块中,我们利用GS的新视角合成能力设计了一种创新的回环检测方法,并通过高斯-姿态对匹配校正高斯地图。此外,我们还集成了动态对象擦除器模块,该模块屏蔽了车辆和行人等瞬态对象,确保在静态场景假设下实现一致且准确的建图。
我们对满足距离阈值要求的关键帧进行特征匹配、过滤和新视角合成,以实现回环检测。一旦检测到回环,我们通过配对高斯与姿态对齐和图优化来实现姿态和高斯地图的回环校正。
6. 实验结果
7. 总结 & 未来工作
在本文中,我们提出了VINGS-Mono,这是一个旨在解决大规模环境挑战的单目(惯性)高斯溅射SLAM框架。通过引入诸如用于高效高斯修剪的得分管理器、用于增强跟踪准确性的单帧到多帧姿态优化模块、利用新视角合成实现全局一致性的回环检测方法以及用于处理瞬态对象的动态对象掩蔽机制等创新,VINGS-Mono实现了高效、可扩展且准确的SLAM性能。我们的系统经过了广泛的严格评估。首先,我们在两个公开室内数据集和五个室外数据集上进行了对比实验,以评估VINGS-Mono的定位准确性和渲染质量。与最先进的神经辐射场(NeRF)/GS基方法和视觉SLAM方法相比,我们的系统展现出了卓越的定位和建图性能。此外,我们还在大规模环境中进行了现实世界实验,以验证我们方法的鲁棒性和稳定性。接下来,我们对VINGS-Mono的各个模块进行了消融研究,以验证其有效性。最后,我们开发了一款移动应用,并通过现场演示验证了系统的实时能力,展示了在室内和室外环境中构建二维高斯地图的过程。
我们的方法通过利用高斯溅射,即使在激光雷达或深度相机不切实际的室外场景中也能重建密集的几何和颜色信息,从而能够创建更密集、更高质量的地图。这通过保留关键场景细节并启用实例图像目标导航等高级任务,促进了高效的导航和探索。此外,具有新视角渲染能力的高斯地图非常适合VR/AR和数字孪生中的实时应用,提高了大规模自主系统的可扩展性、适应性和效率。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球