0. 论文信息
标题:LiV-GS: LiDAR-Vision Integration for 3D Gaussian Splatting SLAM in Outdoor Environments
作者:Renxiang Xiao, Wei Liu, Yushuai Chen, Liang Hu
机构:HIT
原文链接:https://arxiv.org/abs/2411.12185
1. 导读
我们介绍了LiV-GS,这是一个户外环境中的激光雷达-视觉SLAM系统,它利用3D高斯作为可区分的空间表示。值得注意的是,LiV-GS是第一个将离散和稀疏的激光雷达数据与大规模户外场景中的连续可微分高斯地图直接对齐的方法,克服了传统激光雷达制图中固定分辨率的限制。该系统使用用于前端跟踪的共享协方差属性将点云与高斯图对齐,并将法线方向集成到损失函数中以细化高斯图。为了可靠和稳定地更新激光雷达视野之外的高斯分布,我们引入了一种新的条件高斯约束,将这些高斯分布与最近的可靠高斯分布紧密对齐。有针对性的调整使LiV-GS能够以7.98 FPS的速率通过新颖的视图合成实现快速准确的映射。大量的对比实验证明了LiV-GS在SLAM、图像渲染和贴图方面的优越性能。成功的跨模态雷达-激光雷达定位突出了LiV-GS在跨模态语义定位和高斯地图对象分割中的应用潜力。
2. 引言
SLAM(Simultaneous Localization and Mapping,即同时定位与地图构建)对于基于精确定位重建观测场景的大规模场景重建至关重要。激光雷达(LiDAR)和相机作为两种常用于场景重建的传感器,推动了SLAM技术的发展。传统激光雷达SLAM利用点云中的几何和精确深度信息进行精确定位。近期,神经辐射场(Neural Radiance Fields,NeRFs)和三维高斯溅射(3D Gaussian Splatting,3DGS)的出现,为视觉SLAM提供了更详细的环境表征。传统的地图表征方式,如点云、体素和曲面元,在地图构建中存在分辨率受限的问题,而隐式神经场则需要昂贵的计算资源。相比之下,3DGS使用高斯椭球体作为高效地图,能够实现自适应的空间特征表征和快速渲染。考虑到精确SLAM和逼真场景重建的需求,三维高斯溅射成为了一种强大的方法,有效结合了激光雷达和相机传感器的优势。
户外SLAM和场景重建面临着独特的挑战,如光照变化和无限深度尺度,这使得基于室内RGBD的解决方案变得不足。虽然激光雷达在户外环境中的精确测距方面表现出色,但由于激光雷达点云的稀疏和不连续性,保持不同视图之间的像素对应关系具有挑战性。现有方法,如手持式测绘,依赖于重复测绘来增强图像深度,这对于仅从相机视角捕获单一视图的移动机器人平台来说并不实用。
为此,我们引入了LiV-GS,一个使用三维高斯空间表征来无缝融合激光雷达和相机图像的SLAM框架。我们的方法通过将对渲染的高斯协方差与当前观测进行对齐来估计机器人位姿,后端则负责校正漂移并更新高斯地图。为了解决无界场景中视觉与激光雷达之间的深度连续性问题,我们提出了一种基于激光雷达点云的高斯分裂方法,确保在地图更新中适当的分布约束。
3. 效果展示
我们的LiVGS在低速序列中表现出最低的绝对轨迹误差(ATE)。
图6展示了图像渲染的定性结果。3DGS的渲染质量受到缺乏深度先验和在SLAM运动过程中获得的视角有限的影响。而LiVGS渲染的图像展现出卓越的清晰度,捕捉到了诸如建筑结构、建筑轮廓、地面纹理、树木和灌木的枝叶细节,甚至汽车引擎盖上的反射等细微之处。渲染的保真度不仅证明了LiV-GS的有效性,还凸显了其在保留复杂视觉细节方面的能力。
4. 主要贡献
我们的研究贡献总结如下:
1)我们提出了一个使用三维高斯表征的统一激光雷达-相机户外SLAM框架,能够在高精度定位过程中实现增量测绘和高质量新视图合成;
2)我们引入了有效的高斯-激光雷达对齐方法,包括用于稳定跟踪的法向方向约束,以及基于密度和法向一致性的加权机制,以考虑不同高斯分布的可靠性;
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
3)我们提出了一种用于地图更新的条件高斯分布约束,允许利用具有激光雷达先验的可靠高斯分布来表示整个场景,甚至包括激光雷达点不可用的对象或区域。
5. 方法
如图1所示,LiV-GS的整个系统包括四个模块:数据预处理、跟踪、优化和地图更新。来自激光雷达和视觉传感器的多模态测量在数据预处理模块中融合,然后输入到前端跟踪模块。在前端,系统使用从上一时刻渲染的高斯椭球体与当前点云进行帧到地图的匹配。通过视觉区域的共可见性评估关键帧,并将其附加到高斯地图上。包含关键帧参数的高斯地图随后在后端进行位姿优化和地图更新。通过最小化损失函数,高斯地图连续更新高斯参数,同时进行高斯的分裂和修剪操作。
在提出的系统中,数据输入包括来自相机的图像和来自激光雷达传感器的点云。这些输入使用校准的外参进行融合,将时间对齐的激光雷达点云转换为深度图像。该转换由以下方程控制:
其中,P表示激光雷达点云中的点,RCL和tCL分别表示从激光雷达到相机坐标系的旋转矩阵和平移向量,K是相机的内参矩阵。该转换将激光雷达数据与视觉数据对齐,从而从RGB视角实现统一的深度感知。
6. 实验结果
表II展示了定位准确性的定量评估结果。我们的LiVGS在低速序列中表现出最低的绝对轨迹误差(ATE)。然而,在高速序列loop2中,由于连续帧之间的位移较大以及高斯分布稀疏(由高斯地图优化不足导致),LiVGS的准确性略低于NeRF-LOAM。MonoGS、SplaTAM、GS-ICP-SLAM和Gaussian-SLAM均专为具有丰富纹理图像和密集深度信息的室内环境而设计,但由于室外场景中获得的深度信息较稀疏,它们在一些室外序列中性能下降甚至失效。相比之下,我们的LiV-GS在大规模室外环境中能够持续稳定地进行跟踪。
此外,表III的底部两行显示了LiVGS里程计结果与真实值之间的最小渲染差异,这进一步证明了LiV-GS里程计的高精度,因为更高的定位准确性会导致更小的渲染质量损失。
表III比较了所有在同一平台上实现的可复现开源算法的渲染结果。3DGS和NeRF++不进行姿态估计,而是使用COLMAP获得初始输入。SplaTAM、MonoGS和Gaussian-SLAM则依赖损失函数来优化姿态,因此我们复制了两次渲染结果:一次使用真实值姿态,一次使用它们自己估计的姿态。
7. 总结 & 未来工作
我们提出了一种新颖的室外SLAM系统,该系统利用三维高斯分布作为空间表示,并融合了激光雷达-相机数据。该系统通过协方差将激光雷达点云与高斯地图紧密集成以实现跟踪,并使用视觉信息来优化全局高斯分布。条件高斯约束指导高斯椭球体的分割,特别是当缺乏激光雷达深度信息时,对于缺乏几何约束的高斯椭球体而言尤为重要。该方法利用视觉纹理连续性和激光雷达的可靠性来构建具有一致深度约束的椭球体。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、视频\图像生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
「
3D视觉从入门到精通
」
知识星球
「3D视觉从入门到精通」知识星球