0. 这篇文章干了啥?
视觉同步定位与地图构建(SLAM)是机器人和计算机视觉领域的一项基本任务,它推动了众多应用的发展,从复杂的机器人导航和3D场景重建,到自动驾驶和虚拟现实等前沿领域。视觉SLAM的核心在于其实时追踪相机位置的同时,重建3D环境的结构和视觉细节。其在现实世界应用中的成功关键在于运行效率、可扩展性和最重要的鲁棒性。
根据地图重建的性质,视觉SLAM主要分为稀疏和密集两大类。具体来说,稀疏SLAM主要侧重于从序列传感器数据中推断相机轨迹,生成稀疏点云。相比之下,密集SLAM不仅考虑姿态估计,还启动详细的表面重建。传统的密集视觉SLAM方法严重依赖手工设计的特征和匹配策略,这些方法往往需要大量计算来解决预先建立的优化问题。
近年来,基于坐标的神经网络的进步推动了许多研究在视觉SLAM中使用隐式场表示。一个坐标点可以使用正弦位置编码或其他频率编码格式进行编码,以紧凑地表示高频细节。在密集视觉SLAM任务中使用基于隐式场的表示的好处已经得到了iMAP和NICE-SLAM等开创性工作的证实。然而,这些方法计算负担较高,运行速度约为0.1到1赫兹,这限制了它们在更广泛任务中的应用。
最近的方法如Co-SLAM和E-SLAM旨在推动基于隐式场的视觉SLAM的边界。与iMAP和NICE-SLAM相比,这些方法在密集重建和姿态估计的质量上有了显著提高。尽管如此,阻碍神经SLAM在更广泛范围内应用的一个重要问题是其处理挑战性场景的鲁棒性,例如,当提供的帧数低于标准相机频率时,这在现实世界应用中非常常见,因为数据传输带宽有限或存储空间不足等限制。在这些条件下,现有方法的成功率并不令人满意。简而言之,尽管基于神经隐式场的视觉SLAM的最新进展显示出前景,但仍需要提高其在现实世界应用中的鲁棒性和适用性。推荐学习:
当SLAM遇上3DGS!基于3D高斯的全新SLAM算法
神经SLAM方法中存在的鲁棒性问题源于优化神经网络的难度。尽管用于描述隐式场的底层神经表示方法多种多样——包括多层感知机(MLP)、哈希网格、码本、三平面、密集网格、三维高斯——它们本质上都作为大型非线性优化系统发挥作用。因此,输入图像的质量、视角覆盖范围和相关性是决定神经隐式场的关键因素。然而,在数据具有挑战性或有限的情况下,所有数据帧之间较低的相关性很容易误导优化过程,使其陷入模糊的局部解。鉴于这些挑战,我们的工作旨在探索一条新路径,特别是设计一种混合表示,它结合了神经隐式场和特征度量优化的能力。我们的目标是解决密集神经SLAM的鲁棒性问题。这种方法显著提高了SLAM方法的稳定性和性能,特别是在具有挑战性和数据受限的情况下。
下面一起来阅读一下这项工作~
1. 论文信息
标题:HERO-SLAM: Hybrid Enhanced Robust Optimization of Neural SLAM
作者:Zhe Xin, Yufeng Yue, Liangjun Zhang, Chenming Wu
机构:中国科学院、北京理工大学、百度
原文链接:https://arxiv.org/abs/2407.18813v1
代码链接:https://hero-slam.github.io/
2. 摘要
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人学中的一项基本任务,它推动了包括自动驾驶和虚拟现实在内的众多应用的发展。近期,神经隐式SLAM领域的研究取得了鼓舞人心且令人印象深刻的进展。然而,神经SLAM的鲁棒性,特别是在具有挑战性或数据受限的情况下,仍然是一个悬而未决的问题。本文提出了HERO-SLAM,这是一种针对神经SLAM的混合增强鲁棒优化方法,该方法结合了神经隐式场和特征度量优化的优点。这种混合方法优化了多分辨率隐式场,并在具有突然视角变化或稀疏数据采集的挑战性环境中增强了鲁棒性。我们在基准数据集上进行的综合实验结果验证了该混合方法的有效性,证明了它在挑战性场景下相比现有基于隐式场的方法具有更优的性能。HERO-SLAM为提升神经SLAM在现实世界场景中的稳定性、性能和适用性提供了一条新途径。代码可在项目页面获取:https://heroslam.github.io。
3. 效果展示
4. 主要贡献
我们的工作贡献总结如下:
• 我们提出了一种方法,该方法有效地利用了神经隐式场和特征度量优化的优势,用于视觉SLAM。这提高了鲁棒性,特别是在涉及视角突变或数据稀疏收集的具有挑战性的环境中。
• 我们提出了一种新颖的管道,用于使用基于多尺度块的损失来优化混合特征度量隐式场,该损失基于特征点、特征图和RGB-D像素之间的扭曲计算得出。
• 在广泛使用的基准数据集上进行的综合实验验证了我们的混合方法的有效性,特别是在具有挑战性的场景中,与现有的基于神经隐式场的方法相比,我们的方法表现出更优的性能。
5. 基本原理是啥?
HERO-SLAM的总体流程如图2所示。
我们的SLAM系统架构类似于传统的密集SLAM系统,包括一个跟踪模块来恢复每帧的姿态,以及一个映射模块来从跟踪的帧中重建密集场景。我们利用多分辨率网格作为空间特征的表示,该网格可以近似一个隐函数,该函数编码了场景的几何形状和视觉外观。通过沿着视线从体素网格中采样特征,并使用多层感知器(MLP)解码器查询这些采样特征,我们可以使用基于学习的优化器以可微分的方式根据推断出的相机参数优化每个像素的颜色和深度渲染。
我们提出的系统随时间接收一系列RGB-D帧,帧与帧之间数据间隔和运动不同。这有时会对现有的神经隐式场SLAM方法构成挑战,但在实际应用中却很常见。我们的工作通过提出一种混合增强的鲁棒优化方案,提高了神经SLAM的鲁棒性,使我们能够在各种环境中利用神经SLAM,实现高质量的姿态恢复和密集映射。
6. 实验结果
Replica数据集评估。表I详细展示了所有八个场景的对比结果。尽管使用了低频图像,但我们提出的方法在二维和三维指标上均优于基线方法。相比之下,像NICE-SLAM和Co-SLAM这样的方法仅依赖于统一运动模型,这很容易导致跟踪漂移,并最终导致重建失败。我们的方法通过在当前帧和前一帧之间建立特征对应关系,提高了神经SLAM系统的鲁棒性。采用纹理和特征度量扭曲约束来优化相机姿态。此外,即使图像频率降低(从i=5到10),我们的方法仍取得了良好的结果,仅略有下降,且成功率为100%。相反,Co-SLAM在i=10时无法重建多个场景,平均成功率仅为62%。我们使用NICE-SLAM中的剔除策略来评估重建质量,如表II所示。即使在低图像频率下,我们的方法也表现出最佳的整体性能。
TUM RGB-D数据集评估。我们将TUM数据集上的姿态估计精度与基于NeRF的RGB-D SLAM进行了比较。然而,Co-SLAM需要连续图像,而TUM数据集中的一些场景姿态可能并不连续。我们只测试了这些场景的第一个连续片段。根据表III,我们的方法实现了最高且最可靠的跟踪性能。TUM数据集包含许多手持拍摄场景,在移动过程中视角变化显著。我们的算法可以通过特征度量优化有效处理这种变化。虽然增加跟踪迭代次数可以获得更好的结果,但我们的方法仍大幅优于Co-SLAM。
7. 总结 & 未来工作
本文提出了HERO-SLAM,这是一种针对神经SLAM的混合优化解决方案,代表混合增强鲁棒优化(Hybrid Enhanced Robust Optimization)。通过将神经隐式场和特征度量优化的优势相结合,我们的混合方法优化了多分辨率隐式场,并在具有突然视角变化或稀疏数据采集的挑战性环境中增强了鲁棒性。实验结果验证了我们的方法相较于现有方法的有效性,特别是在挑战性场景下。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉工坊知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括:
秘制视频课程近20门