0. 这篇文章干了啥?
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)描述了智能体当前的状态及其操作的环境。通过根据连续观测实时构建一致的地图,智能体逐渐获得对环境的知识,这些知识可用于下游的视觉和机器人应用。自SLAM诞生以来,时间和空间领域的一致性就构成了问题的基础,其中利用地图中的视角不变的光度信息和几何线索来预测和验证未来的测量值。然而,由于物体的移动,环境可能会发生各种变化,因此无法保证这种一致性。对于稳健的长期部署而言,减轻观测与地图之间不一致性所产生的影响至关重要。
直觉上,如果帧到模型的配准是基于纯静态/不变特征进行的,那么就可以实现稳健的SLAM系统。这样的系统需要对观测和地图中的环境变化进行准确识别。传统方法通过运动分割去除观测中的动态对象,并通过启发式地删除相应区域来更新离散化地图。最近的进展表明,在纯静态环境中,隐式神经表示也可以通过测试时优化进行更新,以作为密集SLAM系统的地图。除了大多数方法采用的基于经验重放的持续学习范式来避免对过去观测的灾难性遗忘外,我们认为遗忘也是根据环境变化更新神经地图的一个良好特性。仅应从观测中保留不变特征,而在持续分布变化下,变化部分将自然被遗忘。
在本文中,我们引入了一个密集神经SLAM框架来处理具有挑战性的动态场景。其核心思想是对两个模块进行持续学习:一个神经地图f(x; θtM),它将过去的观测数据提炼为一个连续的神经辐射场;以及一个二元分类器g(z; θtC),它根据编码特征z记录每个实例的运动状态(静态/动态)。这种持续学习的方式确保了在线适应场景几何形状、外观和物体运动状态的即时状态。两个模块都从连续观测中积累知识,并自动决定记忆和遗忘的内容。观测与地图之间的不一致区域将被识别出来,并不参与姿态估计和地图更新。通过对姿态、地图参数和物体运动状态的迭代优化,构建了一个在变化环境下对动态SLAM具有鲁棒性的框架。
推荐学习:
零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战]
下面一起来阅读一下这项工作~
1. 论文信息
标题:Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM
作者:Baicheng Li, Zike Yan, Dong Wu, Hanqing Jiang, Hongbin Zha
机构:北京大学、清华大学、商汤
原文链接:https://arxiv.org/abs/2407.13338v1
2. 摘要
由于隐式神经表征具有强大的表达能力以及持续学习的创新范式,基于隐式神经表征的同时定位与地图构建(Simultaneous Localization and Mapping, SLAM)技术受到了广泛关注。然而,在动态环境中部署此类系统尚未得到充分研究。即便对于传统算法而言,这样的挑战也是难以解决的,因为包含动态物体的不同视角观测会破坏几何和光度一致性,而这种一致性是联合优化相机姿态和地图参数的基础。在本文中,我们充分利用了持续学习的特点,为动态环境提出了一种新的SLAM框架。虽然过去的研究通过利用经验回放策略来避免灾难性遗忘,但我们却将遗忘视为一种理想特性。通过自适应控制回放缓冲区,可以轻松地通过遗忘来减轻移动物体引起的模糊性。我们通过引入一个持续学习的分类器来进行动态物体识别,从而限制了对动态物体的回放。神经地图和分类器的迭代优化显著提高了SLAM系统在动态环境下的鲁棒性。在具有挑战性的数据集上的实验验证了所提框架的有效性。
3. 效果展示
4. 主要贡献
总结而言,我们的主要贡献包括:
我们首次在具有挑战性的动态环境下部署了密集神经SLAM框架。所提出的方法能够在各种环境变化下实现可靠的运动分割、鲁棒的相机跟踪和便捷的地图更新。
我们提出了一种持续学习方法来更新记录环境中物体运动状态的分类器。该实例感知分类器适用于开放世界场景,并显示出正向和反向迁移的积极效果。此外,该模块还可以通过预训练整合关于潜在可移动实例的先验知识。
我们展示了持续学习的遗忘机制可以在环境变化下用于更新神经场景表示。
5. 基本原理是啥?
图2展示了我们的动态SLAM框架的概述。在实际应用中,将带有已知相机内参K的连续RGB-D图像序列{It,Dt}t=1^N作为输入,并持续更新神经辐射场f(x; θtM)以记忆环境的静态部分。在动态环境中,我们稳健的SLAM框架的关键在于持续学习的二分类器g(z; θtC)。通过识别由物体运动引起的不一致性,分类器将确定需要遗忘的过往知识。请注意,相机姿态ξt、神经地图θtM和运动状态分类器θtC的优化都依赖于渲染和观测RGB-D图像之间的差异。
如图3所示,这三个变量的紧密耦合使得优化本质上具有模糊性:任何变量的发散都会导致高差异。在本节中,我们首先通过体渲染引入光度和几何约束,然后介绍这些约束如何传播梯度以迭代优化相机姿态、地图和分类器参数。我们认为,通过地图和分类器的神经表示可以缓解这种模糊性,其中连续表示展现出良好的泛化能力,并强制进行时间上一致的预测。
6. 实验结果
如表1所示,与基于特征的DynaSLAM以及ReFusion和StaticFusion的密集SLAM系统相比,所提出的方法取得了更好的结果。通过所提出的运动状态分类器,动态物体所产生的影响得到了很好的缓解。
7. 总结 & 未来工作
在本文中,我们采用神经地图表示来解决动态SLAM问题。通过在线学习一个实例感知分类器,该分类器隐式地记录每个物体的运动状态,观测中的不变信息可以被连续地提炼到神经地图中,从而最大程度地缓解了动态物体造成的干扰。通过迭代优化相机姿态、地图和分类器参数,形成了一个在挑战性动态环境中鲁棒的SLAM框架。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉工坊知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、