0. 论文信息
标题:V3D-SLAM: Robust RGB-D SLAM in Dynamic Environments with 3D Semantic Geometry Voting
作者:Tuan Dang, Khang Nguyen, Mandfred Huber
机构:University of Texas at Arlington
原文链接:https://arxiv.org/abs/2410.12068
代码链接:https://github.com/tuantdang/v3d-slam
1. 摘要
高度动态环境下的同步定位与地图创建(SLAM)是一项具有挑战性的工作,因为运动物体和摄像机姿态之间存在复杂的关联。已经提出了许多方法来处理这个问题;然而,动态物体的运动特性仍然不清楚。因此,为了提高SLAM的性能,需要通过对对象的3D形状和动态的物理理解来最小化移动对象的破坏性事件。在本文中,我们提出了一种鲁棒的方法V3D-SLAM,通过两个轻量级的重新评估阶段来去除运动对象,包括使用空间推理Hough投票机制识别潜在的运动和静态对象,以及通过使用倒角距离作为相似性度量来检测由对象内运动引起的动态噪声来细化静态对象。我们在TUM RGB-D基准上对具有地面真实相机轨迹的动态序列进行的实验表明,我们的方法优于最新的SLAM方法。
2. 引言
视觉同时定位与地图构建(vSLAM)是机器人学领域的一项重要研究,它本质上依赖于相机提供的视觉信息来实现自我定位并构建环境地图。随着低成本相机的出现,vSLAM吸引了研究界的极大关注,尤其是基于RGB-D的SLAM,因其可用性和对室内场景的适用性而成为最受欢迎的选择之一。已提出了一系列杰出的工作,如Dense-SLAM和ORB-SLAM;然而,这些方法与传统的SLAM方法一样,都隐含地假设环境是静态的,即帧间提取的关键点会进行匹配,从而在物体和相机同时移动时往往无法处理动态场景。
尽管vSLAM借助计算机视觉领域的最新进展(尤其是深度神经网络)得到了广泛研究,但由于环境的动态性,一些问题仍未得到妥善解决。DS-LAM使用分割模型和光流来检测移动物体,并将这些移动物体视为需要去除的噪声。TRS-SLAM通过k均值聚类对深度图像进行分割来处理训练数据集上的物体,同时也能处理未知物体,无需先验知识。CFP-SLAM检测移动物体,并使用卡尔曼滤波器和匈牙利算法来补偿对象的漏检。这些方法在动态环境中获得了高精度,并且在TUM RGB-D基准测试上取得了最先进的结果。虽然DefSLAM使用参数化模板来跟踪可变形物体,但该方法仅限于与模板匹配的一小部分物体,而我们正在寻求一种非参数化方法来检测可变形物体,从而为检测内部移动物体铺平道路。
然而,这些方法的不足之处在于将移动物体表示为分割块或边界框的中心点,这些中心点在不同的视角下容易失真。当这些方法失效的另一种情况是,当只有物体的一部分移动时。即便如此,物体的中心位置仍保持不变(例如,一个人摇头但不从一处移动到另一处,或旋转一张旋转椅)。物体内部的这些运动会给特征提取器带来显著的噪声,导致帧间特征不一致,并最终导致相机姿态估计错误。
为解决上述问题,我们提出了V3D-SLAM,通过将深度投影到点云并分析其三维形状和几何结构来区分移动物体和静态物体。V3D-SLAM首先通过一帧中三维物体的拓扑结构利用一种新颖的霍夫投票机制来识别潜在的移动物体,从而得到两组物体(静态物体和移动物体),进而通过分析静态物体内部的移动部分,并使用Chamfer距离测量相似性来寻找移动部分。
3. 效果展示
巴克斯特机器人(上方)的运动序列及其基于估计的相机轨迹生成的重建3D场景(下方)。
红线表示经过优化后的估计相机轨迹,橙色截头锥体标记了轨迹上的相机姿态。
使用我们的方法和CFP-SLAM估计的TUM RGB-D动态序列相机轨迹的定性结果。其中,真实轨迹、估计轨迹及其差异分别用黑线、蓝线和红线表示。
4. 方法
图1展示了V3D-SLAM的概览,该系统旨在提升动态RGB-D SLAM(即时定位与地图构建)的鲁棒性。在连续两帧图像之间,我们首先会从场景中剔除潜在的运动物体,以获得包含背景的静态物体,随后对分割出的实例进行点云重建。
推荐课程:
零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战]
。
分割模型的不确定性引起的噪声会在实例点云中产生不属于物体的碎片(见图3),这些碎片会轻微偏移点云的中心,并显著影响对潜在运动物体的投票。
为避免这些歧义,我们在确定实例的空间中心之前,通过统计方法在实例层面去除离群点,以消除分割引起的伪影。因此,基于两帧之间三维物体的拓扑结构,我们实现了投票机制(见图4),该机制利用物体自身的几何和空间信息来识别运动物体以及其他呈现出的实体。
在许多室内动态环境中,大型物体的中心并不会逐帧改变,但其某些部分可能会发生位移,从而在序列中引入另一种噪声。为了识别这些物体内部的动态变化,我们通过物体变形来跟踪和计算三维物体的相似性,而不是通过物体在图像平面上的相对位移,因为后者在不同视角下会存在误差和畸变。在此跟踪过程中,基于物体运动的物理约束,我们假设在识别出每个运动物体后,物体在极短时间内(30帧每秒序列中的两帧之间)将保持同向运动,以补偿物体的漏检或物体超出视野的情况。同时,我们使用ORB在未遮挡区域提取像素级特征,用于相机位姿估计,随后使用位姿图优化(PGO)进行相机轨迹优化。
5. 实验结果
6. 总结 & 未来工作
本文提出了一种名为V3D-SLAM的技术,该技术通过去除由环境动态性引起的噪声,来可靠地估计和重建相机轨迹。我们使用最新的RGB图像物体分割技术在像素层面识别动态物体,并利用三维域中的几何信息对其进行细化。除了使用霍夫投票在三维空间中识别运动物体外,我们还使用Chamfer距离检测可变形物体,以排除其内部变化对特征提取器造成的噪声。为了验证所提方法的鲁棒性,我们在TUM RGB-D基准数据集上进行了实验,并将所提方法与最新的SLAM技术进行了比较。实验结果表明,在ATE(绝对轨迹误差)以及旋转和平移RPE(相对位姿误差)指标方面,我们的方法大多优于其他方法。通过部署该方法,Baxter机器人能够执行RGB-D SLAM及其相关操作。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「3D视觉从入门到精通」知识星球