专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

定位精度提高97.9%！TUM新作Gassidy：动态环境中的Gaussian Splatting SLAM

3D视觉工坊 · 公众号 · · 2024-11-28 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Gassidy: Gaussian Splatting SLAM in Dynamic Environments

作者：Long Wen, Shixin Li, Yu Zhang, Yuhong Huang, Jianjie Lin, Fengjunjie Pan, Zhenshan Bing, Alois Knoll

机构：TUM

原文链接：https://arxiv.org/abs/2411.15476

1. 导读

3D Gaussian Splatting (3DGS)允许灵活调整场景表示，从而在静态环境中的密集视觉同步定位和映射(SLAM)过程中实现场景质量的持续优化。然而，3DGS在处理不规则运动的动态对象的环境干扰方面面临挑战，导致相机跟踪精度和地图重建质量下降。为了应对这一挑战，我们开发了一种RGB-D稠密SLAM，称为动态环境中的高斯Splatting SLAM(gas sidy)。这种方法基于设计的光度几何损失函数计算高斯分布，以生成每个环境分量的渲染损失流。为了区分和过滤环境干扰，我们迭代地分析渲染损失流，以检测以动态对象和静态组件之间的损失值变化为特征的特征。该过程确保了用于精确场景重建的干净环境。与最先进的SLAM方法相比，在开放数据集上的实验结果表明，Gassidy将相机跟踪精度提高了97.9%，地图质量提高了6%。

2. 引言

密集视觉同步定位与地图构建（SLAM）以其展现复杂环境的能力而闻名，常用于移动机器人导航等任务。这些方法依赖于对静态环境的已知信息来构建精确地图。然而，移动机器人经常在动态环境中工作，其中不可预测的变化会降低SLAM的地图构建精度。因此，解决由动态环境变化带来的挑战对于提高SLAM在移动机器人任务中的有效性至关重要。

近年来，研究人员将神经辐射场（NeRF）融入SLAM中，以重建动态环境中的场景，因为NeRF能够捕捉复杂的光照效果和精细的表面细节。通过生成光流和采用语义分割，基于NeRF的方法擅长过滤掉挑战性动态环境中的干扰。然而，这些方法依赖于预定义的语义分割来处理动态变化，这往往无法捕捉到物体的不规则运动。

3D高斯溅射（3DGS）通过独立构建高斯分布来表示场景的不同区域，已成为解决这一问题的一种有前景的方案。这种方法允许将环境变化灵活地表示为特定区域内高斯分布的变化，从而无需预定义的语义掩码。尽管具有这些优势，该方法主要适用于处理静态环境中的光度变化和几何变化，但在准确捕捉场景中的动态物体方面面临挑战。

上述所有工作都集中在识别环境特征以重建场景上。然而，这些方法要么仅考虑静态环境，要么在处理动态环境变化时力不从心。其原因多种多样。首先，动态物体引起的干扰往往会导致场景重建时的过拟合，从而降低SLAM的准确性。其次，动态物体的变化是不可预测的，这限制了依赖于先验动态知识的语义的应用。第三，从细微运动的角度来看，变化微小的动态物体可能会被错误地识别为静态环境成分。推荐课程：零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战] 。

为解决这些挑战，本文提出了一种优化的基于3DGS的SLAM方法，该方法结合了渲染损失流来分析动态环境。我们将其命名为动态环境中的高斯溅射SLAM（Gassidy）。该方法旨在过滤掉动态物体的干扰，同时跟踪相机姿态并重建场景。

3. 效果展示

在fr3/walk_st场景中的TUM RGB-D数据集上，举例说明Gassidy与GS-SLAM(此处为GSS) [15]相比的性能。一行中的三个图像表示渲染深度、创建的高斯和渲染的RGB。

在来自BONN数据集的person_track场景中，我们的方法与其他基于3DGS的方法之间的大场景重建质量比较。红框突出了这些方法的缺陷。

4. 主要贡献

我们的贡献总结如下：

• 为解决动态物体引起的不可预测干扰，我们使用高斯分布分别覆盖物体和背景特征，以实例分割为指导。由动态物体引起的环境变化被表示为高斯分布的变化，而不是依赖于预定义的语义。

• 为区分由动态物体引起的高斯特征变化与静态环境中光度或几何变化引起的高斯特征变化，Gassidy基于设计的光度-几何损失函数计算高斯分布的渲染损失流，以捕捉动态变化。

• 为防止细微物体运动的误识别，迭代计算渲染损失流以更新相机姿态，通过分析损失值变化中的特征来放大微小物体变化与细微帧运动之间的区别，从而清晰识别和过滤动态物体。

• 与最先进的密集SLAM方法相比，Gassidy在使用广泛公开的数据集（“TUM RGBD”和“BONN Dynamic RGB-D”）时，实现了更高的相机姿态跟踪精度和更精细的映射质量场景重建。特别是，在应用Gassidy时，跟踪精度和映射质量可分别提高多达97.9%和6%。

5. 方法

Gassidy的架构如图2所示，我们的目标是跟踪相机姿态（Ri, ti）并使用输入图像Ci及其深度信息Di生成用于场景重建的清晰高斯图。跟踪过程首先从通过YOLO分割[18]生成的实例掩码Si中区分出物体Oi和背景Bi开始。集合Oi可能包含N个物体，每个物体都被分配一个对象ID j，第j个物体表示为Oi(j)，其中j ∈ [0,N]。具体而言，Oi包括静态和动态物体，其中动态物体容易被误识别并需要被过滤掉。为最大限度地减少对先验环境知识的依赖，我们初始化高斯分布GOi和GBi来分别表示物体和背景，而无需其动态特征的详细语义。随后，我们渲染这些高斯分布，并使用光度-几何损失函数计算渲染损失流。此过程支持我们过滤掉动态物体并优化相机姿态。详细过程在“动态对象修剪”部分中概述，该部分由红色虚线框标记。

在使用损失流过滤掉动态物体后，Gassidy计算一个对象级联合损失以优化相机姿态。随后，我们确定与前一帧相比发生显著变化的关键帧。一旦选择了关键帧，映射过程就通过构建当前可见区域来进行，同时从优化中排除修剪区域的渲染损失。当后续关键帧提供足够数据时，会重建修剪区域。最后，基于关键帧更新高斯分布的特征，并且Gassidy迭代重复此过程，直到处理完所有图像，从而得到一个没有动态物体干扰的清晰构建场景。

6. 实验结果

TUM数据集的结果如表I所示。

与GS-SLAM、SplaTAM和高斯-SLAM相比，Gassidy在均方根误差（RMSE）绝对轨迹误差（ATE）方面分别平均提高了90.9%、97.9%和95.6%，标准差分别提高了87.0%、98.8%和94.5%。因此，我们在基于三维几何结构（3DGS）的方法中始终表现出最佳性能。这是因为在这些方法中，动态物体可能会被视为受轻微相机运动影响的静态物体，从而降低跟踪准确性。相比之下，Gassidy通过迭代分析静态和动态物体的特征，可以放大静态和动态物体之间的差异，从而准确地对它们进行过滤。在基于神经辐射场（NeRF）的NICE-SLAM和RoDyn-SLAM方面，Gassidy在RMSE ATE方面分别平均提高了97.7%和36.6%，同时标准差分别降低了96.1%和43.5%。这是因为这些方法依赖于基于先验知识的详细语义分割。因此，它们无法准确过滤掉未包含在先验语义中的不可预测物体。相比之下，3DGS可以利用更多的输入样本来进行渲染损失计算和优化，从而获得更详细的信息和增强的性能。与稀疏SLAM方法ORB-SLAM3相比，Gassidy在RMSE ATE方面平均提高了83.5%，标准差降低了78.3%。与DynaSLAM相比，Gassidy在f3/wk_st和f3/st_hf场景中，RMSE ATE提高了14.3%。而DynaSLAM在f3/wk_xyz和f3/wk_hf场景中表现出25.9%的更好性能。值得注意的是，尽管DynaSLAM可能达到最高的跟踪性能，但它在映射过程中始终忽略了环境细节。

BONN数据集的结果如表II所示 。

在BONN数据集中得出的结论与TUM数据集相似。我们的方法显著优于其他基于3DGS的方法，在RMSE方面提高了82.7%，在标准差方面提高了84.3%。与基于NeRF的领域相比，我们的方法表现出更好的性能，平均提高了35.5%。与DynaSLAM相比，我们的方法仍然表现出相当的性能，在气球场景中表现出更好的性能（13.3%），证明了其先进的跟踪能力。在Gassidy中，我们有效地捕获和过滤了动态物体，使其能够与目标坐标系保持一致，并增强了相机跟踪。此外，如表I和II所示，Gassidy始终表现出最低的标准差，证明了其稳定性。为了进行详细分析，我们展示了fr3/wk_xyz和fr3/wk_hf的轨迹。Gassidy与GS-SLAM（第二好的方法）的比较表明，在动态物体移动后，这两种方法的跟踪准确性都会降低。在这种情况下，GS-SLAM由于动态物体的干扰而难以恢复。相比之下，Gassidy能够通过过滤掉动态物体而快速与真实情况重新对齐，从而提高相机跟踪精度。

7. 总结 & 未来工作

我们开发了一种称为Gassidy的密集RGB-D SLAM方法，该方法利用三维高斯表示来有效处理动态环境。为了处理不规则移动物体造成的干扰，我们计算了每个环境组件的渲染损失流。通过分析渲染损失流中的损失变化特征，Gassidy能够区分并过滤掉动态物体，从而构建一个具有准确相机跟踪的高质量场景。此外，我们的方法降低了对语义先验的依赖，因为仅需要对潜在动态物体进行实例分割，而无需事先了解其动态特征。我们未来的工作将侧重于提高对象级别的重建精度以及该方法在实时机器人应用中的效率。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。