专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

超越全部GS SLAM！上交开源MotionGS：全面提升定位、建图、内存、速度

计算机视觉工坊 · 公众号 · · 2024-06-04 10:41

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊 | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

同时定位与建图（SLAM）的主要目的是在未知环境中实现实时定位和同时建图。这项技术在自动驾驶、无人系统、虚拟现实和增强现实等多个领域发挥着至关重要的作用。近年来，SLAM领域在定位精度和速度方面取得了显著进展。然而，最近的关注点转向了场景表示和理解。这一转变催生了众多以地图为中心的SLAM。传统地图中心SLAM的场景表示包括点云或表面元素、网格、体素。作为SLAM系统的关键组件，映射方法的选择不仅决定了系统的整体设计，还定义了其功能。在稠密视觉SLAM方面，这些经典的地图中心方法无法实现高保真表示，也无法重建精细纹理和重复场景。最近，神经辐射场（NeRF）在SLAM领域引起了极大关注。NeRF是一种具有隐式场景表示的新型视图合成方法，具有照片级真实感和极低的内存使用量。随着NeRF的不断发展，基于NeRF的稠密SLAM方法大量涌现。然而，基于NeRF的稠密SLAM方法都依赖于基于光线的体积渲染，这既耗时又不可靠。作为一种新的场景表示，三维高斯分布（3DGS）使用三维高斯作为基本单元来显式表示场景，实现了与NeRF相当的渲染效果，同时提供了更快的优化和渲染速度。最近提出的方法表明，3DGS非常适合作为SLAM系统中的映射方法。

本文提出了一种基于3DGS的新型稠密SLAM方法，名为MotionGS。该方法整合了深度特征提取、双关键帧选择和3DGS。在跟踪线程中，我们从每张图像中提取深度特征，通过运动滤波器获取运动关键帧，并采用针对3DGS的直接位姿优化来减少处理帧数并提高跟踪性能。在建图线程中，我们设计了一种新的损失函数和双关键帧选择策略，以在diff-gaussian-rasterization框架内同时优化关键帧位姿和3D高斯。跟踪和建图线程中的双重优化实现了由粗到细的位姿优化并减少了存储需求。对室内RGB-D数据集的大量评估表明，我们的方法在跟踪、渲染和建图方面达到了最先进的性能。

下面一起来阅读一下这项工作~

1. 论文信息

标题：MotionGS : Compact Gaussian Splatting SLAM by Motion Filter

作者：Xinli Guo, Peng Han, Weidong Zhang, Hongtian Chen

机构：上海交通大学

原文链接：https://arxiv.org/abs/2405.11129

代码链接：https://github.com/Antonio521/MotionGS

2. 摘要

凭借其高保真场景表示能力，Neural Radiation Field (NeRF) 和 3D Gaussian Splatting (3DGS) 深深吸引了 SLAM 领域的注意。最近，基于 NeRF 的 SLAM 激增，而基于 3DGS 的 SLAM 则较为稀少。本文提出了一种结合深度视觉特征、双关键帧选择和 3DGS 的新型 3DGS 基 SLAM 方法。与现有方法相比，所提出的选择性跟踪通过每帧的特征提取和运动滤波来实现。位姿和 3D 高斯的联合优化贯穿整个映射过程。此外，通过双关键特征选择和新颖的损失函数实现了由粗到细的位姿估计和紧凑的高斯场景表示。实验结果表明，所提出的算法不仅在跟踪和映射方面优于现有方法，而且占用更少的内存。

3. 效果展示

4. 主要贡献

1. 提出了一种基于3DGS的新型稠密视觉SLAM方法，该方法整合了深度特征提取、双关键帧选择和3DGS。不仅实现了准确的实时跟踪和高保真重建，还支持RGB和RGB-D输入。

2. 设计了一种新的双关键帧策略和新的损失函数，以在降低内存消耗的同时提高跟踪精度并保持渲染质量。

3. 我们的方法在Replica和TUM-RGBD数据集上实现了跟踪、建图的最先进性能，并且在内存使用量更少的情况下以2.5 fps的速度运行。

5. 基本原理是啥？

MotionGS概述。MotionGS在每个时间步的输入是当前的RGB-D/RGB图像。经过运动滤波器后，基于GT与渲染结果之间的光度误差直接进行运动关键帧的姿态优化。在信息滤波器之后，映射线程对滑动窗口和随机历史帧中的关键帧姿态和3D场景几何进行联合优化。最后，场景被精细化。

MotionGS主要由两部分组成：跟踪和高斯密集建图。每个部分作为独立线程运行，并互相通信，共同构建高保真密集重建地图。

跟踪

跟踪线程负责双关键帧策略：运动关键帧和信息关键帧。运动关键帧主要用于跟踪目的，而信息关键帧对于映射至关重要。

跟踪线程对每一帧图像进行特征提取和运动滤波。它根据前一帧的运动关键帧更新当前运动关键帧的初始姿态，然后最小化地面真实图像与渲染图像之间的光度误差。最后，跟踪线程持续更新和维护信息关键帧的滑动窗口。

建图

建图线程负责三维场景几何和关键帧姿态的联合优化，以及实时渲染。作为跟踪和映射线程交互的主要内容，信息关键帧滑动窗口直接用于映射线程中滑动窗口的三维场景几何和关键帧姿态的联合优化。利用pytorch中的Adam优化器，并展示了渲染图像和真实照片之间的映射损失loss如下。

其中m表示滑动窗口的大小，即用于计算窗口内光度损失的帧数；n表示随机选择的历史帧数；scale表示渲染比例。

除一般的分割和剪枝外，还将定期进行场景的颜色细化。跟踪完成后，类似SfM，建图线程中将对整个场景进行细化。在场景细化中，多余的高斯将被移除，并相应地减小场景模型的大小。

6. 实验结果

表1显示了TUM数据集上所有上述方法的ATE指标。在RGBD设置中，MotionGS已经超过了基于3DGS的SLAM和基于NeRF的SLAM的最新方法，在fr1和fr3场景中，仅略逊于fr2场景中的基线方法。在单目设置中，MotionGS优于MonoGS，后者也适用于单目设置，但与DROID-SLAM和ORB-SLAM2相比仍然表现出更高的误差，这是由于缺乏闭环检测和全局BA。这表明了闭环检测和全局BA在增强SLAM方法的定位精度方面的关键作用，以及它们在3DGS环境中的潜力。

表2给出了Replica数据集上所有上述方法的ATE指标。尽管基线方法已经实现了显著的毫米级精度，MotionGS仍然具有竞争力，在八个场景中有五个场景超越了基线方法。在o0和r0场景中，最佳方法在ATE上仅比MotionGS高出0.14厘米。表1和表2中显示的优秀性能主要归因于粗到精的姿态估计设计和姿态与高斯的联合优化。

表3显示了MotionGS在Replica数据集上的渲染性能，与NICE-SLAM、Point-SLAM、MonoGS、SplaTAM和GS-SLAM进行了比较。结果显示，与最新的基于NeRF的SLAM相比，基于3DGS的SLAM具有竞争力的渲染性能。此外，MotionGS在每个场景上都获得了最佳的PSNR和LPIPS，优于当前最先进的基于3DGS的SLAM。虽然MotionGS的SSIM指标并非在每个场景上都达到最佳性能，但所有SSIM指标的平均值排名第一。这些数据集中的场景可视化结果显示在图2和图3中。与基线方法相比，MotionGS实现了更高的保真度和更多的场景细节。我们的渲染效果具有更好的细节表示能力，这一点通过时钟、花盆、壁画、书籍等得到了证明。

消融实验结果显示在表4和表5中。显然，特征选择对MotionGS的跟踪精度产生了深远影响，从而凸显了双特征选择策略的优势。此外，如表2所示，SplaTAM的存储内存接近0.5GB，而MotionGS的存储内存小于50MB。遮罩损失有效地减少了场景表示中使用的高斯数量，使其与SplaTAM相比成为更高效的解决方案。

7. 总结 & 未来工作

本研究提出了一种名为MotionGS的基于3DGS的SLAM，它集成了深度视觉特征、双关键帧选择和3DGS。通过其精致的设计，MonoGS的最新性能在大量实验中得到了充分展示。所提出的方法进一步强调了3DGS在SLAM领域的广泛潜力。基于这项工作，针对大规模户外场景的多传感器3DGS-based SLAM将成为下一个研究重点。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉工坊官网： www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等