专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

超精几何纹理！RGBDS-SLAM：基于3D高斯分布的RGBD稠密语义SLAM

3DCV · 公众号 · · 2024-12-09 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：RGBDS-SLAM: A RGB-D Semantic Dense SLAM Based on 3D Multi Level Pyramid Gaussian Splatting

作者：Zhenzhong Cao, Chenyang Zhao, Qianyi Zhang, Jinzheng Guang, Yinuo Song Jingtai Liu

机构：Nankai University

原文链接：https://arxiv.org/abs/2412.01217

代码链接：https://github.com/zhenzhongcao/RGBDS-SLAM

1. 导读

高质量的重建对密集SLAM至关重要。最近流行的方法利用3D高斯分布(3D GS)技术进行场景的RGB、深度和语义重建。然而，这些方法经常忽略场景不同部分的细节和一致性问题。为了解决这个问题，我们提出了RGBDS-SLAM，这是一个基于3D多级金字塔高斯分布的RGB-D语义密集SLAM系统，它能够实现场景RGB、深度，我们引入了一种3D多层金字塔高斯分布方法，该方法通过提取用于高斯分布训练的多层图像金字塔来恢复场景细节，确保RGB、深度和语义重建的一致性。此外，我们设计了一种紧耦合的多特征重建优化机制，允许RGB、深度和语义图的重建精度在渲染优化过程中相互增强。在副本和ScanNet公共数据集上的大量定量、定性和消融实验表明，我们提出的方法优于当前最先进的方法。

2. 引言

视觉SLAM（Simultaneous Localization and Mapping）是机器人学领域的一个基础问题，旨在解决机器人同时定位与构建周围环境地图的问题。稠密建图是视觉SLAM的重要组成部分；一方面，它使机器人能够更全面地感知周围环境；另一方面，它为抓取、操作和交互等下游任务提供了基础地图。然而，传统的稠密视觉SLAM仅依赖点云来重建场景，由于点的数量有限且分布不连续，它面临着重大瓶颈，无法实现环境的高保真重建。

随着神经辐射场（Neural Radiance Fields，NeRF）的出现，基于隐式神经辐射场的场景表示逐渐流行起来。通过训练，重建精度显著提高，许多方法将NeRF融入SLAM，实现了高精度RGB、深度和语义重建。然而，NeRF本身存在训练时间长、渲染速度慢等问题，这意味着基于NeRF的SLAM解决方案无法实时运行，这与SLAM的初衷相悖。

3D高斯球（Gaussian Sphere，GS）技术以其高效的优化框架和实时渲染能力，改善了NeRF的不足之处。因此，许多基于3D GS的SLAM解决方案应运而生。然而，这些方法通常仅使用原始图像特征进行训练，这些特征不足以充分捕捉某些场景部分的精细细节，导致重建一致性较差。此外，在进行多特征重建时，这些方法没有通过合理的约束有效地融合和优化特征，从而无法使其相互增强。

为解决细节恢复不足、重建一致性差、多特征信息融合无效以及重建实时性等关键问题，本文提出了RGBDS-SLAM算法。首先，我们引入了一种3D多级金字塔高斯溅射（Multi-Level Pyramid Gaussian Splatting，MLP-GS）方法，该方法构建了多级图像金字塔，以在不同分辨率层次上提取丰富的细节信息，并进行高斯溅射训练。该方法显著提高了场景的细节恢复能力，并通过跨层次的逐步优化，确保了重建过程中的全局一致性有效，为复杂场景的精确恢复提供了坚实基础。其次，我们设计了一种紧密耦合的多特征重建优化（Tightly Coupled Multi-Features Reconstruction Optimization，TCMF-RO）机制，该机制通过各种约束合理地耦合RGB、深度和语义特征。在渲染优化过程中，这三种特征协同作用、相互促进。语义信息增强了深度理解，深度信息支持语义细化，同时优化了RGB渲染的真实感和一致性，从而全面提高了重建的准确性和可靠性。最后，我们开发了一个完整的RGB-D语义稠密SLAM系统，实现了场景RGB颜色、深度信息和语义颜色的高质量稠密重建。该系统基于当前的经典ORB-SLAM3算法，能够实时处理复杂场景，满足在线应用对速度和准确性的双重要求。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

3. 主要贡献

本文的主要贡献如下：

• 我们引入了3D多级金字塔高斯溅射（MLP-GS）方法，该方法通过多级图像金字塔进行高斯溅射训练，以恢复场景细节，并确保重建期间的一致性。

• 我们设计了紧密耦合的多特征重建优化（TCMF-RO）机制，该机制在优化渲染过程中促进了RGB、深度和语义地图重建精度的相互提升。

• 我们开发了一个完整的RGB-D语义稠密SLAM系统，该系统能够高质量地稠密重建场景的RGB、深度和语义信息，并且系统可以实时运行。本文一旦接受，我们将开源我们的代码。

4. 方法

图1展示了所提出的RGBDS-SLAM的总体框架，该框架基于ORB-SLAM3 [6]。该系统以RGB、深度和语义帧作为输入数据，并输出包含点图、高斯原图和高斯语义图的地图数据库。它主要由四个线程组成：跟踪线程、局部建图线程、高斯建图线程和回环检测线程。这些线程之间的具体数据流如下：

跟踪线程：接收RGB-D帧数据，并估计当前帧的相机位姿。

局部建图线程：接收跟踪线程提供的初始位姿，判断是否可以创建新的关键帧，如果可以，则创建新的关键帧和地图点，优化局部地图，并更新点云地图。

高斯建图线程：接收局部建图线程创建的新关键帧和地图点数据，将其转换为3D高斯基元（包括位置、颜色、语义、深度、不透明度等），然后执行3D多级金字塔高斯溅射操作。最后，通过紧密耦合的多特征重建优化机制更新高斯原图和高斯语义图。

回环检测线程：从地图中接收新的关键帧数据，执行回环检测，如果检测到回环，则执行全局优化并更新整个地图。

多层次图像金字塔结构。在训练过程中，自上而下进行，图像的分辨率逐渐增加。先用低分辨率进行快速初始化，再逐步完善细节。

5. 实验结果

表I展示了我们在Replica数据集的8个序列上，使用本文方法与基线方法在RGB重建质量方面的量化对比。可以看出，本文方法在RGB重建质量方面表现良好，特别是在PSNR和LPIPS指标上取得了最佳结果，超越了当前最先进的方法。与次优结果相比，本文方法在PSNR上提高了11.13%，在LPIPS上提高了68.57%。这一提升得益于本文方法中引入了3D多级金字塔高斯溅射，与SGS-SLAM和Photo-SLAM相比，它能更好地恢复场景细节。本文方法在SSIM上也取得了具有竞争力的次优性能。

表II展示了在Replica数据集的8个序列上，本文方法与基线方法在深度、ATE和FPS指标上的平均量化对比。本文方法在深度和FPS指标上都表现出具有竞争力的性能。ATE性能接近Photo-SLAM，因为我们直接使用了ORB-SLAM3的跟踪模块，没有进行进一步优化。与SGS-SLAM（使用Python代码实现）相比，本文方法在Tracking FPS和Mapping FPS方面也取得了更好的性能，这使得我们的系统能够实时运行。

表III展示了在Replica数据集的4个序列上，本文方法与基线方法在语义图像重建质量方面的量化对比。与当前表现最佳的SGS-SLAM相比，本文方法实现了94.32的平均mIoU，更高一筹。

图3展示了在Replica数据集的8个序列上随机渲染的RGB图像的定性结果。可以看出，本文方法能够准确恢复场景中的精细细节，如小数字、纹理和边界。此外，图4展示了在Replica数据集的office0序列上，本文方法渲染的深度图像与真实深度图像的定性对比结果。值得一提的是，即使输入的深度图像存在缺失区域，本文方法仍然能够渲染出这些区域的深度信息，并与周围的深度信息保持良好的一致性。

6. 总结

在这篇论文中，我们提出了RGBDS-SLAM，这是一个完整的RGB-D语义密集SLAM系统，专注于高斯映射。我们首先介绍了一种三维多级金字塔高斯平铺方法，用于重建场景的细节和一致性。我们还设计了一种紧密耦合的多特征重建优化机制，促进RGB深度和语义特征的优化，相互增强。实验也证明了我们提出的方法的有效性和可扩展性。然而，我们还没有考虑动态场景的问题。稳健地重建动态场景中的RGB、深度和语义信息将是我们未来工作的重点。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球