专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

10 FPS！超真实的重建质量！单目3D GS SLAM最新SOTA来了！

3D视觉工坊 · 公众号 · · 2024-08-09 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

密集同时定位与地图构建（Simultaneous Localization and Mapping，SLAM）是计算机视觉领域的一个基本问题，在机器人技术、增强现实、虚拟现实等多个领域有着广泛的应用。对于所有这些现实世界的应用，任何SLAM系统都必须实时运行，并能够扩展到大型场景。此外，该系统还必须能够抵抗嘈杂的视觉传感器测量数据。

在传统密集SLAM系统中，突出的场景表示方法是三维点云。然而，点云是对世界的一种贫乏表示。作为一种稀疏表示，点云无法提供环境的水密性、逼真的照片级描述。最近，在SLAM文献中引入并研究了两种有前景的场景表示方法：神经辐射场（Neural Radiance Fields，NeRF）和高斯溅射（Gaussian Splatting）。

早期将NeRF作为唯一场景表示的密集SLAM研究实现了实时无相机姿态的三维重建。随后的一些研究结合了经典SLAM方法，如通过特征匹配进行跟踪、密集光束平差、闭环检测和全局光束平差。后来的研究通过结合NeRF以外的其他数据结构，采用现成的跟踪模块和单目深度估计，在性能上实现了若干改进。然而，NeRF存在渲染速度慢的问题；由于实时操作对于SLAM系统至关重要，因此缓慢的渲染速度使得NeRF在作为场景表示时处于不利地位。

随后，以下研究将高斯溅射作为场景表示：早期工作将高斯溅射作为唯一的场景表示，并实时跟踪和映射环境。

然而，将新视图合成方法同时用作跟踪和映射工具既具有吸引力又充满挑战。这种困难源于姿态和地图优化是联合进行的。为了解耦这两项艰巨的任务，采用了传统的SLAM方法，在重建方面展示了优于仅场景表示方法的性能。然而，这些研究要么缺乏密集的深度监督，要么帧率不高。

为此，我们引入了IG-SLAM，这是一个基于深度学习的密集SLAM系统，能够实现实时的照片级真实感3D重建。该系统具有鲁棒的姿态估计、精细的密集深度图和高斯溅射表示。该系统经常执行全局密集光束平差以减少漂移。由于密集SLAM系统优化的姿态和深度图往往存在噪声，我们利用深度不确定性使映射过程对噪声具有鲁棒性。我们高效的映射算法经过专门优化，可与密集深度图协同工作，从而使系统能够以高帧率运行。我们在各种室内RGB序列上进行了大量实验，证明了该方法的鲁棒性、快速操作速度和可扩展性。

下面一起来阅读一下这项工作~

1. 论文信息

标题：IG-SLAM: Instant Gaussian SLAM

作者：Furkan Aykut Sarikamis, Abdullah Aydin Alatan

机构：METU

原文链接：https://arxiv.org/abs/2408.01126

2. 摘要

在SLAM系统中，3D高斯溅射（Gaussian Splatting）作为神经隐式表示的一种替代场景表示方法，最近展现出了令人鼓舞的结果。然而，当前的方法要么缺乏用于监督映射过程的密集深度图，要么缺乏考虑环境尺度的详细训练设计。为了克服这些缺点，我们提出了IG-SLAM，这是一个仅使用密集RGB的SLAM系统，该系统采用稳健的Dense-SLAM方法进行跟踪，并将其与高斯溅射相结合。利用跟踪提供的精确姿态和密集深度信息，构建了环境的3D地图。此外，我们在地图优化中利用深度不确定性来改善3D重建。我们在地图优化中采用的衰减策略增强了收敛性，并允许系统以单进程方式以10 fps的速度运行。我们展示了与最先进的仅RGB SLAM系统相当的性能，同时实现了更快的运行速度。我们在Replica、TUM-RGBD、ScanNet和EuRoC数据集上进行了实验。该系统在大规模序列中实现了逼真的3D重建，特别是在EuRoC数据集中。

3. 效果展示

4. 主要贡献

我们的贡献如下：

• 我们提出了IG-SLAM，这是一种高效的密集RGB SLAM系统，能够以高帧率运行，即使在挑战性条件下也能提供可扩展性和鲁棒性。

• 一种新颖的3D重建算法，该算法考虑了深度不确定性，使3D重建对噪声具有鲁棒性。

• 一种训练程序，旨在使映射过程中的密集深度监督尽可能高效。

5. 基本原理是啥？

我们在图2中概述了所提出的方法。我们的跟踪算法会为每个关键帧生成密集的深度图、深度不确定性以及相机姿态。然后将这些输出用于监督我们的映射算法。高斯函数会根据相机姿态和密集深度进行初始化，并通过颜色和加权深度损失进行优化。通过关键帧的滑动窗口实现实时操作。

6. 实验结果

7. 限制性 & 总结

在全分辨率下进行密集捆集调整是不可行的。因此，密集深度图在低分辨率下进行优化，然后上采样回原始分辨率。我们观察到，这种上采样操作会导致边缘模糊。因此，利用上采样的密集深度图来监督系统，会在深度发生急剧变化的位置导致性能不佳。

我们展示了来自鲁棒密集SLAM方法的深度监督极大地提高了三维重建性能。此外，将深度不确定性用作高斯初始化的掩码和深度损失的权重有助于映射过程。我们还强调了稀疏和密集高斯初始化之间的细微差别及其对映射优化的影响。我们的实验表明，即使在相对较大的场景中，基于密集SLAM的三维重建也能提供最先进的视觉质量和较高的帧率。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「 3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码