专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

PSNR暴涨16.76%！Scaffold-SLAM：结构化3D GS革新SLAM！

3D视觉工坊 · 公众号 · · 2025-01-13 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Scaffold-SLAM: Structured 3D Gaussians for Simultaneous Localization and Photorealistic Mapping

作者：Wen Tianci, Liu Zhiang, Lu Biao, Fang Yongchun

机构：Nankai University

原文链接：https://arxiv.org/abs/2501.05242

1. 导读

3D Gaussian Splatting (3DGS)最近在同步定位和映射(SLAM)中革新了新的视图合成。然而，利用3dg的现有SLAM方法未能同时为单目、立体和RGB-D相机提供高质量的新颖视图渲染。值得注意的是，一些方法对于RGB-D相机表现良好，但是对于单目相机，渲染质量显著下降。在本文中，我们介绍了Scaffold-SLAM，它提供了跨单目、立体和RGB-D相机的同步定位和高质量的真实感映射。我们引入了两项关键创新来实现这种最先进的视觉质量。首先，我们提出运动外观嵌入，使3D高斯模型能够更好地模拟不同相机姿态下的图像外观变化。其次，我们引入了一个频率正则化金字塔来指导高斯分布，允许模型有效地捕捉场景中更精细的细节。在单目、立体和RGB-D数据集上的大量实验表明，Scaffold-SLAM在照片级真实感映射质量方面明显优于最先进的方法，例如，在用于单目相机的TUM RGB-D数据集上，PSNR高出16.76%。

2. 效果展示

我们的方法Scaffold-SLAM以高画质实现逼真的映射，质量优于最先进的方法(GS-ICP SLAM)，Photo-SLAM，SplaTAM，MonoGS)，包括单目、立体和RGB-D相机。顶部:结果来自TUM RGB-D数据集的RGB-D相机。底部:左三幅图像来自Replica数据集的单目相机，右三幅来自EuROCMAV数据集的立体相机。质量上的明显差异由插图突出显示。

我们展示了我们的方法与RGB-D相机的最新方法的比较。顶部场景是来自复本数据集的rooo0，底部是来自TUM RGB-D数据集的fr3 office。插图突出了质量上的不明显差异。

3. 引言

视觉SLAM是三维计算机视觉领域的一个基础问题，广泛应用于自动驾驶、机器人技术、虚拟现实和增强现实等领域。SLAM旨在构建稠密或稀疏地图来表示场景。近年来，神经渲染[5]已被整合到SLAM流程中，显著提升了地图的场景表示能力。辐射场渲染领域的最新进展是三维高斯溅射（3DGS），这是一种显式场景表示方法，在渲染和训练速度方面取得了革命性的提升。最近结合3DGS的SLAM工作表明，与隐式表示相比，显式表示提供了更有前景的渲染性能。

然而，当前利用3DGS的SLAM方法尚未能在单目、立体和RGB-D相机上同时实现高质量渲染。大多数现有方法仅支持RGB-D相机。例如，SplaTAM[3]通过最小化图像和深度重建误差联合优化相机位姿和高斯分布，实现了RGB-D相机的定位和渲染。GS-SLAM推导出了使用RGB-D重渲染损失优化相机位姿跟踪和稠密建图的解析公式。RTG-SLAM[8]提出了一种高效的流程来生成紧凑的高斯表示，从而构建了一个实时的RGB-D系统。GS-ICP SLAM提出了一种新颖的稠密RGB-D SLAM方法，融合了广义迭代最近点（ICP）和3DGS。CG-SLAM采用了一种不确定性感知的3D高斯场来实现高效的RGB-D SLAM。

只有少数方法支持单目、立体和RGB-D相机。MonGS通过针对3D高斯分布的直接优化来制定3DGS的相机跟踪，允许所有三种类型的相机进行定位和逼真的映射。然而，其立体相机和单目相机之间的渲染质量差距显著。Photo-SLAM引入了一个解耦框架来优化3D高斯分布，实现了单目、立体和RGB-D相机的实时定位和逼真映射。虽然它在实时性能和单目与RGB-D相机之间的渲染质量差距方面表现出色，但其主要限制在于整体渲染质量。我们的工作旨在显著提高单目、立体和RGB-D相机的渲染精度。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

在本文中，我们提出了Scaffold-SLAM，这是一种新型SLAM系统，能够在单目、立体和RGB-D相机上实现同时定位和高质量的逼真映射。我们的方法与Photo-SLAM共享相同的解耦框架，其中我们使用传统的间接视觉SLAM流程进行定位和几何建图。生成的点云用于初始化结构化3D高斯分布。相反，我们引入了两项关键创新，使我们的方法能够在单目、立体和RGB-D相机上实现最先进的逼真映射质量。首先，我们提出了从运动到外观的嵌入（Appearance-from-Motion embedding），该嵌入在学习的低维潜在空间中建模外观变化，如曝光和照明。我们训练该嵌入以根据相机位姿预测不同图像中的外观变化。其次，我们提出了频率正则化金字塔，它在频率域中约束了多个尺度下渲染图像的频率。这促使3D高斯分布向复杂区域（如物体边缘和纹理）生长，从而使模型能够捕获场景中的高频细节。最后，为了评估我们方法的逼真映射质量，我们在包括单目、立体和RGB-D相机的多种数据集上进行了广泛的实验。实验结果表明，我们的方法Scaffold-SLAM在所有三种相机类型的逼真映射质量方面均超越了最先进的方法。

4. 主要贡献

本文的主要贡献如下：

我们开发了从运动到外观的嵌入，使我们的SLAM系统能够有效地建模不同图像中的图像外观变化。

我们提出了频率正则化金字塔，以引导3D高斯分布向复杂区域生长，从而捕获场景中的更精细细节。

在各种数据集上的广泛评估表明，我们的方法Scaffold-SLAM在保持竞争性的跟踪精度的同时，在单目、立体和RGB-D相机上实现了优越的逼真映射质量。代码将公开提供。

5. 方法

我们的方法支持单目、立体和RGB-D相机。输入图像流经由跟踪和几何映射模块处理，生成高质量的点云和精确位姿。这些点云被用于逐步构建高斯模型。位姿被输入到基于运动的外观嵌入模型中，以模拟环境中的光照和其他外观变化。此外，我们引入了频率正则化金字塔来监督高斯模型的训练，从而能够改进场景中高频细节的建模。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们介绍了Scaffold-SLAM，这是一种为单目、立体和RGB-D相机实现高质量逼真映射的SLAM方法。我们通过将传统间接SLAM与结构化3D高斯表示相结合，探索了解耦方法的极限。大量实验表明，我们的方法在所有相机类型的渲染质量方面均超越了耦合方法。我们还重点介绍了两项关键创新：从运动到外观的嵌入和频率正则化金字塔，它们显著提升了逼真映射质量。通过结合从运动到外观的嵌入，我们的方法成功地从较少的训练视角预测了显著的外观变化。所提出的频率正则化金字塔有效地监督了3D高斯分布的优化和生长，从而能够建模更多的场景细节。未来的工作将专注于在不牺牲逼真映射质量的前提下，增强我们方法的实时性能。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球