0. 论文信息
标题:Scaffold-SLAM: Structured 3D Gaussians for Simultaneous Localization and Photorealistic Mapping
作者:Wen Tianci, Liu Zhiang, Lu Biao, Fang Yongchun
机构:Nankai University
原文链接:https://arxiv.org/abs/2501.05242
1. 导读
3D Gaussian Splatting (3DGS)最近在同步定位和映射(SLAM)中革新了新的视图合成。然而,利用3dg的现有SLAM方法未能同时为单目、立体和RGB-D相机提供高质量的新颖视图渲染。值得注意的是,一些方法对于RGB-D相机表现良好,但是对于单目相机,渲染质量显著下降。在本文中,我们介绍了Scaffold-SLAM,它提供了跨单目、立体和RGB-D相机的同步定位和高质量的真实感映射。我们引入了两项关键创新来实现这种最先进的视觉质量。首先,我们提出运动外观嵌入,使3D高斯模型能够更好地模拟不同相机姿态下的图像外观变化。其次,我们引入了一个频率正则化金字塔来指导高斯分布,允许模型有效地捕捉场景中更精细的细节。在单目、立体和RGB-D数据集上的大量实验表明,Scaffold-SLAM在照片级真实感映射质量方面明显优于最先进的方法,例如,在用于单目相机的TUM RGB-D数据集上,PSNR高出16.76%。
2. 效果展示
我们的方法Scaffold-SLAM以高画质实现逼真的映射,质量优于最先进的方法(GS-ICP SLAM),Photo-SLAM,SplaTAM,MonoGS),包括单目、立体和RGB-D相机。顶部:结果来自TUM RGB-D数据集的RGB-D相机。底部:左三幅图像来自Replica数据集的单目相机,右三幅来自EuROCMAV数据集的立体相机。质量上的明显差异由插图突出显示。
我们展示了我们的方法与RGB-D相机的最新方法的比较。顶部场景是来自复本数据集的rooo0,底部是来自TUM RGB-D数据集的fr3 office。插图突出了质量上的不明显差异。
3. 引言
视觉SLAM是三维计算机视觉领域的一个基础问题,广泛应用于自动驾驶、机器人技术、虚拟现实和增强现实等领域。SLAM旨在构建稠密或稀疏地图来表示场景。近年来,神经渲染[5]已被整合到SLAM流程中,显著提升了地图的场景表示能力。辐射场渲染领域的最新进展是三维高斯溅射(3DGS),这是一种显式场景表示方法,在渲染和训练速度方面取得了革命性的提升。最近结合3DGS的SLAM工作表明,与隐式表示相比,显式表示提供了更有前景的渲染性能。
然而,当前利用3DGS的SLAM方法尚未能在单目、立体和RGB-D相机上同时实现高质量渲染。大多数现有方法仅支持RGB-D相机。例如,SplaTAM[3]通过最小化图像和深度重建误差联合优化相机位姿和高斯分布,实现了RGB-D相机的定位和渲染。GS-SLAM推导出了使用RGB-D重渲染损失优化相机位姿跟踪和稠密建图的解析公式。RTG-SLAM[8]提出了一种高效的流程来生成紧凑的高斯表示,从而构建了一个实时的RGB-D系统。GS-ICP SLAM提出了一种新颖的稠密RGB-D SLAM方法,融合了广义迭代最近点(ICP)和3DGS。CG-SLAM采用了一种不确定性感知的3D高斯场来实现高效的RGB-D SLAM。
只有少数方法支持单目、立体和RGB-D相机。MonGS通过针对3D高斯分布的直接优化来制定3DGS的相机跟踪,允许所有三种类型的相机进行定位和逼真的映射。然而,其立体相机和单目相机之间的渲染质量差距显著。Photo-SLAM引入了一个解耦框架来优化3D高斯分布,实现了单目、立体和RGB-D相机的实时定位和逼真映射。虽然它在实时性能和单目与RGB-D相机之间的渲染质量差距方面表现出色,但其主要限制在于整体渲染质量。我们的工作旨在显著提高单目、立体和RGB-D相机的渲染精度。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
在本文中,我们提出了Scaffold-SLAM,这是一种新型SLAM系统,能够在单目、立体和RGB-D相机上实现同时定位和高质量的逼真映射。我们的方法与Photo-SLAM共享相同的解耦框架,其中我们使用传统的间接视觉SLAM流程进行定位和几何建图。生成的点云用于初始化结构化3D高斯分布。相反,我们引入了两项关键创新,使我们的方法能够在单目、立体和RGB-D相机上实现最先进的逼真映射质量。首先,我们提出了从运动到外观的嵌入(Appearance-from-Motion embedding),该嵌入在学习的低维潜在空间中建模外观变化,如曝光和照明。我们训练该嵌入以根据相机位姿预测不同图像中的外观变化。其次,我们提出了频率正则化金字塔,它在频率域中约束了多个尺度下渲染图像的频率。这促使3D高斯分布向复杂区域(如物体边缘和纹理)生长,从而使模型能够捕获场景中的高频细节。最后,为了评估我们方法的逼真映射质量,我们在包括单目、立体和RGB-D相机的多种数据集上进行了广泛的实验。实验结果表明,我们的方法Scaffold-SLAM在所有三种相机类型的逼真映射质量方面均超越了最先进的方法。
4. 主要贡献
本文的主要贡献如下:
我们开发了从运动到外观的嵌入,使我们的SLAM系统能够有效地建模不同图像中的图像外观变化。
我们提出了频率正则化金字塔,以引导3D高斯分布向复杂区域生长,从而捕获场景中的更精细细节。
在各种数据集上的广泛评估表明,我们的方法Scaffold-SLAM在保持竞争性的跟踪精度的同时,在单目、立体和RGB-D相机上实现了优越的逼真映射质量。代码将公开提供。
5. 方法
我们的方法支持单目、立体和RGB-D相机。输入图像流经由跟踪和几何映射模块处理,生成高质量的点云和精确位姿。这些点云被用于逐步构建高斯模型。位姿被输入到基于运动的外观嵌入模型中,以模拟环境中的光照和其他外观变化。此外,我们引入了频率正则化金字塔来监督高斯模型的训练,从而能够改进场景中高频细节的建模。
6. 实验结果
7. 总结 & 未来工作
在本文中,我们介绍了Scaffold-SLAM,这是一种为单目、立体和RGB-D相机实现高质量逼真映射的SLAM方法。我们通过将传统间接SLAM与结构化3D高斯表示相结合,探索了解耦方法的极限。大量实验表明,我们的方法在所有相机类型的渲染质量方面均超越了耦合方法。我们还重点介绍了两项关键创新:从运动到外观的嵌入和频率正则化金字塔,它们显著提升了逼真映射质量。通过结合从运动到外观的嵌入,我们的方法成功地从较少的训练视角预测了显著的外观变化。所提出的频率正则化金字塔有效地监督了3D高斯分布的优化和生长,从而能够建模更多的场景细节。未来的工作将专注于在不牺牲逼真映射质量的前提下,增强我们方法的实时性能。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球