专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
DearAuto  ·  DeepSeek都要推荐的好车——“Dear ... ·  19 小时前  
百车全说  ·  集合!刀客们~快来三刀的朋友圈玩 ·  昨天  
大家车言论  ·  这位大长辈,和年轻人打成一片了 ·  4 天前  
51好读  ›  专栏  ›  3D视觉工坊

PSNR暴涨16.76%!Scaffold-SLAM:结构化3D GS革新SLAM!

3D视觉工坊  · 公众号  ·  · 2025-01-13 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Scaffold-SLAM: Structured 3D Gaussians for Simultaneous Localization and Photorealistic Mapping

作者:Wen Tianci, Liu Zhiang, Lu Biao, Fang Yongchun

机构:Nankai University

原文链接:https://arxiv.org/abs/2501.05242

1. 导读

3D Gaussian Splatting (3DGS)最近在同步定位和映射(SLAM)中革新了新的视图合成。然而,利用3dg的现有SLAM方法未能同时为单目、立体和RGB-D相机提供高质量的新颖视图渲染。值得注意的是,一些方法对于RGB-D相机表现良好,但是对于单目相机,渲染质量显著下降。在本文中,我们介绍了Scaffold-SLAM,它提供了跨单目、立体和RGB-D相机的同步定位和高质量的真实感映射。我们引入了两项关键创新来实现这种最先进的视觉质量。首先,我们提出运动外观嵌入,使3D高斯模型能够更好地模拟不同相机姿态下的图像外观变化。其次,我们引入了一个频率正则化金字塔来指导高斯分布,允许模型有效地捕捉场景中更精细的细节。在单目、立体和RGB-D数据集上的大量实验表明,Scaffold-SLAM在照片级真实感映射质量方面明显优于最先进的方法,例如,在用于单目相机的TUM RGB-D数据集上,PSNR高出16.76%。

2. 效果展示

我们的方法Scaffold-SLAM以高画质实现逼真的映射,质量优于最先进的方法(GS-ICP SLAM),Photo-SLAM,SplaTAM,MonoGS),包括单目、立体和RGB-D相机。顶部:结果来自TUM RGB-D数据集的RGB-D相机。底部:左三幅图像来自Replica数据集的单目相机,右三幅来自EuROCMAV数据集的立体相机。质量上的明显差异由插图突出显示。

我们展示了我们的方法与RGB-D相机的最新方法的比较。顶部场景是来自复本数据集的rooo0,底部是来自TUM RGB-D数据集的fr3 office。插图突出了质量上的不明显差异。

3. 引言

视觉SLAM是三维计算机视觉领域的一个基础问题,广泛应用于自动驾驶、机器人技术、虚拟现实和增强现实等领域。SLAM旨在构建稠密或稀疏地图来表示场景。近年来,神经渲染[5]已被整合到SLAM流程中,显著提升了地图的场景表示能力。辐射场渲染领域的最新进展是三维高斯溅射(3DGS),这是一种显式场景表示方法,在渲染和训练速度方面取得了革命性的提升。最近结合3DGS的SLAM工作表明,与隐式表示相比,显式表示提供了更有前景的渲染性能。

然而,当前利用3DGS的SLAM方法尚未能在单目、立体和RGB-D相机上同时实现高质量渲染。大多数现有方法仅支持RGB-D相机。例如,SplaTAM[3]通过最小化图像和深度重建误差联合优化相机位姿和高斯分布,实现了RGB-D相机的定位和渲染。GS-SLAM推导出了使用RGB-D重渲染损失优化相机位姿跟踪和稠密建图的解析公式。RTG-SLAM[8]提出了一种高效的流程来生成紧凑的高斯表示,从而构建了一个实时的RGB-D系统。GS-ICP SLAM提出了一种新颖的稠密RGB-D SLAM方法,融合了广义迭代最近点(ICP)和3DGS。CG-SLAM采用了一种不确定性感知的3D高斯场来实现高效的RGB-D SLAM。

只有少数方法支持单目、立体和RGB-D相机。MonGS通过针对3D高斯分布的直接优化来制定3DGS的相机跟踪,允许所有三种类型的相机进行定位和逼真的映射。然而,其立体相机和单目相机之间的渲染质量差距显著。Photo-SLAM引入了一个解耦框架来优化3D高斯分布,实现了单目、立体和RGB-D相机的实时定位和逼真映射。虽然它在实时性能和单目与RGB-D相机之间的渲染质量差距方面表现出色,但其主要限制在于整体渲染质量。我们的工作旨在显著提高单目、立体和RGB-D相机的渲染精度。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

在本文中,我们提出了Scaffold-SLAM,这是一种新型SLAM系统,能够在单目、立体和RGB-D相机上实现同时定位和高质量的逼真映射。我们的方法与Photo-SLAM共享相同的解耦框架,其中我们使用传统的间接视觉SLAM流程进行定位和几何建图。生成的点云用于初始化结构化3D高斯分布。相反,我们引入了两项关键创新,使我们的方法能够在单目、立体和RGB-D相机上实现最先进的逼真映射质量。首先,我们提出了从运动到外观的嵌入(Appearance-from-Motion embedding),该嵌入在学习的低维潜在空间中建模外观变化,如曝光和照明。我们训练该嵌入以根据相机位姿预测不同图像中的外观变化。其次,我们提出了频率正则化金字塔,它在频率域中约束了多个尺度下渲染图像的频率。这促使3D高斯分布向复杂区域(如物体边缘和纹理)生长,从而使模型能够捕获场景中的高频细节。最后,为了评估我们方法的逼真映射质量,我们在包括单目、立体和RGB-D相机的多种数据集上进行了广泛的实验。实验结果表明,我们的方法Scaffold-SLAM在所有三种相机类型的逼真映射质量方面均超越了最先进的方法。

4. 主要贡献

本文的主要贡献如下:

我们开发了从运动到外观的嵌入,使我们的SLAM系统能够有效地建模不同图像中的图像外观变化。

我们提出了频率正则化金字塔,以引导3D高斯分布向复杂区域生长,从而捕获场景中的更精细细节。

在各种数据集上的广泛评估表明,我们的方法Scaffold-SLAM在保持竞争性的跟踪精度的同时,在单目、立体和RGB-D相机上实现了优越的逼真映射质量。代码将公开提供。

5. 方法

我们的方法支持单目、立体和RGB-D相机。输入图像流经由跟踪和几何映射模块处理,生成高质量的点云和精确位姿。这些点云被用于逐步构建高斯模型。位姿被输入到基于运动的外观嵌入模型中,以模拟环境中的光照和其他外观变化。此外,我们引入了频率正则化金字塔来监督高斯模型的训练,从而能够改进场景中高频细节的建模。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们介绍了Scaffold-SLAM,这是一种为单目、立体和RGB-D相机实现高质量逼真映射的SLAM方法。我们通过将传统间接SLAM与结构化3D高斯表示相结合,探索了解耦方法的极限。大量实验表明,我们的方法在所有相机类型的渲染质量方面均超越了耦合方法。我们还重点介绍了两项关键创新:从运动到外观的嵌入和频率正则化金字塔,它们显著提升了逼真映射质量。通过结合从运动到外观的嵌入,我们的方法成功地从较少的训练视角预测了显著的外观变化。所提出的频率正则化金字塔有效地监督了3D高斯分布的优化和生长,从而能够建模更多的场景细节。未来的工作将专注于在不牺牲逼真映射质量的前提下,增强我们方法的实时性能。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文