专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
掌上春城  ·  巨头宣布:永不合作! ·  2 天前  
昆明发布  ·  今起预约!“手把手”教你操作→ ·  2 天前  
春城晚报  ·  病情恶化!39岁男歌手突然去世 ·  3 天前  
51好读  ›  专栏  ›  3DCV

吊打MonoGS!定位&NVS双重SOTA!DROID-Splat:结合端到端SLAM和3DGaussian Splatting

3DCV  · 公众号  ·  · 2024-11-28 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:DROID-Splat: Combining end-to-end SLAM with 3D Gaussian Splatting

作者:Christian Homeyer, Leon Begiristain, Christoph Schnörr

机构:Heidelberg University

原文链接:https://arxiv.org/abs/2411.17660

代码链接:https://github.com/ChenHoy/DROID-Splat

1. 导读

场景合成领域的最新进展使得完全基于优化超基元(hyperprimitives)并设定渲染目标(Rendering objective)的独立即时定位与地图构建(SLAM)系统成为可能[24]。然而,其跟踪性能仍落后于传统SLAM系统[27]和端到端SLAM系统[41]。在鲁棒性、速度和准确性之间尚未达到最佳平衡,尤其是在单目视频处理方面。在本文中,我们介绍了一种基于端到端跟踪器的SLAM系统,并通过结合最新的三维高斯溅射(3D Gaussian Splatting)技术的渲染器对其进行了扩展。我们的框架DroidSplat在常见的SLAM基准测试中实现了最先进的跟踪和渲染结果。我们实现了现代SLAM系统的多个构建模块并行运行,从而能够在普通消费级图形处理器(GPU)上进行快速推理。单目深度预测和相机校准领域的最新进展使我们的系统即使在没有已知相机内参的野外数据上也能取得优异结果。代码将在https://github.com/ChenHoy/DROID-Splat上提供。

2. 引言

即时定位与地图构建(SLAM)一直是计算机视觉领域的一个长期存在的问题,对机器人技术、自动驾驶和增强现实等应用至关重要。传统系统侧重于利用手工制作的特征来重建精确的里程计和几何信息,但通常只能得到环境的稀疏或半密集表示。端到端SLAM系统通过使用学习到的特征和密集重建目标提高了鲁棒性和准确性,但它们往往缺乏优化逼真场景的能力。场景合成领域的最新进展使得完全基于优化超基元并设定渲染目标的独立SLAM系统成为可能。然而,其跟踪性能仍然落后于传统和端到端SLAM系统。我们旨在通过结合两者的优点来弥补这一差距。

在本文中,我们介绍了Droid-Splat:一个基于密集、端到端光流和密集渲染目标(使用三维高斯溅射技术)的最先进的SLAM系统。我们的系统与其前身系统一样灵活:我们支持不同相机模型的单目和RGB-D推理(由于我们专注于单相机重建,因此忽略了立体或多视图的情况)。通过结合两者的优点,我们在消费级GPU上实现了快速跟踪推理,并能快速优化逼真的场景重建。我们的框架包括:i)局部前端;ii)全局后端;iii)回环检测器;iv)密集渲染器。通过这项工作,我们旨在比以往的工作更详细地系统分析各个组件和优化目标之间的相互作用。最近出现了许多专注于单个组件的SLAM框架。我们的工作旨在提供一个综合工具,能够轻松地从视频中重建场景。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

单目视频重建历来难度很大。因此,我们还允许集成]和并行工作类似的最先进的单目深度预测先验。我们证明,随着最近的技术进步,现在可以稳健地处理具有未知相机内参的野外数据。通过使用深度先验和额外的相机校准目标,我们甚至在手机视频上也能实现强大的重建性能。

3. 效果展示

DROID-Splat允许用已知/未知的内部函数重建场景。通过结合光流跟踪物镜和快速、密集的渲染器,我们可以在优化精确里程计的同时实现照片级的重建。

4. 主要贡献

我们的贡献包括:

• 我们提出了一个密集的SLAM系统,该系统将密集的端到端跟踪器与密集的超基元相结合。

• 我们将现代SLAM系统的常见构建模块结合在一个快速的并行实现中。我们的综合消融实验显示了哪些组件真正重要。

• 我们在常见的SLAM基准测试中展示了跟踪和渲染方面的最先进结果,且几乎实时。

• 我们的框架在输入方面具有灵活性,甚至能在具有未知内参的野外数据上工作。

5. 方法

由于我们的目标是实现逼真的密集场景重建,因此我们使用了一个密集的端到端跟踪器,它可以为每个像素提供可靠的深度(或视差)。在仅对共见点或高置信度区域进行过滤后,我们将此地图输入到渲染模块中,该模块为每个像素优化高斯超基元,并根据渲染目标使场景更加密集。由于高斯溅射的轻量级特性,我们可以实时并行运行此渲染目标和跟踪系统。我们的系统概述如图2所示。我们从常见的SLAM组件系统地构建了我们的系统。通过将这些技术统一在一个框架下,我们可以实现最先进的在线逼真重建

6. 实验结果

跟踪消融实验。表1展示了在P-RGBD模式下,各个跟踪组件的重要性。这些结果在不同输入模式和数据集上大体一致,详见补充材料。我们观察到,因子图构建过程最为重要。将单目先验与尺度优化相结合至关重要。在我们的后端中, Loop BA并未取得成功。相反,当我们将视觉上相似的回路候选添加到图中时,取得了最佳结果。我们还想强调,通过仅采用更为保守的图构建策略,我们取得了最优结果。

渲染器消融实验。表2展示了最近提出的高斯溅射技术的消融实验结果。对于此次消融实验,我们比较了没有细化阶段的结果。我们在补充材料中详细描述了其他实验。我们想强调,常见的比较应该始终考虑所使用的高斯总数的因素。我们在TUM-RGBD上平均使用12万个高斯。当然,使用更多的基本元素会提高照片逼真度,但会以内存和计算为代价。我们观察到,共视性裁剪在室内数据集上并不一定有效。朴素的地图构建可能表现更好,但代价是增加了数千个高斯。在我们的实验中,最有效的改进是MCMC引导的致密化策略,与朴素的基于梯度的致密化策略相比,该策略在渲染指标上带来了持续的提升。为了进行公平比较,我们使两种策略的高斯总数相等。二维高斯溅射在非常杂乱的室内场景(如TUM-RGBD)中效果不佳,要么过度平滑细节,要么无法构建正确的表面。我们还观察到,优化几何形状通常以牺牲渲染性能为代价。我们可以通过调整λ1来控制这一权衡。

我们在合成场景和真实场景上进行了评估,并与最先进技术进行了比较。如表3所示,我们在真实场景中取得了具有竞争力的跟踪性能。我们想强调,fr1/desk2和fr1/room最具挑战性,因此在平均值中占比最大。在较简单的场景上,大多数框架的性能似乎相似。

在表4和表5中,我们在Replica的不同模式下也取得了最优结果。可以看出,在没有完美监督的情况下,传统和端到端跟踪系统仍然表现最佳。然而,在具有完美合成数据的情况下,直接方法取得了显著成果。利用深度先验的单目方法,由于额外的信息,在渲染和跟踪方面通常表现更好。由于跟踪器和渲染器中的密集表示,我们的方法在渲染方面始终名列前茅。尽管Photo-SLAM采用了一个鲁棒的跟踪系统,但其稀疏的超基本元素优化无法生成难以区分的渲染结果。图3展示了渲染图像和深度图。我们在单目视频上实现了高度详细的几何形状。即使激光传感器存在空洞,我们的单目先验也能提供密集的引导。

7. 总结 & 未来工作

我们将一个密集端到端SLAM系统与逼真的渲染器相结合。我们系统地消融了常见的设计选择,并在常见基准测试上通过我们的框架取得了最优结果。最近的单目深度先验的集成,缩小了单目SLAM和RGBD SLAM在里程计和渲染方面的差距。我们的实验表明,在这个层次上,逼真的渲染和精确的几何形状可以是互补的目标,其中提高渲染性能会以几何形状变差为代价。同时,我们并未看到基于渲染目标的跟踪器在自然场景中的改进。我们的框架具有灵活性,可以无缝地重建甚至具有未知内参的野外视频。

展望。我们希望我们的Python框架能够促进快速实验和神经网络与SLAM相结合的进一步研究。最近的基础模型允许直接从图像推断3D场景,而无需测试时间优化。整合此类模型为未来的研究开辟了一条令人兴奋的道路。将系统扩展到更大的复杂场景是另一个有趣的研究方向。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、视频\图像生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文