专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
LCA  ·  一棵树,让我觉得安静 ·  19 小时前  
康石石  ·  我在金匠找到了自己! ·  23 小时前  
桂林晚报  ·  刚刚开幕,免费开放! ·  昨天  
康石石  ·  25年国家级A类竞赛变化一览! ·  2 天前  
51好读  ›  专栏  ›  3DCV

相机标定已成过去式!DroidSplat:无需内外参的3DGS-SLAM新SOTA

3DCV  · 公众号  ·  · 2024-12-15 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:深蓝AI

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

导读:

随着新视角合成技术的发展,SLAM技术与NeRF等视角合成技术的结合产物--神经隐式SLAM在近期得到了充分的研究。然而,单纯依赖这些方法的SLAM系统在跟踪性能上仍落后于传统SLAM和端到端的SLAM系统。此外,这些方法还对相机的参数标定提出了很高的要求,往往需要进行额外的标定工作确保算法能够稳定运行。

©️【深蓝AI】编译

论文标题:DROID-Splat Combining end-to-end SLAM with 3D Gaussian Splatting

论文作者:Christian Homeyer, Leon Begiristain, Christoph Schnörr

论文地址:https://arxiv.org/pdf/2411.17660

为了弥补这一不足,本文提出了一种基于端到端跟踪器的SLAM系统,并结合了基于最新3D Gaussian Splatting(3DGS)的渲染器。该框架名为DroidSplat,能够在常见的SLAM基准测试中实现先进的跟踪和渲染效果。通过在现代SLAM系统中实现多个模块并行运行,该方法可以在普通消费级GPU上进行快速推理。

该研究的重要意义在于,结合单目深度预测和相机标定的新进展,DroidSplat能够在没有已知相机内参的情况下,从而减少了对于标定的需求,在工程化的场景中能够节约大量的人力成本。这为在复杂环境下实现高效、精准的SLAM系统提供了新的可能,并推动了SLAM技术在实际工程应用中的发展。

图1|效果初览(DROID-Splat能够在已知或未知内参的情况下,实现照片级真实感的重建。)©️【深蓝AI】编译
同时定位与建图(SLAM)一直是计算机视觉中的一个长期难题,广泛应用于机器人技术、自动驾驶和增强现实等领域。传统的SLAM系统主要依靠手工设计的特征来重建准确的里程计和几何结构,但通常只能生成稀疏或半稠密的环境表示。而端到端的SLAM系统通过使用学习到的特征和稠密重建目标,提升了系统的鲁棒性和精度,但它们往往无法优化出照片级真实感的场景。
最近的场景合成技术的进展使得独立的SLAM系统能够增加渲染模块,从而实现对于场景观测的实时渲染。然而,尽管这些系统在某些方面有所进展,其跟踪性能仍然不如传统SLAM系统和端到端SLAM系统。为了解决这一问题,本文提出了一种名为DROID-Splat的SLAM系统,结合了密集端到端光流和使用3DGS技术的密集渲染目标。本的系统在保留其SLAM系统灵活性的基础上,通过支持单目和RGBD推理,能够在消费级GPU上实现快速的跟踪推理,并能迅速优化出照片级真实感的场景重建。
DROID-Splat框架由三个主要部分组成:i) 端到端追踪 ii) 回环检测 iii) 可微分渲染 。作者还进一步结合了单目深度预测的最新进展,集成了当前的相机标定目标,展示了在未知相机内参的情况下,如何稳健地处理实际数据。该研究展示了通过结合密集端到端跟踪器与密集3DGS重建的方法,可以有效地重建视频中的场景,为SLAM技术的发展提供了新的视角。
图2|全文方法总览©️【深蓝AI】编译

本文旨在实现照片级真实感的密集场景重建。为此,作者采用了一个密集的端到端跟踪器,该跟踪器为每个像素提供可靠的深度(或视差)。通过对深度图进行滤波,仅保留共视点或高置信度区域,作者将处理后的数据输入渲染模块,该模块针对每个像素优化高斯超原型,并基于渲染目标对场景进行密集化。由于3DGS的轻量级特性,作者能够实时将该渲染目标与跟踪系统并行运行。该系统的整体框架通过整合常见的SLAM组件系统地构建,最终在统一的框架下实现了最先进的在线照片级真实感重建。
该系统结合了基于光流的目标进行端到端跟踪,并重建里程计和密集的初始地图。跟踪目标的灵活性使得系统能够根据需要优化相机内参或先验尺度与偏移。同时,采用最先进的3DGS技术,基于渲染目标学习照片级真实感的重建。由于所有组件都是可微分且能够并行运行,系统能够实现各部分的灵活互动。接下来,笔者将从端到端跟踪、闭环检测和可微分渲染三个方向,详细介绍具体的方法实现。
■2.1 端到端跟踪
该系统基于在线端到端系统DROIDSLAM构建。通过从有序的图像流 构建一个帧图(V,E 。该结构实际上是一个关键帧缓冲区,存储着跟踪状态变量,如视差图 和相机姿态 。密集的光流通过递归神经网络估算。给定场景中足够的运动,将一个关键帧插入图中。边 表示帧 和帧 之间的共视性。随着图的动态构建和维护,系统对图进行可微分的束调整。通过当前的姿态和视差状态,可以计算对应关系 。特征、图像上下文和隐藏状态被输入到卷积GRU中以生成更新。GRU生成残差场 和关联的置信度 。残差指导当前的对应关系,即 。结合学习到的姿态估计置信度,这为可微分的束调整优化提供动力。跟踪基于重投影损失进行优化:
其中, 。该通用损失函数可以灵活地用于监督视差 和姿态 ,也可以优化相机参数θ:
这部分的内容涵盖比较多的数学公式,理解起来比较困难,笔者在这里进行通俗的讲解,简单来说,该系统中首先结合常见的视觉SLAM中的模块(关键帧提取,共视图构建)的方式,对输入的图像进行一次相机位姿追踪,通过做视觉SLAM的形式还原相机的位姿,并生成对应的深度信息,两个优化的函数分别是利用重投影误差以及深度作为监督,只是这里作者为了提升计算速度,直接将视差作为优化项代入了,减少了一步从视差到深度的换算。
■2.2 闭环检测
视觉里程计的准确性和鲁棒性不仅依赖于优化本身,特别依赖于前后端图结构。通过对潜在闭环候选点的长期连接运行更新操作,可以补偿累积的漂移。与基于递归流网络检测低明显运动的候选点的方法不同,本文通过直接的视觉相似性取得了更好的效果。该方法使用最新的端到端特征进行位置识别任务。对于每个到来的关键帧,计算其视觉特征并将其插入FAISS数据库。然后检查所有历史帧的最近邻。如果找到候选对,且满足特征距离、相机朝向距离和帧间距要求,则将其视为闭环候选,并通过向后端添加双向边来增强图结构。此过程在CPU上并行运行,附加的成本较低。
■2.3 可微分渲染
本文利用3DGS定义一组三维点 ,并将其与密集跟踪地图关联 。每个高斯点具有旋转 、缩放 、密度 和球面谐波系数 。高斯点通过下采样后初始化,并通过反向传播在密集渲染损失上进行优化。渲染过程定义为:
其中, 表示从球面谐波 转换得到的颜色,。这使得能够在给定关键帧 时渲染地图,并生成图像 和深度图 。3DGS利用混合渲染损失进行优化:
通过与参考图像 和深度图 的比较,进行反向传播。每次更新渲染器时,都通过优化一批相机来提高场景重建质量。由于每个组件都是可微分的,理论上可以通过渲染目标优化关键帧姿态,并将其反馈给跟踪器。研究表明,可以通过结合密集渲染目标进一步优化系统的性能。
这部分的内容也涉及到比较复杂的数学知识,笔者在这里也进行通俗的解释,可微分渲染的目的则是使用3DGS在渲染上的优势,实现实时的照片级渲染,而渲染过程中需要的两个重要参数,第一个是相机的位姿信息,这部分已经由端到端追踪模块通过做VSLAM获得了,第二个则是3DGS的内在属性,这会在算法运行的过程中不断优化更新,由于整个过程都是可微的,因此梯度可以很顺利的沿着网络进行回传,从而进一步提升整个算法框架的运行速度。

实验部分,作者主要对该研究定位精度,渲染质量以及深度估计这三个方面的性 能进行了定性和定量的实验,充分说明了本问方法的可行性和有效性。
图3|消融实验©️【深蓝AI】编译
图4|渲染质量量化实验©️【深蓝AI】编译
图3和图4分别是消融实验以及渲染质量的量化实验,作者上来就进行消融实验的目的是在于本文中引入了诸多区别于传统方法的特色模块,这些特色模块在方法中的具体贡献则主要通过消融实验体现,从图3能够看出,通过模块的消融,很好的体现了每个特色模块(如回环检测,优化)对于本方法在精度,误差控制各个方向的贡献程度。图4则体现了本文在渲染过程中的高质量,在PSNR,LPIPS等各项指标上都能够取得不错的数值。






请到「今天看啥」查看全文