作者:Zhiwen Fan | 编辑:3DCV
添加微信:dddvision,备注:3D高斯,拉你入群。文末附行业细分群
标题:InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds
链接:https://arxiv.org/pdf/2403.20309.pdf
1、导读
本文介绍了一种名为InstantSplat的高效框架,用于从稀疏无位姿的图像中快速重建3D场景。该框架融合了基于点的表示(如3D高斯溅射)和端到端的密集立体模型(如DUSt3R)的优势。通过预训练的立体模型获取初步场景几何和相机参数,然后在全局对齐的稀疏几何基础上建立3D高斯溅射模型。通过快速优化3D高斯属性和相机参数,可以在1分钟内完成大场景的重建。实验证明,该方法在渲染质量和相机位姿估计方面优于现有的无位姿方法。总的来说,InstantSplat提供了一个高效的解决方案,用于从稀疏无位姿的图像中快速重建3D场景。
图1:新颖的视图合成比较(稀疏视图,无姿态)
2、方法
我们的框架InstantSplat将密集立体先验与3D-GS统一起来,以构建3D高斯大场景在不到1分钟的时间内从稀疏视图和无姿势的图像中获取。具体来说,InstantSplat包括一个粗略的几何初始化(CGI)模块,可快速建立初步的场景结构和摄像机参数 在所有 训练视图,利用从预训练的密集立体管线派生的全局对齐 3D 点图。这是 其次是快速三维高斯优化(F-3DGO)模块,该模块共同优化了三维高斯 属性和 使用姿势正则化初始化的姿势。在大型户外Tanks&Temples数据集上进行的实验表明,InstantSplat显著将SSIM(提高32%),同时将绝对轨迹误差(ATE)降低80%。这些建立InstantSplat作为涉及无姿势和稀疏视图条件的场景的可行解决方案。
图2:InstantSplat框架
在上面对方法的说明性概述中,我们引入了一个新的管道,它将DUSt3R作为3D先验模型,提供全局对齐3D高斯的初始场景几何。这允许随后计算相机姿势和 内在函数 密集点图,然后与所有其他3D高斯属性联合优化。这监督信号通过喷射和地面真实 图像。
3、InstantSplat核心思想是什么?
-
利用端到端的密集立体匹配模型DUSt3R快速获取场景的粗略几何结构,包括点云和相机参数的初步估计。
-
在全局对齐的粗略几何结构上,初始化3D高斯体,建立场景的3D表示。
-
通过快速优化3D高斯体的属性和相机参数,实现场景的快速重建。
-
利用立体匹配模型提供的先验知识,避免了复杂的结构从运动算法,同时实现了高效、准确的场景重建。
4、InstantSplat包含哪些模块?
InstantSplat框架包含以下两个主要模块:
CGI模块
:该模块利用预训练的密集立体匹配模型DUSt3R,从稀疏视角的图像中快速建立初步的场景几何结构,并初始化相机参数。
F-3DGO模块
:该模块在CGI模块提供的初步场景几何和相机参数的基础上,联合优化3D高斯体的属性和相机参数,实现场景的精确重建。
5、实验
主要涵盖了实验设置和实验结果两部分内容:
实验设置
-
数据集:使用了包含大规模场景的室外数据集Tanks and Temples和MVImgNet,并从中选取了部分场景进行实验。同时,设置了稀疏视图设置,只使用数据集原始视图数的1/10进行训练。
-
评价指标:对于相机姿态估计,使用了绝对轨迹误差(ATE)和相对姿态误差(RPE)。对于新视图合成,使用了PSNR、SSIM和LPIPS。
-
基准方法:与一些无姿态先验的方法进行比较,如Nope-NeRF、CF-3DGS和NeRFmm。
实验结果
-
在Tanks and Temples数据集上,InstantSplat在渲染质量和姿态估计准确性方面优于基准方法,尤其在稀疏视图场景下效果显著。
-
在MVImgNet数据集上,InstantSplat同样展现出卓越的渲染质量和姿态估计效果。
-
Ablation实验表明,使用平均焦距和联合优化相机外参和Gaussian属性可以显著提高性能。
图3:视觉比较
表1:渲染Tanks和Temples数据集的定量评估
表2:Tanks和Temples数据集姿态精度的定量评价
表3:渲染MVImgNet数据集的定量评价
图4:MVImgNet数据集的可视化比较
表4:MVImgNet数据集姿态精度的定量评价
图5:MVImgNet数据集的其他视觉比较
图6:MVImgNet上的视觉比较
表5:平均焦距影响的消融研究
表6:联合优化效果的消融研究
图7:训练视图数对渲染质量的影响。比较是我们的模型和CF-3DGS
6、结论
InstantSplat:旨在从稀疏视图未摆出的图像中有效地重建场景。我们的方法利用密集立体先验进行粗场景初始化,提供3D几何和相机参数的初步估计。为了进一步细化这些场景属性和相机参数,快速3D高斯优化策略可以联合优化3D高斯属性和相机外在参数。这形成了一个高效的管道,能够在一分钟内从未摆姿势的图像重建 3D场景。值得注意的是,与现有方法相比,我们的方法展示了卓越的渲染质量和姿态估计准确性,强调了其处理稀疏视图数据的有效性。
本文仅做学术分享,如有侵权,请联系删文。
在这里给大家推荐3D视觉工坊联合Gigi主讲老师推出的新课《
基于NeRF/Gaussian三维重建的全新SLAM算法
》
主讲人介绍
课程大纲