专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
湖南日报  ·  华为重返前十,湖南8家上榜! ·  9 小时前  
新闻株洲  ·  株洲携手萍乡!将发力这项工作 ·  17 小时前  
潇湘晨报  ·  演员姚晨,官宣喜讯! ·  2 天前  
51好读  ›  专栏  ›  3DCV

UTAustin最新提出!无相机姿态40秒重建3DGS方法

3DCV  · 公众号  ·  · 2024-04-03 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

点击加入「3DCV」技术交流群

作者:Zhiwen Fan | 编辑:3DCV
添加微信:dddvision,备注:3D高斯,拉你入群。文末附行业细分群

标题:InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds
链接:https://arxiv.org/pdf/2403.20309.pdf

1、导读

本文介绍了一种名为InstantSplat的高效框架,用于从稀疏无位姿的图像中快速重建3D场景。该框架融合了基于点的表示(如3D高斯溅射)和端到端的密集立体模型(如DUSt3R)的优势。通过预训练的立体模型获取初步场景几何和相机参数,然后在全局对齐的稀疏几何基础上建立3D高斯溅射模型。通过快速优化3D高斯属性和相机参数,可以在1分钟内完成大场景的重建。实验证明,该方法在渲染质量和相机位姿估计方面优于现有的无位姿方法。总的来说,InstantSplat提供了一个高效的解决方案,用于从稀疏无位姿的图像中快速重建3D场景。

图1:新颖的视图合成比较(稀疏视图,无姿态)

2、方法

我们的框架InstantSplat将密集立体先验与3D-GS统一起来,以构建3D高斯大场景在不到1分钟的时间内从稀疏视图和无姿势的图像中获取。具体来说,InstantSplat包括一个粗略的几何初始化(CGI)模块,可快速建立初步的场景结构和摄像机参数 在所有 训练视图,利用从预训练的密集立体管线派生的全局对齐 3D 点图。这是 其次是快速三维高斯优化(F-3DGO)模块,该模块共同优化了三维高斯 属性和 使用姿势正则化初始化的姿势。在大型户外Tanks&Temples数据集上进行的实验表明,InstantSplat显著将SSIM(提高32%),同时将绝对轨迹误差(ATE)降低80%。这些建立InstantSplat作为涉及无姿势和稀疏视图条件的场景的可行解决方案。

图2:InstantSplat框架

在上面对方法的说明性概述中,我们引入了一个新的管道,它将DUSt3R作为3D先验模型,提供全局对齐3D高斯的初始场景几何。这允许随后计算相机姿势和 内在函数 密集点图,然后与所有其他3D高斯属性联合优化。这监督信号通过喷射和地面真实 图像。

3、InstantSplat核心思想是什么?

  • 利用端到端的密集立体匹配模型DUSt3R快速获取场景的粗略几何结构,包括点云和相机参数的初步估计。
  • 在全局对齐的粗略几何结构上,初始化3D高斯体,建立场景的3D表示。
  • 通过快速优化3D高斯体的属性和相机参数,实现场景的快速重建。
  • 利用立体匹配模型提供的先验知识,避免了复杂的结构从运动算法,同时实现了高效、准确的场景重建。

4、InstantSplat包含哪些模块?

InstantSplat框架包含以下两个主要模块:

CGI模块 :该模块利用预训练的密集立体匹配模型DUSt3R,从稀疏视角的图像中快速建立初步的场景几何结构,并初始化相机参数。

F-3DGO模块 :该模块在CGI模块提供的初步场景几何和相机参数的基础上,联合优化3D高斯体的属性和相机参数,实现场景的精确重建。

5、实验

主要涵盖了实验设置和实验结果两部分内容:

实验设置

  • 数据集:使用了包含大规模场景的室外数据集Tanks and Temples和MVImgNet,并从中选取了部分场景进行实验。同时,设置了稀疏视图设置,只使用数据集原始视图数的1/10进行训练。
  • 评价指标:对于相机姿态估计,使用了绝对轨迹误差(ATE)和相对姿态误差(RPE)。对于新视图合成,使用了PSNR、SSIM和LPIPS。
  • 基准方法:与一些无姿态先验的方法进行比较,如Nope-NeRF、CF-3DGS和NeRFmm。

实验结果

  • 在Tanks and Temples数据集上,InstantSplat在渲染质量和姿态估计准确性方面优于基准方法,尤其在稀疏视图场景下效果显著。

  • 在MVImgNet数据集上,InstantSplat同样展现出卓越的渲染质量和姿态估计效果。

  • Ablation实验表明,使用平均焦距和联合优化相机外参和Gaussian属性可以显著提高性能。

图3:视觉比较

表1:渲染Tanks和Temples数据集的定量评估

表2:Tanks和Temples数据集姿态精度的定量评价

表3:渲染MVImgNet数据集的定量评价

图4:MVImgNet数据集的可视化比较

表4:MVImgNet数据集姿态精度的定量评价

图5:MVImgNet数据集的其他视觉比较
图6:MVImgNet上的视觉比较

表5:平均焦距影响的消融研究

表6:联合优化效果的消融研究

图7:训练视图数对渲染质量的影响。比较是我们的模型和CF-3DGS

6、结论

InstantSplat:旨在从稀疏视图未摆出的图像中有效地重建场景。我们的方法利用密集立体先验进行粗场景初始化,提供3D几何和相机参数的初步估计。为了进一步细化这些场景属性和相机参数,快速3D高斯优化策略可以联合优化3D高斯属性和相机外在参数。这形成了一个高效的管道,能够在一分钟内从未摆姿势的图像重建 3D场景。值得注意的是,与现有方法相比,我们的方法展示了卓越的渲染质量和姿态估计准确性,强调了其处理稀疏视图数据的有效性。

本文仅做学术分享,如有侵权,请联系删文。

在这里给大家推荐3D视觉工坊联合Gigi主讲老师推出的新课《 基于NeRF/Gaussian三维重建的全新SLAM算法

主讲人介绍

课程大纲







请到「今天看啥」查看全文