点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Towards Better Robustness: Progressively Joint Pose-3DGS Learning for Arbitrarily Long Videos
作者:Zhen-Hui Dong, Sheng Ye, Yu-Hui Wen, Nannan Li, Yong-Jin Liu
机构:Tsinghua University、Beijing Jiaotong University、Maritime University
原文链接:https://arxiv.org/abs/2501.15096
1. 导读
三维高斯分布(3DGS)由于其高效和高保真渲染而成为一种强大的表示方法。然而,3DGS训练需要每个输入视图的已知相机姿态,通常通过运动结构(SfM)管道获得。开创性的工作试图放宽这一限制,但在处理具有复杂相机轨迹的长序列时仍然面临困难。在这项工作中,我们提出了Rob-GS,这是一个健壮的框架,可以渐进地估计相机姿态,并为任意长的视频序列优化3DGS。利用视频固有的连续性,我们设计了一种相邻姿态跟踪方法,以确保连续帧之间稳定的姿态估计。为了处理任意长的输入,我们采用了“分而治之”的方案,自适应地将视频序列分成几个片段,并分别对它们进行优化。在Tanks和Temples数据集和我们收集的真实世界数据集上的大量实验表明,我们的Rob-GS优于最先进的技术。
2. 效果展示
相机姿态估计和新视图合成。我们提出Rob-GS来从任意长度的随意捕获的视频中重建场景,而无需已知的相机姿态。Rob-GS能够实现稳健的姿态估计(第一行)和高质量的染(第二行)。
新视图合成定性比较。我们的方法比其他基线产生更逼真的渲染结果。
3. 主要贡献
我们提出了一种新的框架,用于逐步估计摄像机姿态,并在不降低渲染质量或不受内存约束的情况下,针对任意长视频序列优化3DGS。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
我们设计了一种自适应分割策略和一种鲁棒的姿态估计方法,以有效处理相机轨迹的挑战,这些轨迹是偶然捕捉到的(例如,具有大或快的相机运动)
我们进行了广泛的实验,表明我们的Rob-GS在渲染质量和姿势估计准确性方面优于最先进的方法,同时实现了更快的训练速度。
4. 方法
在这项工作中,我们提出了Rob-GS,一个鲁棒框架见图2),用于新颖的视图合成,可以处理任意长度的视频序列作为输入,而无需繁琐的SfM预处理。我们的框架逐步估计相机位置并优化3D场景。我们还采用“分而治之”的策略,将视频序列分成几个部分,并分别优化这些部分。这些设计确保了重建的稳定性和防止在输入长视频时发生内存溢出。
具体来说,从第一个视频帧开始,我们使用一种稳健的跟踪方法逐步估计相机姿态,该方法利用每一对相邻图像。在跟踪新帧后,我们使用简单而有效的Gaussian可观察性检查方法来确定跟踪的是否应该形成一个新段。如果是,我们开始优化局部段;否则(或在局部优化后),姿态估计继续进行。
5. 实验结果
6. 总结 & 未来工作
在这项工作中,我们提出了Rob-GS,这是一个稳健的框架,可以逐步估计相机位置并优化任意长视频序列的3D高斯函数。我们证明,之前的方法在处理长轨迹和大相机运动方面存在困难。我们工作的核心贡献有两个方面:1)一种新颖的相邻姿态跟踪模块,确保稳定的姿态估计;2)一种自适应分段方法,用于优化局部3D高斯函数。我们在大规模真实场景上进行了广泛的实验。 结果表明,该方法显著提高了三维重建的鲁棒性和逼真度,展现了可扩展性和实用性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!