迈向更高的鲁棒性！清华新作Rob-GS：长序列Pose-3D GS联合学习框架

3D视觉工坊 · 公众号 · · 2025-02-08 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Towards Better Robustness: Progressively Joint Pose-3DGS Learning for Arbitrarily Long Videos

作者：Zhen-Hui Dong, Sheng Ye, Yu-Hui Wen, Nannan Li, Yong-Jin Liu

机构：Tsinghua University、Beijing Jiaotong University、Maritime University

原文链接：https://arxiv.org/abs/2501.15096

1. 导读

三维高斯分布(3DGS)由于其高效和高保真渲染而成为一种强大的表示方法。然而，3DGS训练需要每个输入视图的已知相机姿态，通常通过运动结构(SfM)管道获得。开创性的工作试图放宽这一限制，但在处理具有复杂相机轨迹的长序列时仍然面临困难。在这项工作中，我们提出了Rob-GS，这是一个健壮的框架，可以渐进地估计相机姿态，并为任意长的视频序列优化3DGS。利用视频固有的连续性，我们设计了一种相邻姿态跟踪方法，以确保连续帧之间稳定的姿态估计。为了处理任意长的输入，我们采用了“分而治之”的方案，自适应地将视频序列分成几个片段，并分别对它们进行优化。在Tanks和Temples数据集和我们收集的真实世界数据集上的大量实验表明，我们的Rob-GS优于最先进的技术。

2. 效果展示

相机姿态估计和新视图合成。我们提出Rob-GS来从任意长度的随意捕获的视频中重建场景，而无需已知的相机姿态。Rob-GS能够实现稳健的姿态估计(第一行)和高质量的染(第二行)。

新视图合成定性比较。我们的方法比其他基线产生更逼真的渲染结果。

3. 主要贡献

我们提出了一种新的框架，用于逐步估计摄像机姿态，并在不降低渲染质量或不受内存约束的情况下，针对任意长视频序列优化3DGS。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

我们设计了一种自适应分割策略和一种鲁棒的姿态估计方法，以有效处理相机轨迹的挑战，这些轨迹是偶然捕捉到的(例如，具有大或快的相机运动)

我们进行了广泛的实验，表明我们的Rob-GS在渲染质量和姿势估计准确性方面优于最先进的方法，同时实现了更快的训练速度。

4. 方法

在这项工作中，我们提出了Rob-GS，一个鲁棒框架见图2)，用于新颖的视图合成，可以处理任意长度的视频序列作为输入，而无需繁琐的SfM预处理。我们的框架逐步估计相机位置并优化3D场景。我们还采用“分而治之”的策略，将视频序列分成几个部分，并分别优化这些部分。这些设计确保了重建的稳定性和防止在输入长视频时发生内存溢出。

具体来说，从第一个视频帧开始，我们使用一种稳健的跟踪方法逐步估计相机姿态，该方法利用每一对相邻图像。在跟踪新帧后，我们使用简单而有效的Gaussian可观察性检查方法来确定跟踪的是否应该形成一个新段。如果是，我们开始优化局部段;否则(或在局部优化后)，姿态估计继续进行。

5. 实验结果

6. 总结 & 未来工作

在这项工作中，我们提出了Rob-GS，这是一个稳健的框架，可以逐步估计相机位置并优化任意长视频序列的3D高斯函数。我们证明，之前的方法在处理长轨迹和大相机运动方面存在困难。我们工作的核心贡献有两个方面:1)一种新颖的相邻姿态跟踪模块，确保稳定的姿态估计;2)一种自适应分段方法，用于优化局部3D高斯函数。我们在大规模真实场景上进行了广泛的实验。结果表明，该方法显著提高了三维重建的鲁棒性和逼真度，展现了可扩展性和实用性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！