专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

无需内参！不惧动态！仅用一个视频恢复4D世界！

3DCV · 公众号 · · 2024-06-04 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

转自：3D视觉工坊 | 编辑：3DCV

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉工业级算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

从视频输入中准确重建4D世界（3D + t）的探索处于当代计算机视觉和图形学研究的前沿。这一工作对于虚拟和增强现实、视频分析以及多媒体应用的进步至关重要。挑战主要来自捕捉动态场景的瞬时本质和摄像机姿态信息的缺失。传统方法通常分为两类：一类依赖于预先校准的摄像机参数或多视角视频输入来重建动态场景，而另一类使用多视角立体技术从静态场景中估计摄像机姿态。这种划分突显了该领域的一个缺失点： 是否可以仅从单个未经校准的视频输入中重建动态3D场景和相机运动？

我们将此任务命名为"Any Video-to-4D"，简称"AnyV4D"。解决这一挑战特别困难，因为问题本身具有复杂性。尝试从单摄像机画面中重建动态3D世界涉及破解一个谜题，其中多个解决方案在视觉上似乎是正确的，但并不符合我们世界的物理组成。尽管基于NeRF的方法试图解决这个问题，但它们未能准确捕捉现实世界的物理约束。这一限制源于它们的隐式表示，这种表示难以编码材料的基本物理属性并强制执行现实世界的物理交互。最近在3D高斯斑点技术（3DGS）及其在动态场景中的扩展中出现了有前景的替代方案。这些技术在处理现实世界场景的动态性质以及摄像机运动和定位的复杂性方面表现出了希望。然而，它们仍然假设已知的摄像机序列。为了克服这些限制并释放动态场景重建的全部潜力，我们提出了一种基于以下见解的新方法：

给定一个视频中的RGB、深度和光流等二维特征，我们实际上有足够的线索来建模视频背后的4D（3D+t）世界。基于这一直觉，我们引入了"GFlow"，这是一个利用3D高斯斑点的显式表示能力并将视频内容概念化为通过时空流动的高斯点流的新框架，有效地在没有直接摄像机输入的情况下重建4D世界。

GFlow的关键在于进行场景聚类，将场景分为静止部分和移动部分，然后通过顺序优化过程无缝地将精确的摄像机姿态调整与3D高斯点的动态调整相结合。这种双重优化利用深度和光流先验确保每一帧视频都能准确渲染，反映出原始场景的动态变化，同时通过我们新设计的逐像素密集化策略整合新的视觉信息。这个框架不仅保持了跨帧渲染的保真度，还确保了点之间的平滑过渡和运动，解决了时间连贯性这一关键挑战。

此外，通过我们的实验，GFlow不仅展示了其作为3D场景恢复工具的潜力，还展现了其在视频分析和操作中的变革力量。它能够在不需要事先训练的情况下跟踪3D世界坐标中的任何点，并以无监督方式从场景中分割出移动物体，重新定义了视频理解的格局。通过采用3DGS的显式表示，GFlow可以通过轻松改变摄像机姿态和编辑对象或整个场景来渲染引人入胜的视频场景新视图，展示了其无与伦比的多功能性和强大能力。

下面一起来阅读一下这项工作~

1. 论文信息

标题：GFlow: Recovering 4D World from Monocular Video

作者：Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang

机构：新加坡国立大学

原文链接：https://arxiv.org/abs/2405.18426

代码链接：https://littlepure2333.github.io/GFlow

官方主页：https://littlepure2333.github.io/GFlow/

2. 摘要

从视频输入重建4D场景是一项关键但具有挑战性的任务。传统方法通常依赖于多视角视频输入、已知的相机参数或静态场景的假设，而这些假设在实际环境中通常不存在。在本文中，我们放宽了所有这些限制，着手解决一个高度雄心勃勃但实际的任务，我们称之为AnyV4D：我们假设只有一个单眼视频可用，且没有任何相机参数作为输入，并且我们的目标是恢复动态4D世界以及相机姿态。为此，我们引入了GFlow，这是一个新框架，仅利用2D先验（深度和光流）将视频（3D）提升到4D显式表示，涉及通过空间和时间的高斯喷射流。GFlow首先将场景分为静止部分和移动部分，然后应用一个连续优化过程，根据2D先验和场景聚类优化相机姿态和3D高斯点的动态，确保相邻点之间的保真度和帧间的平滑移动。由于动态场景总是引入新内容，我们还提出了一种新的像素级高斯点密化策略，以整合新的视觉内容。此外，GFlow超越了仅仅4D重建的界限；它还能够在无需先验训练的情况下跟踪帧间的任何点，并以无监督方式从场景中分割移动物体。此外，每帧的相机姿态可以从GFlow中导出，通过改变相机姿态可以渲染视频场景的新视图。通过采用显式表示，我们可以根据需要轻松进行场景级或对象级编辑，突显了其多功能性和强大性。

3. 效果展示

GFlow将视频表示为4D显式表示，需要高斯流在空间和时间中传播。

在DAVIS数据集上进行重建质量的视觉比较。基于显式表示的3DGS和GFlow可以恢复高质量的动态场景。相比之下，基于隐式表示的CoDeF未能对高度动态的场景进行建模。放大并以彩色查看效果更佳。

4. 基本原理是啥？

GFlow是一种通过3D高斯点流表示视频的框架。GFlow的本质是交替优化每帧的相机位姿和高斯点，以重建4D世界。这个过程涉及将高斯点聚类为移动和静止类别，并对高斯点进行密化。相机位姿基于静止点确定，而移动点则优化以准确表示视频中的动态内容。

如图2所示，给定一个单目视频输入的图像序列{It}Tt=0，我们首先利用现成的算法导出相应的深度{Dt}Tt=0、光流{Ft}Tt=0和相机内参K。高斯点的初始化使用先验驱动的初始化方法。然后，对于时间t的每一帧It，GFlow首先将高斯点{Gi}t划分为静止簇{Gsi}t和移动簇{Gmi}t。优化过程分两步进行。第一步，只优化相机外参Et。这是通过将静止簇内的高斯点与深度Dt和光流Ft−1对齐来实现的。随后，在优化后的相机外参E∗t下，使用RGB It、深度Dt、光流Ft−1的约束进一步优化高斯点Gt。此外，使用我们提出的逐像素策略对高斯点进行密化，以纳入新出现的场景内容。在优化当前帧后，场景聚类、相机优化和高斯点优化的过程会重复进行，以处理后续帧。

5. 实验结果

重建4D世界，特别是在相机和内容移动的情况下，是一项极具挑战性的任务。由于我们是第一个解决这个问题的团队，我们选择了最接近解决此任务的方法CoDeF作为我们的基准。CoDeF采用隐式表示来学习用于建模单目视频的规范模板，这种方法缺乏物理可解释性，例如估计相机姿态。如表1所示，我们的GFlow在重建质量方面显示出显著优势。这种改进源于其显式表示，可以随着时间调整位置，同时保持视觉内容的一致性。

由于GFlow驱动高斯点跟随视觉内容的移动，在给定初始的一次性掩码提示后，所有在此掩码内的高斯点都可以传播到后续帧。这种传播形成了一个围绕这些点的凹壳新掩码。值得注意的是，这种能力是GFlow的副产品，无需额外的专门训练即可实现。评估结果如表2所示。即使没有初始掩码提示，GFlow仍然可以生成高质量的零次分割掩码。这些掩码是基于场景聚类中以无监督方式移动的高斯点生成的，如图1所示。

我们的方法可以重建4D世界以及相应的相机姿态。由于GFlow的一些组件是专门为动态场景设计的，我们略微调整了在Tanks and Temples数据集上的相机姿态准确性评估设置，该数据集包含静态场景。我们修改了场景聚类过程，将所有高斯点视为静态，因为在静态场景中不需要区分移动部分。结果如表3所示。作为一种即时优化方法，我们取得了与反复观察每个视图的全局优化方法相当的结果，同时所需时间显著减少。

6. 局限性

虽然 GFlow 有效地从单目未配准视频中重建了4D世界并启用了许多应用，但仍然存在一些关键挑战：我们的方法依赖于现成的深度和光流组件，其中的误差可能会影响重建的精度和保真度。具体而言，不准确的深度图可能导致高斯点的空间位置错误，而错误的光流则可能导致运动估计和动态场景表示的不正确。为了解决这些问题，我们可以集成更先进的多帧立体方法来改进深度估计，并结合语义特征来更好地关联和跟踪移动对象。此外，目前使用的 K-Means 聚类用于场景聚类在复杂场景中可能不足，暗示需要更复杂和全面的聚类策略。此外，我们的在线即时优化可能会随着时间的推移引入和积累错误；因此，实施回顾或全局优化方法可以减轻这些累积的错误并提高整体准确性。解决这些挑战对于提高 GFlow 在重建动态4D场景中的精度和鲁棒性至关重要。

7. 结论

我们提出了"GFlow"，这是一个旨在解决从单目视频输入中重建4D世界这一具有挑战性任务的新框架，称为"AnyV4D"。通过场景聚类和相机及高斯点的顺序优化，再加上逐像素密化，GFlow 实现了动态场景的恢复以及跨帧的相机姿态。进一步的功能如跟踪、分割、编辑和新视图渲染，突显了 GFlow 在视频理解和操作方面的革命性潜力。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、