专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

CAT4D：重建一切4D场景！（谷歌L7专家Jonathan T. Barron）

3D视觉工坊 · 公众号 · · 2024-11-29 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

作者：Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

机构：Google DeepMind、Columbia University、UC San Diego

原文链接：https://arxiv.org/abs/2411.18613

官方主页：https://cat-4d.github.io/

1. 导读

我们提出了CAT4D，一种从单目视频创建4D(动态3D)场景的方法。CAT4D利用在不同数据集组合上训练的多视图视频扩散模型，在任何指定的相机姿态和时间戳下实现新颖的视图合成。结合一种新的采样方法，该模型可以将单目视频转换为多视图视频，通过优化可变形的3D高斯表示实现鲁棒的4D重建。我们在新颖的视图合成和动态场景重建基准上展示了具有竞争力的性能，并强调了从真实或生成的视频生成4D场景的创造性能力。

2. 效果展示

CAT4D可以用真实或合成视频中创建4D场景。

3. How it works？

给定一个输入单目视频，我们使用我们的多视图视频扩散模型在新的视点生成多视图视频。这些生成的视频随后被用于将动态3D场景重建为变形的3D高斯。

CAT4D的核心是一个多视图视频扩散模型，它解开了摄像机和场景运动的控制。我们通过给定3个输入图像(具有相机姿态)生成三种类型的输出序列来证明这一点:1)固定视点和变化时间，2)变化视点和固定时间，以及3)变化视点和变化时间。

4. 方案对比

DyCheck数据集上单目视频动态场景重建的比较。

仅给定动态场景的几个造型图像，我们可以通过重建对应于一个输入视图的时间的静态3D场景来创建“子弹时间”效果。三个输入图像显示在左侧，其中第一个是目标项目符号时间帧。推荐课程：彻底搞懂3D人脸重建原理，从基础知识、算法讲解、代码解读和落地应用。

给定3个输入图像，我们生成三种类型的输出序列:1)固定视点和变化时间，2)变化视点和固定时间，以及3)变化视点和变化时间。

5. 总结

我们提出了CAT4D方法，该方法能够从捕获或生成的单目视频中创建4D场景。我们的多视角视频扩散模型能够将单目输入转换为一致的多视角视频，从而实现可变形3D高斯体的重建。

CAT4D存在几个局限性：扩散模型在处理输入帧之外的时间外推时遇到困难，并且无法完全将相机视角与时间进程分离开来，尤其是在动态物体被遮挡等具有挑战性的情况下。我们提出的交替采样策略在增加可生成帧数方面有效，但训练能够直接实现这一目标的大规模多视角视频模型是一个值得期待的未来研究方向。此外，尽管我们生成的4D场景从新视角看起来是合理的，但恢复的3D运动场可能在物理上并不准确。融入深度或运动估计等监督信号可能会提高我们结果的质量，但会降低我们的方法在密集视频捕获中的适用性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、