专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

3DV'25 | 谷歌新作CamCtrl3D：1张图像 + 1条轨迹 = 完整3D场景？

计算机视觉工坊 · 公众号 · · 2025-01-21 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：CamCtrl3D: Single-Image Scene Exploration with Precise 3D Camera Control

作者：Stefan Popov, Amit Raj, Michael Krainin, Yuanzhen Li, William T. Freeman, Michael Rubinstein

机构：Google DeepMind

原文链接：https://arxiv.org/abs/2501.06006

1. 导读

我们提出了一种从单幅图像和给定的相机轨迹生成场景的飞越视频的方法。我们建立了一个图像到视频的潜在扩散模型。我们使用四种技术，将它的UNet降噪器设置在摄像机轨迹上。(1)类似于MotionCtrl，我们将UNet的时间块置于原始摄像机extrinsics上。(2)我们使用包含相机光线和方向的图像，类似于CameraCtrl。(3)我们将初始图像重新投影到后续帧，并使用结果视频作为条件。(4)我们使用2D<=>3D变换器来引入全局3D表示，其隐含地以相机姿态为条件。我们将所有条件组合在一个ContolNet风格的架构中。然后，我们提出了一个评估整体视频质量和随着视图变化保留细节的能力的指标，我们用它来分析单个和组合条件的权衡。最后，我们确定一个最佳的条件组合。我们在我们的数据集中校准相机位置，以实现跨场景的比例一致性，我们训练我们的场景探索模型CamCtrl3D，展示最先进的结果。

2. 效果展示

我们的方法CamCtrl3D在给定初始图像(第0帧)和3D相机轨迹(最后一行)的情况下生成场景视频。生成的视频质量高，与地面真实情况(第一行)非常接近。

3. 引言

从单张图像和预定义的相机轨迹生成场景漫游视频，一直是计算机图形学和计算机视觉领域长期存在的挑战。其最终目标是为用户提供一种能力，即让他们仿佛走进自己的照片中；只需极少的拍摄工作量，就能将场景的单个特定视角转变为一种全方位的沉浸式观看体验。

近年来，图像和视频生成技术的进步，让我们离实现这一目标越来越近。在本文工作中，我们提出了一种方法，该方法将精确的3D相机控制直接集成到预训练的视频生成模型中。我们的方法利用视频模型学习到的先验知识，来生成对单张图像捕捉到的场景进行真实且可控的探索。

近期有几项工作探索了使用间接条件信号（如原始相机外参或带有相机光线坐标的图像）将相机控制融入到现有的视频模型中。我们采用了这两种信号，并提出了另外两种新颖的方法：（1）将全局3D表示整合到视频生成模型中，并使用物理精确的2D ⇔ 3D特征交换机制；（2）在后续帧上重新投影初始图像，并将生成的视频用作条件信号。第一种方法在模型中引入了显式的3D理解，并实现了与光传输原理一致的帧间交互。这隐式地将模型条件化在3D相机姿态上。第二种方法生成的重新投影序列与初始图像中观察到的表面的真实情况非常相似，从而使网络能够以最小的修改高效地复制这些区域。

我们将这四种条件方法（原始相机外参、相机光线、2D ⇔ 3D转换器、初始图像重新投影）整合到一个统一框架中，并提出了一种ControlNet风格的方法来组合这些方法。为了确定最佳组合，我们使用带有精确度量尺度相机姿态的数据集，研究了单个和组合条件的权衡。为了进行精确评估，我们引入了一种指标，该指标同时考虑了生成视频的整体质量和模型在视角变化时准确保留输入图像细节的能力。

最后，我们使用了确定的最佳条件组合（给予相机外参、2D ⇔ 3D和初始图像重新投影较大权重；给予相机光线较小权重，尽管仍然重要且能提高结果质量），并训练了我们的场景探索视频模型CamCtrl3D。我们使用了两个数据集，它们提供了具有自然构图和丰富内容的清晰视频。这些数据集中的相机姿态是通过结构从运动估计得出的，因此仅在未知的每个场景的全局缩放因子范围内是精确的。因此，为了确保在相机移动期间准确解释尺度，我们使用了一种当代的度量深度估计方法对数据集进行了度量尺度校准。

4. 主要贡献

我们的贡献如下：

（1）我们基于光传输原理提出了两种新颖的相机条件技术；

（2）我们将这些技术与现有工作中的技术整合到一个统一框架中；我们分析了单个和组合条件的权衡，并提出了最佳组合，然后使用最佳组合的条件策略训练了场景探索模型CamCtrl3D，展示了最先进的结果。

（3）我们提出了一种精确指标，用于评估整体质量和在视角变化时保留细节的能力。然后，我们对数据集中的相机位置进行了校准，使模型能够正确解释尺度。

5. 方法

时序块由跨时间的自注意力组成，随后是交叉注意力，使用CLIP从输入图像中提取特征。我们通过在这两个注意力层之间插入一个残差块，来对原始相机外参进行条件化（图2）。在其中，我们将4 × 3相机外参矩阵的12个条目与每个帧中每个像素的特征进行拼接。然后，我们使用前馈网络来压缩特征，以匹配交叉注意力的维度。这与MotionCtrl类似，但我们将前馈网络的输出作为残差，以促进反向传播。推荐课程：基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研] 。

我们以ControlNet风格架构将上述条件整合到UNet中。我们克隆了UNet的编码器，并将所有条件层附加到它上面。我们在其传出的残差连接上附加了零卷积层，并将其输出添加到原始编码器中相应的残差连接上（图4）。

6. 实验结果

7. 总结 & 未来工作

我们已经证明，通过利用视频模型的先验知识以及精心选择的一组条件技术，CamCtrl3D可以从单张图像生成场景的漫游视频。由于我们任务的性质，我们的训练集主要由静态场景的视频组成。因此，CamCtrl3D主要输出静态场景的视频。由于视频先验的作用，模型有时能够对其中的某些部分进行动画处理（例如，海洋中移动的波浪）。我们观察到，模型根据初始图像的内容，在不同程度上依赖于不同的条件技术，从而为某些类型的场景允许运动。我们假设，通过对包含具有校准相机参数的动态场景的数据集进行微调，可以增强模型生成包含运动对象的视频的能力。

此外，我们观察到，与生成14帧序列的模型相比，生成25帧序列的模型在相机运动更大的情况下更能保持视频质量。我们推测，这可能是因为它们可以对更小的帧间变化进行推理。我们尝试了更长的序列（最多80帧），但观察到了相反的效果。我们仅使用10K视频对SVD进行了微调，可能是训练样本的数量不足以使基础模型具备生成更长视频的条件。

总之，我们基于光传输原理提出了两种新颖的相机条件技术，并在统一框架内将这些技术与现有方法相结合。我们训练了一种方法，该方法可以从单张图像和相机轨迹生成具有最先进性能的漫游视频。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球