24年12月来自北京智源的论文“You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale”。
最近的 3D 生成模型,通常依赖于有限规模的 3D“黄金标签”或 2D 扩散先验来创建 3D 内容。然而,由于缺乏可规模化的学习范例,它们的性能受到受限 3D 先验的上限。
See3D
,是一个针对大规模互联网视频进行训练的视觉条件多视图扩散模型,用于开放世界的 3D 创作。该模型旨在通过仅从庞大且快速增长的视频数据中查看视觉内容来获取 3D 知识 — 所见即所得。
为了实现这一目标,首先使用建议的数据管理流水线来扩展训练数据,该流水线会自动过滤掉源视频中的多视图不一致和观察不足。这产生了一个高质量、丰富多样、大规模的多视图图像数据集,称为
WebVi3D
,包含来自 16M 视频剪辑的 320M 帧。尽管如此,从没有明确 3D 几何或相机姿态注释的视频中学习通用 3D 先验并非易事,而为网络规模的视频注释姿态,其成本过高。为了消除对姿态条件的需要,引入了一种视觉条件 - 通过向掩码视频数据添加时间相关噪声来生成纯 2D 感应视觉信号。最后,通过将 See3D 集成到基于扭曲(warping)的高保真 3D 生成流水线中,引入了一种视觉条件 3D 生成框架。
在单一和稀疏重建基准上进行数值和视觉比较,在经济高效且可扩展的视频数据上训练的 See3D 实现了零样本和开放世界生成能力,明显优于在昂贵且受限 3D 数据集上训练的模型。此外,该模型自然支持其他图像条件的 3D 创建任务,例如 3D 编辑,而无需进一步微调。
如图所示
See3D
概述:
3D 生成领域的最新进展对于虚拟现实、娱乐和模拟等领域至关重要,它不仅有可能重现复杂的现实世界结构,而且还能拓展人类的想象力。然而,开发这些模型受到可访问 3D 数据集稀缺性和高成本的限制。尽管最近业界努力 [86、108、115] 创建大量专有 3D 资产,但这些举措带来了巨大的财务和运营负担。目前,为学术界构建如此大规模的 3D 数据集仍然成本高昂。这要求追求可扩展、可访问且价格合理的数据源,可以与先进的闭源解决方案相媲美,从而使更广泛的研究界能够训练高性能的 3D 生成模型。
人类对 3D 世界的感知并不依赖于特定的 3D 表示(例如点云 [17]、体素网格 [35]、网格 [90] 或神经场 [59])或精确的相机条件。相反,3D 觉察是由一生中积累的多视角观察形成的。这就提出了一个问题:模型能否从大量的多视角图像中同样学习通用的 3D 先验知识?幸运的是,互联网视频提供了丰富的多视角图像来源,这些图像是从不同位置使用不同的传感器和复杂的相机轨迹捕获的,提供了可扩展、可访问且经济高效的数据源。因此,如何才能有效地从互联网视频中学习 3D 知识?
实现这一目标的核心挑战有两个方面:1)从原始源中过滤相关的 3D 感知视频数据,特别是具有不同相机视点的静态场景,这些场景可以提供足够的多视角观察;2)从缺乏明确 3D 几何和相机状态注释的视频(即无姿态视频)中学习通用的 3D 先验知识。
将 2D 生成提升到 3D
。3D 生成的最新进展很大程度上得益于 2D 扩散模型的成功 [28、70、77、78],这些模型彻底改变了图像和视频生成。这些工作通常通过最大化 2D 扩散先验评估的似然值来优化 3D 表示 [38、43、47、57、66、80、82、95、109]。另一种方法是使用扭曲-修复流水线,将离线深度估计器与基于 2D 扩散的修复模型相结合,以迭代方式生成 3D 内容 [11、16、29、60、89、110、112]。然而,2D 先验不容易转化为连贯的 3D 表示。因此,基于 2D 提升的方法通常难以保持较高的几何保真度,从而导致多视图不一致和全局几何较差等问题 [111]。
直接学习 3D 先验
。为了更好地保留几何特征,一些工作侧重于直接学习 3D 先验。例如,前馈方法 [7、10、23、30、41、42、49、54、72、81、83、86、92、98、106、107、119、120] 将单个或几个视图作为输入,并使用编码器-解码器架构直接输出 3D 表示,从而无需对每个实例进行额外的优化过程。另一项研究涉及训练扩散模型来预测 3D 表示,例如点云 [61, 114]、网格 [1, 34, 55] 和隐式神经表示 [8, 56, 100, 115]。然而,这些方法通常侧重于目标级生成 [14, 83, 101, 115, 120],限制了它们在场景级生成的适用性。虽然最近的研究在构建场景级 3D 数据集方面取得了进展 [2, 12, 39, 45],但其规模仍然相对有限。对昂贵、规模有限的 3D 数据集的依赖限制了其在开放世界或极具想象力场景中的推广。
学习 3D 生成的多视图先验
。
多视角扩散 (MVD) 模型
继承了 2D 扩散模型的生成能力,同时捕捉了多视图相关性,实现了通用性和 3D 一致性。这些优点使其成为最近 3D 生成研究的焦点 [21、24、46、50、52、67、71、73、74、91、112]。然而,由于 2D 扩散模型通常在 2D 数据集上训练,因此它们缺乏对图像姿势的精确控制。为了解决这个问题,基于 MVD 的方法通常在与相机姿态配对的图像上训练模型 [22、48、71、97、99],其中姿态作为基本条件输入,由相机外参 [71、74]、相对姿态 [48、50、73] 或 Plucker 射线 [21、102] 表示。然而,姿态条件模型严重依赖于昂贵的姿态注释数据,将训练限制在较小的 3D 数据集上,从而限制了它们对分布外场景的适应性。
本研究的主要目标是从数据集扩展的角度构建一个强大的 3D 生成模型。先前的研究 [14, 69, 87] 费力地从设计艺术家、立体匹配或运动恢复结构 (SfM) 中收集 3D 数据,这些方法成本高昂,有时甚至不可行。相比之下,多视图图像提供了一种高度可扩展的替代方案,因为它们可以从海量且快速增长的互联网视频中自动提取。通过使用多视图预测作为前置任务,学习的 3D 先验知识可以实现各种 3D 创作应用,包括单视图生成、稀疏视图重建和开放世界场景中的 3D 编辑。
然而,识别 3D 感知视频并非易事。由于大多数视频都来自现实世界的镜头,因此此类视频通常包含动态场景或小幅摄像机移动。为了解决这个问题,提出一个流程,通过利用实例分割 [26]、光流 [85] 和像素跟踪 [36] 的先验知识,自动选择相关的高质量 3D 感知数据(即多视图图像)。该流程包括四个核心步骤:
a) 时空下采样。为了提高数据过滤效率,在时间和空间上对每个视频片段进行下采样。最终分辨率设置为 480p,时间下采样率设置为 2。请注意,此下采样操作仅在数据管理期间应用,而不是在模型训练期间应用。
b) 基于语义的动态识别。用实例分割模型 Mask R-CNN [26] 为潜在动态目标(例如人类、动物和运动器材)生成运动掩码。根据包含这些目标的帧比例应用阈值来过滤掉视频,因为它们更可能与动态场景相关联。