专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
华商报  ·  张伟丽再度卫冕金腰带! ·  2 天前  
华商报  ·  张伟丽再度卫冕金腰带! ·  2 天前  
51好读  ›  专栏  ›  极市平台

几秒生成逼真3D场景,泛化媲美Stable Diffusion | 浙大 & 蚂蚁等提出Prometheus

极市平台  · 公众号  ·  · 2025-01-16 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨AI生成未来
来源丨AI生成未来
编辑丨极市平台

极市导读

浙大和蚂蚁集团提出的Prometheus模型,这是一种面向文本到3D生成的3D感知隐空间扩散模型,能够在几秒钟内生成逼真的3D场景。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接: https://arxiv.org/pdf/2412.21117

git链接: https://freemty.github.io/project-prometheus/

亮点直击

  • Prometheus ,这是一种面向文本到3D生成的3D感知隐空间扩散模型,适用于对象和场景级别。
  • 按照标准的隐空间扩散范式,将训练分为两个不同的阶段。在第一阶段,训练一个3D高斯变分自编码器(GS-VAE),它以多视角或单视角RGB-D图像为输入,预测每个像素对齐的3D高斯。在第二阶段,训练一个多视角LDM,联合预测多视角RGB-D隐空间code,并以相机姿态和文本提示为条件。
  • 此外,本文的完整模型在9个多视角和单视角数据集的组合上进行训练,旨在实现与Stable Diffusion相当的泛化能力。
  • 展示了该方法在前馈3D高斯重建和文本到3D生成中的有效性,表明本模型能够在几秒钟内生成3D场景,同时很好地泛化到各种3D对象和场景。

总结速览

解决的问题

  • 实现从文本到3D场景的高效生成,适用于对象级别和场景级别。
  • 提升生成3D内容的保真度和几何质量,同时确保模型具备良好的泛化能力。
  • 改善现有方法在3D生成中的效率问题,实现快速且高质量的3D生成。

提出的方案

  • 多视图、前馈、像素对齐的3D高斯生成 :将3D场景生成表述为在隐空间变量扩散框架中的这一过程。

  • 两阶段训练框架

  1. 第一阶段 :训练3D高斯变分自编码器(GS-VAE),以多视角或单视角的RGB-D图像为输入,预测每个像素对齐的3D高斯。
  2. 第二阶段 :训练多视角隐空间变量扩散模型(LDM),联合预测多视角RGB-D隐空间代码,并以相机姿态和文本提示为条件进行生成。
  • RGB-D隐空间变量空间的引入 :通过解耦外观和几何信息,优化3D高斯生成的效率和质量。

  • 基于预训练模型的微调 :以预训练的文本到图像生成模型为基础,进行最小调整后,利用来自单视图和多视图数据集的大量图像进行训练。

  • 应用的技术

    • 隐空间变量扩散模型(LDM) :作为生成框架,结合3D高斯生成和多视角条件。
    • 3D高斯变分自编码器(GS-VAE) :用于从RGB-D图像中提取隐空间变量并生成像素对齐的3D高斯。
    • RGB-D隐变量空间 :解耦外观(RGB)和几何信息(D),提升生成的保真度和几何质量。
    • 多视角训练数据 :结合9个多视角和单视角数据集,增强模型的泛化能力。
    • 前馈生成策略 :相比传统方法,显著加速生成过程。

    达到的效果

    • 高效生成 :在几秒内实现对象级别和场景级别的3D生成。
    • 高质量输出 :生成的3D内容在保真度和几何质量上表现优异。
    • 良好的泛化能力 :在不同类型的3D对象和场景中均表现出色,与Stable Diffusion相当的泛化能力。
    • 实验验证 :大量实验结果证明了Prometheus在前馈3D高斯重建和文本到3D生成中的有效性。

    方法

    如下图2所示,Prometheus遵循常见的隐空间变量扩散框架,该框架包括两个训练阶段。在第一个阶段,3D自动编码器GS-VAE从多视图图像中学习压缩和抽象的隐空间变量空间。随后,它将该隐空间变量空间解码为像素对齐的3D高斯(3DGS)表示,作为场景级别的表示。在第二个阶段,一个隐空间变量多视图扩散模型(MVLDM)在第一阶段自动编码器生成的隐空间变量表示上进行训练,从而形成一个完全生成的模型。最后,详细说明了采样策略,该策略能够在几秒钟内采样出3D场景,同时保持一致性和视觉保真度。

    第一阶段: GS-VAE

    在阶段 1 中,目标是训练一个能够将数据压缩到隐空间并随后将其重建为3D表示的3D自动编码器。给定具有相机位姿的多视角输入图像,GS-VAE输出多视角像素对齐的3D高斯表示(3DGS)。这些输出随后被合并为场景级别的3D表示。

    编码多视角RGB-D图像。 提出将RGB图像及其预测的单目深度图一起编码到隐空间中,考虑到单目深度图为后续的3D高斯解码过程提供了线索,并且可以轻松获取。给定一组多视角图像

    其中每张图像 是一个底层3D场景的观察结果,我们首先使用一个现成的深度估计器来获得它们对应的单目深度图:

    接下来,我们利用一个预训练的图像编码器 对多视角图像 及其深度图 进行编码,以获得潜表示:

    其中 是下采样后的分辨率。在实际操作中,使用预训练的 Stable Diffusion(SD)图像编码器,并在训练过程中冻结它。最近的方法(如 Marigold)表明,SD 编码器在处理深度图时表现出强大的泛化能力。因此,我们选择使用相同的 SD 编码器分别对图像和深度进行编码,而无需进行微调。随后,我们将这些编码表示进行拼接,以获得完整的多视图隐空间变量 ,该隐空间变量可用于 3D 重建。此外,我们的扩散模型在联合的 RGB-D 隐空间变量空间中进行训练。

    融合多视图隐空间变量图像

    最近的研究进展 [26, 35, 77, 101, 102] 强调了基于 Transformer 的模型在整合多视图信息方面的显著潜力。由于每个视图的隐空间变量编码 是独立生成的,我们采用多视图 Transformer 来促进跨视图信息的交换。

    我们进一步向多视图 Transformer 中注入 个相机姿态。受近期研究 的启发,我们选择 Plücker 坐标作为相机表示,具体为 ,其中 表示归一化的光线方向, 表示相机原点。因此,初始的 个相机姿态可以重新参数化为多视图光线图

    通过在特征通道上拼接多视图隐空间变量编码 和相机光线图 ,并将它们输入到跨视图 Transformer中,从而获得融合的隐空间变量编码 ,该编码融合了多视图上下文信息:

    解码为高斯场景 将原始图像的隐空间变量编码 ,光线图 和融合后的隐空间变量编码 进行拼接,并将它们输入解码器,从而获得像素对齐的多视图 3D 高斯场景

    其中, 是与每张图像对应的像素对齐的三维高斯分布。一个三维高斯分布的参数包括: 1 通道的深度,4通道的旋转四元数,3通道的尺度,1通道的不透明度以及3通道的球谐系数。因此,在我们的公式中, 。 在聚合多视图三维高斯分布后,我们可以得到最终的场景级三维高斯分布 ,如公式(4)所示:

    这里, 表示聚合操作,通过将所有的 3D 高斯转换为全局坐标系来实现。 表示完整高斯基元的数量,其等于

    在实践中,该架构同样适用于单视图图像,此时 等于 1 。在训练过程中,同时从单视图和多视图图像中进行采样。此外,为了最大化利用 2D 生成先验,遵循 Director3D 的方法,并对预训练的 Stable Diffusion 图像解码器进行轻微修改,将其重新用作我们的高斯解码器 。具体来说,仅调整了第一层和最后一层卷积层的通道数。

    损失函数 给定重建的场景级 3D 高斯 ,可以从任意视点对其进行渲染。设 表示给定的视点,可以从 渲染出相应的 RGB 图像和深度图:

    其中, 表示 3D 高斯点渲染的可微分渲染。随后可以应用渲染损失,该损失结合了 MSE(均方误差)损失和感知损失:

    除了在RGB域上的渲染损失外,还在渲染的期望深度 与单目深度 之间施加损失,后者作为伪几何真实值,如下所示:

    其中, 是一种尺度不变的深度损失,引用了[55]的方法。这里, 是用于将 对齐的尺度和偏移,因为 仅在尺度和偏移上是定义的。使用最小二乘准则来确定

    完整的 GS-VAE 损失函数如下:

    其中, 表示 GS-VAE 中可优化的参数, 用于平衡每个损失项的权重。

    第二阶段: 几何感知多视图降噪器

    在第一阶段的训练之后,获得了一个GS-VAE,其具备以下能力:

    • 能够高效地将图像压缩到一个紧凑的隐空间空间中;
    • 通过3D高斯解码器在2D和3D之间架起桥梁.

    这种能力使能够在隐空间空间中训练多视图扩散模型(MV-LDM)。目标是联合生成多视图RGB-D隐空间编码 ,以提供更丰富的几何线索用于解码 3 DGS 。因此,制定了一个连续时间去噪扩散过程,该过程以文本提示 和相机姿态 为条件。扩散模型包括一个随机的前向过程,用于将一个噪声水平的高斯噪声注入到输入的隐空间编码中,以及一个通过可学习去噪器 移除噪声的反向过程。

    训练。 在每个训练步骤中,采样一个噪声水平 ,其中 。接下来,将这一水平的噪声添加到干净的多视图隐空间编码 中,以获得带噪声的隐空间编码 为:

    在反向过程中,扩散模型通过一个可学习的多视图去噪器 去噪为预测的干净隐空间编码 ,表示如下:

    其中, 分别是文本和相机姿态的条件。MV-LDM 是通过在隐空间中使用去噪得分匹配 (DSM)进行训练的。

    带有加权函数 。在本工作中,我们遵循 EDM,并将去噪器 参数化为:

    其中, 是要训练的 UNet, 是预处理函数。此外,与阶段1中的公式(3)一致,使用射线图作为姿态表示,并通过将其与带噪声的隐空间编码 沿特征通道连接的方式将其引入网络中。此外,文本提示条件通过交叉注意力机制引入。

    受最近多视图扩散方法 [18, 38, 63] 的启发,将原始 UNet 中的自注意力块替换为3D跨视图自注意力块,以捕捉多视图相关性。在实践中,为了利用预训练的文本到图像模型的先验,从预训练的文本到图像扩散模型(特别是 Stable Diffusion 的 UNet)初始化模型

    采样。 在采样时,多视图隐空间编码 是通过在文本提示和相机姿态的条件下,从随机采样的高斯噪声 开始,通过迭代应用训练好的 MV-LDM 的去噪过程恢复的。

    其中, 是从一个具有 步固定方差计划的去噪过程采样得到的。

    噪声水平的重要性 受近期研究工作的启发 ,认识到在去噪步骤中较低的信噪比(Signal-to- Noise Ratio,SNR)对于确定内容的全局低频结构至关重要。此外,在采样过程中较低的 SNR 对于在多视图扩散模型 中实现多视图一致性也是必不可少的。因此,在 MV-LDM 的多视图训练中采用了一个相对较大的噪声分布,具体为 ,而在单视图训练中采用了

    几秒钟内生成文本到 3D 场景

    基于上述模型,可以通过以下方式实现前馈的文本到3D场景生成:从隐空间中使用多视图扩散模型 对随机采样的高斯噪声 进行采样,生成多视图的 RGB-D 隐空间变量 ,随后通过 GS-VAE 解码器解码为一个 3 D 高斯场景

    为了以高质量进行采样并与条件对齐,使用无分类器引导(CFG)来引导多视图生成朝向条件信号







    请到「今天看啥」查看全文