专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

全面增强扩散质量！即插即用！斯坦福3D-Adapter：高质量3D生成的几何一致多视图扩散

计算机视觉工坊 · 公众号 · · 2024-10-27 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation

作者：Hansheng Chen, Bokui Shen, Yulin Liu, Ruoxi Shi, Linqi Zhou, Connor Z. Lin, Jiayuan Gu, Hao Su, Gordon Wetzstein, Leonidas Guibas

机构：Stanford University、Apparate Labs、UC San Diego、Hillbot

原文链接：https://arxiv.org/abs/2410.18974

代码链接：https://github.com/Lakonik/MVEdit

1. 导读

多视图图像扩散模型极大地促进了开放域3D对象的生成。然而，大多数现有模型依赖于缺乏固有3D偏差的2D网络架构，导致几何一致性受到损害。为了应对这一挑战，我们引入了3D-Adapter，这是一个插件模块，旨在将3D几何感知融入预训练的图像扩散模型中。我们方法的核心是3D反馈增强的思想:对于采样循环中的每个去噪步骤，3D-Adapter将中间多视图特征解码为连贯的3D表示，然后对渲染的RGBD视图进行重新编码，以通过特征添加来增强预训练的基础模型。我们研究了3D-Adapter的两种变体:基于高斯分布的快速前馈版本和利用神经场和网格的通用免训练版本。我们的大量实验表明，3D-Adapter不仅大大增强了文本到多视图模型(如Instant3D和Zero123++)的几何质量，而且还支持使用纯文本到图像的稳定扩散进行高质量的3D生成。此外，我们通过在文本到3D、图像到3D、文本到纹理和文本到化身任务中呈现高质量的结果，展示了3D适配器的广泛应用潜力。

2. 引言

扩散模型在视觉合成领域近期取得了显著进展，在图像生成方面达到了生产级别的质量。然而，由于大规模数据集的稀缺以及缺乏统一且对神经网络友好的表示方法，二维扩散模型的成功并不容易扩展到三维领域。为了弥合二维与三维生成之间的鸿沟，研究者们从预训练的图像或视频模型中微调了新视角或多视角扩散模型，通过涉及多视角生成和随后三维重建的两阶段范式来促进三维生成。虽然这些模型通常在不同视角之间表现出良好的全局语义一致性，但实现局部几何一致性是一个关键挑战。这要求确保局部特征的精确二维到三维对齐，并保持几何合理性。因此，这些两阶段方法经常遭受浮动伪影的困扰，或产生模糊、细节不足的三维输出。

为了增强局部几何一致性，先前的工作探索了在去噪采样循环中插入三维表示和渲染操作，同步网络的去噪输出或噪声输入，我们称之为I/O同步。然而，我们观察到I/O同步通常会导致纹理和几何形状过于平滑，细节不足。这一现象可归因于两个因素：

• 扩散模型通常包含残差连接（如在U-Net和Transformer（中所示），以确保在去噪过程中保留重要信息。然而，三维重建和渲染是损失性操作，会破坏残差连接。

• 对于Liu等人和Gao等人中的纹理生成方法，I/O同步等同于多视角分数平均，这在理论上会导致模式崩溃，导致生成的输出中丢失精细细节。

为了克服I/O同步的局限性，我们提出了一种新颖的方法，称为三维反馈增强，它在基础模型上附加了一个三维感知的并行分支，同时保留了原始网络拓扑结构并避免了分数平均。本质上，该分支解码来自基础模型的中间特征，以重建一个中间三维表示，然后对其进行渲染、编码，并通过特征加法反馈回基础模型，从而增强三维感知能力。推荐课程：扩散模型入门教程：数学原理、方法与应用。

具体来说，当使用去噪U-Net作为基础模型时，我们将三维反馈增强实现为三维适配器（3D-Adapter），它重用原始U-Net的一个副本，并添加了一个三维重建模块来构建并行分支。得益于其类似ControlNet的模型重用，三维适配器在存在合适的现成ControlNet时，几乎不需要训练或完全不需要训练。

为了展示其灵活性，本文提出了两种三维适配器的变体。

使用前馈高斯重建的快速三维适配器。给定一个现成的多视角扩散模型，我们使用其原始的U-Net和VAE来解码中间去噪图像，然后将其输入到前馈高斯重建模型（GRM）中，以获得三维高斯溅射（3DGS）。随后，使用微调后的U-Net编码器（ControlNet）对渲染的RGBD图像进行重新编码，将特征融合回原始U-Net解码器，以产生一致的去噪输出。我们对GRM和ControlNet模型进行了两个阶段的微调，并证明了三维适配器可以极大地增强基础模型（如Instant3D和Zero123++）的几何一致性。

使用三维优化和预训练ControlNet的灵活免训练三维适配器。除了使用前馈重建模型外，我们还探索了通过优化Instant-NGP神经辐射场（NeRF）和DMTet网格来聚合多个独立视角的中间图像，这使得相机布局的选择具有高度灵活性。对于具有现成ControlNet的流行基础模型（如Stable Diffusion），可以使用“tile”和深度ControlNet的组合对渲染的RGBD图像进行重新编码，从而无需进一步微调。对于纹理生成，优化可以被更高效的纹理反投影方法所替代。

3. 效果展示

不同架构生成的结果之间的比较。为文本到3D、图像到3D和文本到头像启用纹理细化。

4. 方法

为了克服I/O同步的局限性，我们的核心思想是三维反馈增强架构，该架构在去噪网络的中途重建一个三维表示，并使用类似ControlNet的特征加法将渲染的视图反馈回网络。该架构保留了基础模型的原始流程，同时有效地利用了其固有的先验知识。

基于这一思想，我们提出了如图2（c）所示的三维适配器。对于每个去噪步骤，在将输入噪声视图xt通过基础U-Net编码器传递后，我们使用基础U-Net解码器的一个副本来首先输出中间去噪视图ˆx′t。然后，三维重建模型将这些中间视图提升为一致的三维表示，从中渲染出一致的RGBD视图˜xt，并通过ControlNet编码器反馈回网络。该编码器的输出特征被添加到基础编码器特征中，然后再次由基础解码器处理，以产生最终的去噪输出ˆxt。完整的去噪步骤可以表示为：

其中R表示三维重建和渲染，Daug表示具有反馈ControlNet的增强U-Net。根据基础模型和三维重建方法的选择，可以实现各种三维适配器。

5. 实验结果

6. 总结 & 未来工作

在本研究中，我们引入了3D适配器（3D-Adapter），这是一个插件模块，能够有效增强现有多视角扩散模型的3D几何一致性，从而弥合高质量2D与3D内容创作之间的鸿沟。我们展示了3D适配器的两种变体：一种是使用前馈高斯重建的快速3D适配器（fast 3D-Adapter），另一种是使用3D优化和预训练ControlNets的灵活且无需训练的3D适配器（flexible training-free 3D-Adapter）。在文本到3D、图像到3D、文本到纹理以及文本到虚拟形象等任务上的实验充分证明了其全面的能力，表明其具有良好的通用性和未来扩展潜力。

局限性。3D适配器引入了较大的计算开销，这主要是由于3D重建之前的变分自编码器（VAE）解码过程所致。此外，我们观察到，为3D反馈增强而微调的ControlNet严重过拟合于微调数据，尽管提出了引导方法，但其泛化能力可能仍受到限制。未来的工作可以聚焦于为3D适配器开发更高效、更易于微调的网络。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

这里给大家推荐一门我们最新的课程 《 扩散模型入门教程：数学原理、方法与应用 》：