专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

1000倍提速！DreamCraft3D再次进化！DreamCraft3D++：超快实现你的3D数字资产！

3D视觉工坊 · 公众号 · · 2024-10-26 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章介绍了DreamCraft3D++，一个高效生成复杂3D资产的框架。该框架在DreamCraft3D的基础上进行了改进，通过前馈式多平面重建模型替代了耗时的几何雕刻优化，成功实现了1000倍的速度提升。同时，DreamCraft3D++利用增强的多视图图像提高了纹理和几何形状的一致性，生成具有逼真360°纹理的3D对象，显著超越了现有图像转3D方法的质量和速度。文章还指出了该框架在处理复杂输入时的局限性，并提出了未来改进的方向，包括增强多视图扩散模型和支持灵活的输入格式。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：DreamCraft3D++: Efficient Hierarchical 3D Generation with Multi-Plane Reconstruction Model

作者：Jingxiang Sun, Cheng Peng等

作者机构：Tsinghua University等

论文链接：https://arxiv.org/pdf/2410.12928

2. 摘要

我们介绍了DreamCraft3D++，这是DreamCraft3D的扩展，能够高效地生成复杂的3D资产。DreamCraft3D++继承了DreamCraft3D的多阶段生成过程，但用前馈多平面重建模型替换了耗时的几何雕刻优化，使得生成过程加快了1000倍。为了改进纹理，我们提出了一种无训练的IP-Adapter模块，该模块基于增强的多视图图像进行条件调整，以提高纹理和几何的一致性，提供了一种比DreamCraft3D的DreamBooth微调快4倍的替代方案。对多样化数据集的实验表明，DreamCraft3D++能够生成具有复杂几何形状和真实360°纹理的创意3D资产，在质量和速度上超越了现有的图像到3D的方法。完整的实现将开源，以开启3D内容创作的新可能性。

3. 效果展示

通过将2D图像提升为3D，DreamCraft3D++实现了具有丰富细节和整体3D一致性的3D生成。请参阅演示视频了解更多结果。

与GSO数据集基线的定性比较。

与互联网图像上的基线进行定性比较。

4. 主要贡献

在粗糙几何雕刻阶段，我们引入了一种基于前馈多平面的大型重建模型，以替代DreamCraft3D中耗时的优化，速度提高了1000倍，结果相当；
我们引入了一种无训练的IP-Adapter以增强纹理和几何，实现与DreamCraft3D的DreamBooth微调相当的结果，同时速度快4倍。我们的IP-Adapter基于相机位置的动态嵌入选择解决了纹理不一致性并保持了保真度，提供了DreamCraft3D方法的高效替代方案；推荐课程：彻底搞懂3D人脸重建原理，从基础知识、算法讲解、代码解读和落地应用。
与DreamCraft3D相比，我们在更广泛的数据集上进行了实验，展示了我们模型在其他图像到3D方法中的鲁棒性和优越性。

5. 基本原理是啥？

多阶段生成流程 ：DreamCraft3D++构建在DreamCraft3D的基础上，采用了一个多阶段的生成流程，以高效地生成复杂的3D资产。这个流程通过多个步骤逐步完善3D模型。
前馈式多平面重建模型 ：为了提高速度，框架使用了前馈式的多平面重建模型，取代了耗时的几何雕刻优化。这样可以显著提高生成效率，达到1000倍的速度提升。
增强的多视图图像 ：框架利用增强的多视图图像进行纹理细化。通过改善纹理和几何的一致性，生成的3D资产具有更高的质量。
无训练的IP-Adapter模块 ：该模块不需要额外的训练，通过整合多个视图的信息来提升生成结果的质量，提供了比传统微调方法更快的解决方案。
360°纹理 ：DreamCraft3D++能够生成具有逼真360°纹理的3D资产，这意味着生成的对象在各个角度看起来都非常自然和真实。
广泛的应用范围 ：框架不仅适用于单个对象的生成，还可以扩展到整个场景的创建，支持多种输入格式，包括视频序列和多张未摆姿的图像。

6. 实验结果

速度提升 ：DreamCraft3D++实现了相较于DreamCraft3D的显著速度提升，达到1000倍。这一改善主要得益于前馈式多平面重建模型的应用，极大缩短了生成复杂3D资产所需的时间。
图像质量 ：通过使用增强的多视图图像，框架能够生成更高质量的3D资产。纹理细化的过程改善了纹理和几何形状的一致性，确保生成的3D对象在视觉上更加真实和自然。
360°纹理效果 ：实验表明，DreamCraft3D++能够成功生成具有逼真360°纹理的3D对象，显著提升了模型在不同视角下的表现。这使得生成的资产在虚拟现实、游戏开发和其他视觉应用中具备更高的适用性。
复杂输入处理 ：尽管Zero123++在处理复杂输入时表现出一定的局限性，但DreamCraft3D++在大多数情况下能够有效生成所需的3D资产。这证明了其在各种输入条件下的灵活性和适应性。
与现有技术的比较 ：DreamCraft3D++在质量和速度上都显著优于现有的图像转3D方法。实验结果表明，该框架在生成复杂3D资产方面表现出色，超越了当前的最先进技术。

7. 总结 & 未来工作

局限性 。尽管DreamCraft3D++在高质量3D生成方面展现出令人印象深刻的能力，但它并非没有局限性。一个显著的缺点是Zero123++生成的多视图图像的质量，这些图像被直接用于通过MP-LRM和IPAdapter提示条件进行3D重建。当输入复杂或存在显著的升高角度时，Zero123++难以生成令人满意的多视图图像。此外，DreamCraft3D++输出的3D对象具有固定的光照效果，使其不适合需要可控光照条件的图形管道。

未来工作 。未来的工作中，一个有前景的方向是探索增强的多视图扩散模型，这些模型能够提供更高质量的输出，并适应输入图像中更广泛的升高角度。此外，将物理基础渲染（PBR）材料整合到3D生成过程中可能会带来显著的改进。最后，将3D生成的范围从单个对象扩展到整个场景是至关重要的，特别是通过支持灵活的输入格式，例如捕获的视频序列或多个未摆姿的图像。

结论。在这项工作中，我们提出了DreamCraft3D++，这是一个高效生成复杂3D资产的高质量框架。基于DreamCraft3D的多阶段过程，我们用前馈式的多平面重建模型替代了耗时的几何雕刻优化，实现了1000倍的速度提升。在纹理优化方面，我们的无训练IP-Adapter模块利用增强的多视图图像提高纹理和几何的一致性，提供了比DreamCraft3D的DreamBooth微调快四倍的解决方案。我们的方法生成复杂的3D资产，具备逼真的360°纹理，在质量和速度上显著优于当前最先进的图像到3D方法。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。