专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

还在用COLMAP？北大最新开源Cycle3D：由图像生成高质量3D模型！

计算机视觉工坊 · 公众号 · · 2024-08-06 07:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

编辑：3DCV

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群。

扫描下方二维码，加入 3D视觉知识星球 ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近 20门视频课程(星球成员免费学习) 、 最新顶会论文 、 3D视觉最新模组 、 3DGS系列(视频+文档) 、计算机视觉书籍、优质 3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

在机器人、游戏和建筑等各个领域，高质量且多样化的3D资产都至关重要。传统上，这些资产的创建是一项劳动密集型的手工过程，需要熟练掌握复杂的计算机图形软件。因此，从单视图图像中自动生成多样且高质量的3D内容已成为3D计算机视觉领域的关键目标。

随着大规模3D数据集的出现，最近的研究主要集中在大型3D重建模型上。这些模型通常结合多视图扩散模型和稀疏视图重建模型来直接预测3D表示（如Triplane-NeRF和3D Gaussian Splatting），从而以前馈方式实现高效的3D生成。

然而，我们观察到现有方法往往存在如图1所示的两个问题：（1）质量低：多视图扩散模型和重建模型是在有限的合成3D数据集上进行训练的，导致生成的3D内容质量较低，且难以泛化到现实世界场景。（2）多视图不一致性：多视图扩散模型在生成像素级一致的多视图图像方面存在困难，而重建模型则通常是在一致的真实多视图图像上进行训练的。因此，不一致的多视图图像通常会严重影响重建结果，导致几何伪影和模糊纹理。

为了应对这些挑战，本文提出了Cycle3D方法。我们的方法设计基于以下两个关键见解：（1）在数十亿张网络图像上训练的预训练二维扩散模型可以生成高质量图像，这有利于三维重建；（2）重建模型可以确保多视图之间的一致性，并在二维扩散生成中注入一致性。具体而言，如图2所示，我们提出了一个统一的图像到三维生成框架，该框架在多步扩散过程中循环利用预训练的二维扩散模型和前馈三维重建模型。首先，我们将多视图扩散生成的多视图图像反转为初始噪声，作为形状和纹理先验。然后，在每个去噪步骤中，对多视图图像进行去噪并重建为三维几何形状（3D-GS）以进行重新渲染，形成一个循环以继续多步去噪。在去噪过程中，二维扩散模型逐渐提供更高质量的多视图图像，而重建模块则逐步纠正多视图之间的三维不一致性。重建模型可以通过与二维扩散模型中的特征交互来进一步提高重建质量。此外，由于二维扩散的先进发展，它可以控制在去噪过程中未见视图的生成，并在去噪过程中注入参考视图信息，从而进一步增强三维生成的多样性和一致性。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting

作者：Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Munan Ning, Li Yuan

机构：北京大学、鹏城实验室、新加坡国立

原文链接：https://arxiv.org/abs/2312.13271

代码链接：https://pku-yuangroup.github.io/Cycle3D/

2. 摘要

最近的3D大型重建模型通常采用两阶段过程，包括首先通过多视角扩散模型生成多视角图像，然后利用前馈模型将图像重建为3D内容。然而，多视角扩散模型往往产生低质量和不一致的图像，这会对最终3D重建的质量产生不利影响。为了解决这个问题，我们提出了一个统一的3D生成框架Cycle3D，该框架在多步扩散过程中循环使用基于2D扩散的生成模块和前馈3D重建模块。具体来说，2D扩散模型用于生成高质量的纹理，而重建模型则保证多视角的一致性。此外，2D扩散模型还可以进一步控制生成的内容，并为未见视图注入参考视图信息，从而在去噪过程中增强3D生成的多样性和纹理一致性。大量实验表明，与最先进的基线方法相比，我们的方法在创建高质量和一致的3D内容方面表现出优越的能力。我们的项目页面为：https://pku-yuangroup.github.io/Cycle3D/。

3. 效果展示

4. 主要贡献

我们进行了广泛的定性和定量实验，以验证我们提出的Cycle3D的有效性。实验结果表明，Cycle3D在图像到3D的任务上优于其他前馈方法，甚至超过了一些基于优化的方法。总结来说，我们的主要贡献可以归纳如下：

• 我们提出了一个统一的图像到3D生成框架Cycle3D，该框架在多步扩散过程中循环使用2D扩散模型和3D重建模型。在此框架下，2D扩散模型提高了多视角图像的质量，而重建模型增强了3D一致性。2D扩散与重建模型之间的特征交互进一步提高了重建质量。

• 利用2D扩散模型，Cycle3D能够控制未见视角的生成并注入参考视角信息，从而增强了3D生成的多样性和纹理一致性。

• 我们的实验表明，我们的框架超越了现有方法，实现了高质量且3D一致的图像到3D的生成，取得了令人满意的效果。

5. 基本原理是啥？

给定一张RGB图像，Cycle3D旨在利用扩散模型和重建模型生成高质量且一致的3D对象。具体来说，如图3所示，我们的框架利用预训练好的冻结2D扩散模型对多视角图像进行去噪，并利用重建模型纠正不一致性并重建3D内容。然后，我们在统一的扩散过程中将2D生成模型和3D重建模型串联起来，并执行生成-重建循环去噪，以实现高质量且一致的3D结果。

6. 实验结果

如表1所示，我们对测试数据集中生成的3D对象的质量进行了定量评估。值得注意的是，Cycle3D在所有指标上都超越了所有基线方法，甚至优于现有的基于优化的方法。此外，我们在GSO数据集[6]上也验证了我们的优越性，如表3所示。

7. 总结

在本文中，我们介绍了Cycle3D，这是一个图像到3D的生成框架，它在多步扩散过程中循环利用基于2D扩散的生成模型和3D重建模型。随着去噪过程的进行，2D扩散模型逐步生成质量更高的多视角图像，而重建模型则逐渐纠正3D不一致性。2D扩散模型还可以控制未见视角的生成，并在去噪过程中注入参考视角信息。重建模型进一步与2D扩散模型交互，增强了重建能力。广泛的实验表明，我们的方法在生成质量和一致性方面均优于现有的最先进基线方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： 具身智能、Mamba 、CV、大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总