0. 论文信息
标题:MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
作者:Zehuan Huang, Yuan-Chen Guo, Xingqiao An, Yunhan Yang, Yangguang Li, Zi-Xin Zou, Ding Liang, Xihui Liu, Yan-Pei Cao, Lu Sheng
机构:Beihang University、VAST、Tsinghua University、The University of Hong Kong
原文链接:https://arxiv.org/abs/2412.03558
代码链接:https://huanngzh.github.io/MIDI-Page/
1. 导读
本文介绍了MIDI,一种从单幅图像合成三维场景的新方法。与依赖于重建或检索技术的现有方法或采用多阶段逐对象生成的最新方法不同,MIDI将预训练的图像到3D对象生成模型扩展到多实例扩散模型,从而能够同时生成多个具有精确空间关系和高概括能力的3D实例。在其核心部分,MIDI采用了一种新颖的多实例注意机制,可以直接在生成过程中有效地捕捉对象间的交互和空间一致性,而无需复杂的多步骤过程。该方法利用部分对象图像和全局场景上下文作为输入,在3D生成期间直接建模对象完成。在训练过程中,我们使用有限数量的场景级数据有效地监督3D实例之间的交互,同时结合单个对象数据进行正则化,从而保持预训练的泛化能力。MIDI展示了图像到场景生成方面的一流性能,通过对合成数据、真实世界场景数据和由文本到图像扩散模型生成的风格化场景图像的评估进行了验证。
2. 引言
从单张图像生成组合式3D场景颇具挑战性,因为从部分视角捕获的空间线索有限。事实上,要准确推断出场景中每个实例的3D几何形状以及多个实例之间的空间关系,需要对3D视觉世界有广泛的先验知识。
根据先验知识的处理方式,现有方法大致可分为两类。第一类方法通过从场景级别的3D数据集中训练的神经网络来编码3D几何形状,然后通过前向传播来推断新图像中的几何形状。由于监督数据的稀缺性,这些方法在未见过的场景中往往重建质量不佳。另一类方法在数据库中存储3D模型,然后检索并组装与输入图像相似的3D模型。然而,从单张图像中获取的有限几何线索使得难以精确识别和排列正确的模型。此外,由于3D数据库不可能包含与输入图像完全对应的所有可能模型,因此检索到的模型只能大致与物体对齐,从而导致不一致性。因此,这两类方法在新型物体形状和未见过的场景布局方面,都缺乏准确性和足够的跨域泛化能力。
最近的图像到3D物体生成模型具有强大的3D先验和泛化能力,可以从单张物体图像生成高质量的几何形状。在这些预训练模型的基础上,场景生成的一种常见方法是将它们作为多步骤组合生成过程中的工具来使用,这包括分割场景图像、完成单个物体图像、生成每个物体并优化其空间关系,如图2所示。虽然这些方法利用了3D物体生成模型的先验知识,但生成过程本质上很漫长,且容易出现误差累积——中间步骤中的错误会显著扭曲最终结果。此外,空间关系的优化不能直接优化前一阶段逐个生成的缺乏全局场景上下文的3D物体,从而导致生成的实例与整体场景之间存在错位。因此,如果能够在3D生成模型中直接建模物体间的空间关系,就有可能构建一个端到端的管道,通过同时生成具有一致空间排列的所有实例来解决这些问题。
我们提出了MIDI,它将预训练的3D物体生成模型扩展到多实例扩散模型,为组合式3D场景生成建立了一种新范式。我们的方法能够从单张场景图像中同时创建多个具有准确空间关系的3D实例,超越了独立的物体生成,实现了对场景的整体理解。基于大规模预训练的图像到3D物体生成模型,MIDI采用了一种新颖的多实例注意力机制,该机制能够在生成过程中直接有效地捕获复杂的物体间相互作用和空间一致性,从而消除了对复杂多步骤程序的需求。这种先进的设计使得可以直接生成连贯的3D场景,显著提高了效率和准确性。由于物体间空间关系的普遍性,我们在训练期间使用有限数量的场景级别数据集[15, 16]有效地监督3D实例之间的相互作用。此外,我们还结合了单个物体的数据进行正则化,从而保持了预训练模型的泛化能力。
为了验证我们提出范式的有效性,我们在合成数据集、真实世界场景以及由文本到图像扩散模型生成的各种风格化场景图像上进行了实验。结果表明,MIDI通过在我们预训练的3D生成模型中的多实例注意力机制有效地建模物体间相互作用,显著推动了3D场景生成领域的发展。MIDI能够生成具有准确几何形状和空间布局的高质量3D场景,同时展现出强大的泛化能力。
3. 效果展示
MIDI通过将预训练的图像到3D对象生成模型扩展到多实例扩散模型,结合了捕捉对象间交互的新颖的多实例注意机制,从单个图像生成合成的3D场景。(a)显示了我们生成的场景与通过现有方法重建的场景的比较。(b)展示我们在合成数据、真实世界图像和风格化图像上生成的结果。
4. 主要贡献
我们的主要贡献如下:
• 我们通过提出一个多实例扩散模型,为组合式3D场景生成建立了一种新范式,该模型将预训练的图像到3D物体生成模型扩展到生成空间相关的3D实例。
• 我们引入了一种新颖的多实例注意力机制,该机制有效地建模了跨实例的相互作用,确保了连贯性和准确的空间关系。
• 实验表明,MIDI实现了最先进的性能,通过准确捕获物体间关系并与输入更好地对齐,显著改进了3D场景的生成。
5. 方法
如图3所示,我们的多实例扩散模型在以下三个方面扩展了3D物体生成模型的原始DiT模块:1) 使用共享的降噪网络同时(即并行)对多个3D实例的潜在表示进行降噪,2) 在DiT模块中引入了一种新颖的多实例注意力机制,以学习跨实例交互并实现全局感知,3) 提出了一种简单而有效的方法来编码图像输入,包括局部物体图像和全局场景上下文。
框架概述。我们的多实例扩散模型通过扩展现有的3D物体扩散模型来同时降噪多个实例的3D表示。具体来说,我们保留了基础模型的VAE,以将多个实例的3D几何表示压缩成低维潜在特征{zi0}Ni=1。我们扩展了降噪网络ϵθ,使其以全局场景图像cg、N个局部物体的RGB图像{cil}Ni=1及其对应的掩膜{mil}Ni=1为条件。降噪网络学习将噪声{ϵi ∼ N(0, I)}Ni=1转换为3D数据分布,从而有效地捕获实例的空间配置。
推荐课程:
为什么说colmap仍然是三维重建的核心?
跨实例交互。组合式3D实例生成要求生成的多个实例在3D空间中表现出交互关系。为了实现这一点,我们在降噪过程中引入了一种多实例注意力机制,该机制在降噪期间的潜在特征空间中建模跨实例交互。该机制的集成将多个物体的生成从独立过程转变为同步交互过程,增强了全局场景的一致性,并确保物体之间的空间关系得到准确表示。
图像条件编码。为了编码所有图像条件,我们提出了一种简单而有效的方法,包括1) 使用基于ViT的图像编码器τθ[46]对全局场景信息和局部实例细节及位置进行编码,以及2) 使用交叉注意力层整合图像嵌入。具体来说,对于每个实例zi,我们将其RGB图像cil、掩膜mil和全局场景图像cg沿通道维度拼接,得到一个复合表示。然后,将复合图像输入具有扩展输入通道的基于ViT的编码器中以提取一系列图像特征。最后,我们在基于Transformer的降噪网络中使用交叉注意力机制来整合条件图像特征。
6. 总结 & 未来工作
未来工作。在我们提出的利用预训练对象生成模型进行组合式3D场景生成的多实例扩散方法的基础上,未来的研究可以探索以下几个方向:1)扩展该方法以建模组合场景中更复杂的交互,例如角色与物体的交互(例如“一只熊猫在弹吉他”),这需要专门的数据集;2)融入明确的3D几何知识,以开发更高效、更具表达力的多实例注意力机制;3)研究场景生成模型中潜在的、隐式的3D感知能力;4)扩展该框架以处理更多数量的对象,并在开放世界环境中运行。
结论。本文提出了MIDI,这是一种创新方法,在单幅图像生成3D场景方面取得了显著进展。通过将预训练的图像到3D对象的生成模型扩展到多实例扩散模型,并融入一种新颖的多实例注意力机制,MIDI有效地在生成过程中直接捕获了复杂的物体间交互和空间一致性。这能够实现具有准确空间关系的多个3D实例的同时生成,从而生成具有精确几何形状和空间布局的高质量3D场景。大量实验表明,MIDI在表现出强大泛化能力的同时,达到了最先进的性能水平。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球