一句话总结:给定自由定义的布局和视点,我们生成逼真的3D场景。
0. 论文信息
标题:SceneCraft: Layout-Guided 3D Scene Generation
作者:Xiuyu Yang, Yunze Man, Jun-Kun Chen, Yu-Xiong Wang
机构:Shanghai Jiao Tong University、University of Illinois Urbana-Champaign
原文链接:https://arxiv.org/abs/2410.09049
代码链接:https://github.com/OrangeSodahub/SceneCraft/
官方主页:https://orangesodahub.github.io/SceneCraft/
1. 导读
使用传统的3D建模工具来创建根据用户需求定制的复杂3D场景是一项乏味且具有挑战性的任务。尽管一些开创性的方法已经实现了文本到3D的自动生成,但是它们通常局限于对形状和纹理具有有限控制的小规模场景。我们引入了SceneCraft,这是一种新的方法,用于生成符合用户提供的文本描述和空间布局偏好的详细室内场景。我们方法的核心是基于渲染的技术,它将3D语义布局转换成多视图2D代理地图。此外,我们设计了一个语义和深度条件扩散模型来生成多视图图像,用于学习神经辐射场(NeRF)作为最终的场景表示。没有全景图像生成的限制,我们在支持单个房间之外的复杂室内空间生成方面超越了以前的方法,甚至复杂到具有不规则形状和布局的整个多卧室公寓。通过实验分析,我们证明了我们的方法在复杂的室内场景生成方面明显优于现有的方法,具有不同的纹理、一致的几何形状和逼真的视觉质量。
2. 引言
生成多样且复杂的3D场景在提升虚拟现实和增强现实(VR/AR)体验、视频游戏开发以及以人为本的具身人工智能进步方面发挥着关键作用。然而,手动创建这些复杂的3D场景是一个繁琐的过程,需要深厚的3D建模工具知识和熟练度。近期,2D生成模型的成功推动了一系列文本到3D(Text-to-3D)工作的发展。尽管这些方法在物体生成方面取得了令人瞩目的表现,但从物体级别扩展到场景级别生成仍面临重大挑战。这涉及在保持复杂语义的同时管理一个更大的空间,同时确保不同相机视角下的3D一致性(包括形状、纹理、遮挡等)。
近期在场景级别3D生成方面的进展为创建更大规模的虚拟环境开辟了新途径。大多数工作利用图像修复或多视图扩散方法来优化文本指导的3D场景。这些方法在生成局部逼真的纹理网格时,存在两个共同的缺点:(1)注重局部连贯性,通常难以准确描绘出几何上一致、布局合理且语义细节丰富的房间。(2)仅依赖于文本提示,这些方法在控制整个场景的组成和布局方面不够精确。尽管一些同期研究探索了基于用户定义的3D布局生成室内环境的方法,但仅限于创建涉及多个物体的小规模组合,或由于使用全景表示,缺乏生成具有复杂布局、形状和自由相机视角的多个房间的能力。
在本文中,我们介绍了一种名为SceneCraft的新方法,旨在根据用户指定的自由形式布局生成高质量的室内场景。我们的方法包含两个关键的创新设计:
用户友好的语义感知布局控制。我们的方法的核心是利用3D边界框来指导目标空间的布局,即“边界框场景(BBS)”,它允许用户使用简单的边界框来设计复杂且自由形式的房间布局。通过这种布局格式,用户可以像在玩《我的世界》游戏一样建造建筑,轻松定义房间内的空间布局和物体位置。SceneCraft利用这一初步设计来生成详细且逼真的场景。我们在支持复杂室内布局方面超越了以往的方法,不仅能生成单个房间,甚至能生成整个三层、包含多层和不规则房间的复杂房屋。
基于2D扩散模型的高质量复杂场景生成。我们的框架利用预训练的2D扩散模型SceneCraft2D的先进生成能力,在创建3D场景方面表现出色。SceneCraft2D通过ControlNets将从BBS渲染的“边界框图像(BBI)”作为条件,生成符合给定简单提示(如“这是[风格描述]房间的一个视图”)的高保真房间视图。通过SceneCraft2D获得高质量的多视图图像后,我们成功提取了生成室内场景的高分辨率3D表示。
我们的工作在多视图室内场景数据集上进行训练,在定量和定性方面都实现了最先进的3D室内场景生成性能。我们提出了第一个有效的框架,用于生成复杂的文本和布局指导的3D一致场景,具有自由相机轨迹和丰富语义。
3. 效果展示
我们的新方法从3D空间布局和文本描述中生成复杂和详细的室内场景。给定表示为“边界框场景(BBS)”的用户指定布局,我们的方法渲染成批的2D布局和粗略的深度图,然后将它们转换成高质量的3D场景。
我们展示了SceneCraft利用任意相机轨迹生成更复杂的室内场景的能力。这种不规则的房间形状是以前的作品无法自然达到的。
4. 主要贡献
我们的技术贡献主要有三点:
• 我们提出了一种新颖的布局指导的3D场景生成框架,用于创建符合用户规范的复杂室内场景,是首个在多视图自由轨迹上操作且不受全景约束的方法。
• 我们引入了“边界框场景”作为用户友好的格式,让用户可以像玩《我的世界》游戏一样轻松勾勒出想要的房间,从而提供精确的几何控制。
• 我们设计了一个高质量的2D扩散模型SceneCraft2D,根据从“边界框场景”渲染的“边界框图像”生成高保真度和高质量的房间,并通过文本条件支持多种风格的生成。
推荐课程:
基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]
。
凭借这些贡献,我们的SceneCraft实现了高质量生成各种精细且复杂的室内场景,而这些场景在以往的工作中尚未得到支持。
5. 方法
我们的SceneCraft是一种新颖的文本和布局指导的场景生成方法。如图2所示,SceneCraft的输入包括(1)作为目标场景风格和内容的粗略描述的提示,(2)作为目标场景布局指导的“边界框场景(BBS)”,以及(3)在BBS空间中定义的相机轨迹。SceneCraft在相机轨迹中渲染BBS,以构建“边界框图像(BBI)”作为预训练的2D扩散模型“SceneCraft2D”的布局条件,从而生成场景的高质量2D图像。凭借SceneCraft2D生成的高质量图像,SceneCraft能够使用SDS等效范式将它们聚合成生成3D场景的场景表示(例如,NeRF或3D高斯溅射)。值得注意的是,我们的SceneCraft不需要全景视图。相反,我们的相机视图可以在3D空间中自由移动,从而能够生成由多个房间组成的更加复杂的室内布局,这与以往仅支持单房间场景的工作不同。
6. 实验结果
SceneCraft与基线方法的定性比较。我们在两种常见的布局条件(卧室和客厅)下,展示了由我们生成的色彩和深度渲染图,同时列出了其他三种基线方法作为对比。SceneCraft在遵循布局条件方面展现出更高的可信度,并且能够处理更复杂的场景。
SceneCraft在复杂场景中的生成结果。我们展示了SceneCraft利用任意相机轨迹生成更复杂室内场景的能力。这种非规则形状的房间是以前的工作无法自然实现的。
7. 总结 & 未来工作
本文提出了SceneCraft,这是一种从文本描述和空间布局生成复杂且精细室内场景的创新方法。通过利用基于渲染的操作和布局条件扩散模型,我们的工作有效地将3D语义布局转换为多视角2D图像,并学习了一种最终的场景表示,该表示不仅一致且逼真,而且紧密符合用户规范。实验结果表明,我们的模型相较于现有的最先进方法具有优越性,凸显了其生成多样化纹理以及在复杂室内场景中保持几何一致性的能力。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球