0. 论文信息
标题:Coherent 3D Scene Diffusion From a Single RGB Image
作者:Manuel Dahnert, Angela Dai, Norman Müller, Matthias Nießner
机构:Technical University of Munich, Germany、Meta Reality Labs Zurich, Switzerland
原文链接:https://arxiv.org/abs/2412.10294
1. 导读
我们提出了一种新的基于扩散的方法从单一的RGB图像相干三维场景重建。我们的方法利用图像调节的3D场景扩散模型来同时对场景中所有物体的3D姿态和几何形状进行去噪。受任务的不适定性质的激励,并且为了获得一致的场景重建结果,我们通过同时调节所有场景对象以捕捉场景上下文,并且通过允许模型在整个扩散过程中学习对象间的关系,来学习生成式场景先验。我们进一步提出了一种有效的表面对齐损失,以促进训练,即使在缺乏完整的地面实况注释的情况下,这在公开可用的数据集中是常见的。这种损失利用了富有表现力的形状表示,这使得能够从中间形状预测直接进行点采样。通过将单个RGB图像3D场景重建的任务框架化为条件扩散过程,我们的方法超过了当前最先进的方法,在SUN RGB-D上实现了12.04%的AP3D改进,在Pix3D上实现了13.43%的F分数增加。
2. 引言
整体性的三维场景理解对于多个领域至关重要,并为机器人技术、三维内容创作和混合现实中的许多下游任务奠定了基础。它填补了二维感知与三维理解之间的鸿沟。尽管在单个物体的二维感知和三维重建方面取得了令人瞩目的进展,但由于其不适定性、严重的遮挡以及现实环境中复杂的多物体排列,从单一RGB图像进行三维场景重建仍然是一个具有挑战性的问题。尽管先前的工作已经取得了有前景的结果,但它们通常是独立地恢复三维形状,因此没有利用场景上下文或物体间的关系。这导致了不真实且相互交叉的物体排列。此外,常见的前馈重建方法在处理严重遮挡和形状先验不足时表现不佳,导致生成的三维形状嘈杂或不完整,这影响了沉浸感,从而限制了其在下游任务中的应用。为解决这些挑战并推动三维场景理解的发展,我们提出了一种新颖的生成方法,用于从单一RGB图像进行连贯的三维场景重建。
具体而言,我们引入了一个新的扩散模型,该模型学习了一个生成式场景先验,能够捕获物体在排列和形状方面的关系。当以单张图像为条件时,该模型能够同时重建场景中所有物体的姿态和三维几何形状。通过将重建任务构造成一个条件合成过程,我们获得了更准确的对象姿态和更精细的几何形状。公开的三维数据集通常仅提供部分真实值标注,这使得形状和姿态的联合训练变得复杂。为克服这一问题,我们提出了一种新颖且高效的表面对齐损失公式Lalign,即使在没有完整真实值监督的情况下,也能够实现形状和姿态的联合训练。与先前涉及昂贵形状解码和重建表面点采样的方法不同,我们的方法采用了一种具有表达力的中间形状表示,能够直接从条件形状先验中进行点采样。这提供了额外的监督,并产生了全局更一致的三维场景重建结果。我们的方法在SUN RGB-D数据集上的AP15 3D指标上比当前最先进的方法高出12.04%,在Pix3D数据集上的F-Score上高出13.43%,并且无需进一步微调即可推广到其他室内数据集。
3. 效果展示
4. 主要贡献
我们的贡献包括:
• 一种新颖的基于扩散的三维场景重建方法,该方法能够联合预测场景中所有可见物体的姿态和形状。
• 一种新颖的方法,通过同时以场景中所有物体为条件来建模生成式场景先验,以捕获场景上下文和物体间的关系。
• 一种高效的表面对齐损失公式Lalign,即使在没有完整真实值标注的情况下,也能利用具有表达力的中间形状表示进行额外监督。
5. 方法
我们的方法以室内场景的单一RGB图像为输入,生成与输入图像匹配的全局一致的三维场景重建结果。为此,我们将重建任务构造成一个以输入视图为条件的扩散模型的条件生成问题,该模型同时预测场景中所有物体的姿态和形状。鉴于单视图重建的不适定性,这种概率公式特别适合这项任务。为确保准确重建并学习强大的场景先验,我们使用一个场景内注意力模块来模拟场景内的物体间关系。此外,鉴于许多三维室内场景数据集中的真实值不完整,我们引入了一种用于联合形状和姿态训练的损失公式,该公式能够在仅部分可用监督的情况下进行训练。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
场景预设和表面对齐损失概述。(左)我们提出了一种新的方法来建场景先验,通过在去噪过程中建模场景上下文和所有对象之间的关系。(右)对于额外的监督和联合训练,我们使用一个给定的地面真相深度图和直接从中间形状表示oi中提取的点样本之间的表面对准损失,并将其转换到相机空间与预测的物体姿态pi。
6. 实验结果
7. 总结 & 未来工作
本文提出了一种基于扩散的新方法,用于从单张RGB图像中重建一致的3D场景。我们的方法结合了简单而强大的去噪公式和稳健的生成场景先验,后者通过交换所有场景对象之间的关系信息来学习对象之间的关系。为了解决公开可用的3D数据集中缺少地面真实标注的问题,我们引入了表面对齐损失Lalign,以联合训练形状和姿态,有效地利用我们的形状表示。我们的方法显著提高了3D场景理解能力,在各种基准上优于当前最先进的方法,在SUN RGB-D上获得+12.04%的AP值,在Pix3D上获得+13.43%的F-Score值。大量实验表明,我们的贡献--将3D场景重建视为条件扩散过程场景先验建模以及通过Lalign实现的形状-姿势联合训练--共同促进了整体性能的提高。此外,我们还表明,我们的模型支持无条件合成,并且在无需进一步微调的情况下很好地泛化到其他室内数据集。我们相信这些进步为未来整体3D场景理解的进展奠定了坚实的基础,并在混合现实、内容创作和机器人领域开辟了令人兴奋的应用
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括: