0. 论文信息
标题:Wonderland: Navigating 3D Scenes from a Single Image
作者:Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren
机构:University of Toronto、Snap Inc.、University of California, Los Angeles
原文链接:https://arxiv.org/abs/2412.12091
代码链接:https://snap-research.github.io/wonderland/
1. 导读
本文提出了一个具有挑战性的问题:我们如何从一张任意图像中高效地创建高质量、大范围的3D场景?现有的方法面临一些限制,例如需要多视图数据、耗时的逐场景优化、背景中的低视觉质量以及不可见区域中的失真重建。我们提出了一种新的流水线来克服这些限制。具体来说,我们介绍了一种大规模重建模型,该模型使用来自视频扩散模型的延迟,以前馈方式预测场景的3D高斯分布。视频扩散模型旨在创建精确遵循指定摄像机轨迹的视频,允许它生成包含多视图信息的压缩视频潜像,同时保持3D一致性。我们使用渐进式训练策略训练3D重建模型在视频潜在空间上操作,从而能够高效生成高质量、大范围和通用的3D场景。对各种数据集的广泛评估表明,我们的模型明显优于现有的单视图3D场景生成方法,特别是对于域外图像。第一次,我们证明了三维重建模型可以有效地建立在扩散模型的潜在空间,以实现有效的三维场景生成。
2. 引言
人类天生具备从单张图像中感知和想象三维信息的能力。我们能够直观地估计距离、识别形状,并瞬间在脑海中推断出被遮挡的区域。这一强大且有效的认知过程使我们能够解读复杂的空间布局,构想深度和相对物体大小,并幻想出三维场景中未见的区域。然而,使用可学习的算法从单张图像复制这一认知过程极为困难,因为单个视角提供的关于物体大小和距离的信息有限。而且,从单张图像估计未见区域的几何形状更具挑战性。近期,可学习的场景表示(例如,神经辐射场(NeRF)和三维高斯溅射(3DGS))在渲染逼真的三维场景方面取得了有前景的结果。然而,它们存在两大主要局限,严重阻碍了其可扩展性和灵活性。首先,它们需要密集的多视角图像进行训练;其次,它们采用了耗时的逐场景优化策略。
为了减轻对多视角数据的需求,多项研究整合了来自图像扩散模型的生成先验,用于从稀疏视角或单张图像进行三维合成。尽管这些方法减轻了数据需求,但在新视角合成中却存在三维一致性有限的问题:例如,遮挡区域的生成不正确或扭曲,背景模糊,这表明图像扩散模型在复杂的三维上下文中进行推理的能力有限。
为了避免在构建场景的三维表示时进行冗长的优化过程,近期的研究探索了基于回归的模型,这些模型以前馈方式执行新视角合成。然而,这些方法面临着显著的内存和计算挑战,因为模型训练和复杂场景渲染需要基于重叠的高分辨率输入视图处理和预测大量像素。因此,现有方法大多局限于物体级别的生成或视角狭窄、范围有限的场景,在这些场景中,所需的输入视角更少,计算量也减少。
推荐课程:
彻底搞懂大模型数学基础剖析、原理与代码讲解
在本文中,我们介绍了Wonderland,它有效地解决了上述两大挑战。从单张图像出发,Wonderland能够高效地生成一个高质量、基于点的三维表示(即3DGS)来呈现范围广泛的场景。我们探索了基础视频扩散模型中蕴含的丰富三维场景理解能力,并直接从视频潜在表示构建三维表示,从而显著降低了内存需求。3DGS以前馈方式从视频潜在表示中回归,显著加速了重建过程。为了实现这些功能,我们提出了以下技术:
• 首先,我们通过利用来自相机引导的视频扩散模型的生成先验,引入了一种用于可控三维生成的表示。与图像模型不同,视频扩散模型在广泛的视频数据集上进行训练,捕捉场景中跨多个视角的综合空间关系,并在其潜在空间中嵌入了一种“三维感知”,这使我们能够在新视角合成中保持三维一致性。
• 其次,为了实现可控的新视角生成,我们赋予了视频模型对指定相机运动的精确控制能力。也就是说,我们引入了一种新颖的双分支条件机制,该机制有效地将所需的多种相机轨迹融入到视频扩散模型中,使其能够将单张图像扩展为具有精确姿态控制的三维场景的多视角一致捕捉。
• 第三,为了实现高效的三维重建,我们直接将视频潜在表示转换为3DGS。我们提出了一种新颖的基于潜在表示的大型重建模型(LaLRM),该模型以前馈方式将视频潜在表示提升到三维。通过此类设计,在推理过程中,我们的模型直接从单个输入图像预测3DGS,有效地将生成和重建任务对齐,并通过视频潜在空间将图像空间和三维空间连接起来。与从图像重建场景相比,视频潜在空间提供了256倍的时空压缩,同时保留了必要且一致的三维结构细节。这种高度的压缩至关重要,因为它允许LaLRM在相同的内存约束下处理更广泛的三维场景。
3. 效果展示
给定单个图像,Wonderland以前馈方式从相机引导的视频扩散模型的潜在空间重建3D场景。
4. 主要贡献
我们对Wonderland进行了广泛评估,并验证了它在单视角条件下的三维场景生成方面达到了最先进的性能,并具有以下几个独特优势:
• 利用双分支相机条件策略,我们的视频扩散模型生成了三维一致的多视角场景捕捉,与现有工作相比,对姿态的控制更为精确(表1和图3)。
• 在零样本新视角合成的设置下,通过以单张图像作为输入进行前馈三维场景重建,我们的方法在多个基准数据集上优于现有工作;即RealEstate10K、DL3DV和Tanks-and-Temples(表2)。
• 通过在潜在空间上工作,我们的重建管道利用了视频扩散模型的生成能力,使其能够渲染高质量图像、宽视角视图以及更通用和多样化的场景(例如,超出域的场景),这些远远超出了物体级别的重建(图4和图5)。
5. 方法
首先,我们开发了一个相机引导的视频扩散变换器,以生成覆盖场景广泛范围的视频隐式表示。通过我们新颖的双分支相机条件化模块实现精确的姿态控制。生成的视频隐式表示紧凑且具有3D意识,因为它们封装了场景的多视图捕获,在结构和外观上保持一致,使其非随后,我们提出了一种新的常适合提升到3D。潜在大型建模模型,将视频图像直接CaLRM)解码为3D高斯扫描(3DGS)。
6. 总结
我们引入了Wonderland,这是一个以前馈方式从单张图像生成高保真3D场景的新型框架。与在传统像素空间操作或依赖于逐场景优化的方法不同,我们的方法利用了姿态条件视频扩散模型中嵌入的丰富生成先验。通过在紧凑的潜在空间内操作,Wonderland实现了高效且可扩展的3D场景合成,同时解决了时空一致性和姿态可控性的挑战。我们提出了一种双分支相机条件机制,实现了精确的姿态控制和多样化的轨迹生成,用于新视角合成。此外,我们的基于潜在的大尺度重建模型(LaLRM)将视频扩散模型的生成能力与3D高斯溅射(Splatting)无缝结合,确保了计算效率和可扩展性,从而实现了广角覆盖。我们在多个不同数据集上进行了广泛评估,证明了我们的方法在生成视觉一致且高保真的3D场景方面的卓越性能。它在视频泛化和3D渲染质量方面均优于现有的最先进方法。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球