专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

斯坦福 & MIT 无敌 !重塑虚拟现实,单一图像输入下的实时3D场景生成,不到 10S !

智驾实验室  · 公众号  ·  · 2024-06-19 16:32

正文

请到「今天看啥」查看全文


ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群,

获取更多内容和资料

作者提出了WonderWorld这一新颖的框架,用于交互式的3D场景扩展,用户可以基于单一输入图像和用户指定的文本探索和塑造虚拟环境。虽然在场景生成的视觉质量方面已取得显著改进,但现有方法都是离线运行的,需要花费数十分钟到数小时来生成一个场景。

通过利用快速高斯surfels和一种引导扩散的深度估计方法,WonderWorld在显著减少计算时间的同时生成几何上连贯的扩展。

作者的框架在单个A6000 GPU上不到10秒即可生成连接多样、连贯的3D场景,实现了实时用户交互和探索。

作者展示了WonderWorld在虚拟现实、游戏和创意设计等应用中的潜力,用户可以快速从单一图像生成并导航沉浸式的、可能是无限的虚拟世界。

作者的方法在交互式3D场景生成方面代表了重要的进步,为用户驱动的虚拟环境内容创作和探索开辟了新的可能性。作者将发布完整的代码和软件以供复现。

项目网站:https://WonderWorld-2024.github.io/。

1 Introduction

在过去一年里,3D场景生成变得极为流行,许多研究成功探索了强大的生成图像先验和单目深度估计的改进。这些研究显著提高了生成场景的视觉质量、可能的视角和多样性。然而,所有这些工作都是离线完成的,用户提供一个起始图像或文本提示,然后系统在数十分钟到数小时后返回一个固定的3D场景或通过场景的特定摄像机路径的视频。尽管离线生成可能适用于小型、离散的场景或视频,但这种设置对于许多场景生成用例来说是有问题的。例如,在游戏开发中,世界设计师希望逐步迭代构建3D世界,控制生成过程,并且能够以低延迟看到中间步骤。在VR和视频游戏中,用户期望可扩展、多样化的内容,这些内容比当前生成的场景更大、更多样。未来,用户可能还希望有更多:一个允许他们自由探索和塑造动态发展的无限虚拟世界的系统。所有这些激励了交互式3D场景生成的问题,用户可以以低延迟控制场景外推应该包含什么,例如通过文本提示,以及场景外推应该在何处进行,例如通过摄像机控制。

为了理解阻止交互性的技术问题,作者检查了几个最先进的3D场景生成方法[7, 38, 39],并确定了两个主要限制。首先,场景生成的速度太慢,无法实现交互性。每个生成的场景都需要数十分钟来进行多次生成图像修复和深度估计的传递。其次,生成的场景在场景边界附近有强烈的几何扭曲,阻止了从生成场景的外推。

在本文中,作者提出了一个名为WonderWorld的交互式场景生成框架。作者的输入是一张单一图像,输出是一组相连但多样的3D场景。为了解决速度问题,作者的核心技术涉及快速高斯球面元,由于基于原理的、基于几何的初始化,其优化所需时间不到1秒,以及分层场景生成,在其中每个场景都会被解析以找出可能发生视差遮挡的区域,并预先生成内容来填充这些特殊区域。为了解决几何扭曲问题,作者引入了一种引导扩散的深度估计方法,确保外推场景和现有场景之间的几何一致性。

使用作者的框架,在单个A6000 GPU上外推或生成场景所需时间不到10秒。这一突破为交互式场景生成解锁了潜力,允许用户将单一图像外推为一个广阔且沉浸式的虚拟世界。作者的方法为虚拟现实、游戏和创意设计等应用开辟了新的可能性,用户可以快速生成和探索多样的3D场景。

2 Related Work

持续视角生成。早期场景生成的例子主要关注将单一图像扩展为给定相机轨迹的持续视频:Infinite Images [19] 使用图像拼接,而 Infinite Nature [27] 及其后续工作 [5, 26] 则使用了专门针对自然图像的生成对抗网络(GANs)。自从生成扩散模型出现以来,后续的工作扩展了这一研究的范围和领域。SceneScape [10] 使用单个提示生成一个无领域的持续场景,并创建一个长网格。WonderJourney [38] 则使用大型语言模型(LLM)生成多样的内容和一个点云表示的世界。尽管这些后期作品使用了显式的3D表示,但它们的技术是针对特定的相机轨迹(前进/后退)设计的,在面临泛型相机轨迹,尤其是横向移动或有小幅旋转时,可能会导致问题。这些工作也是离线运行的,并且需要数十分钟来渲染一条单一路径。

单一3D场景生成。近年来,场景生成方法主要关注单一、密集的场景,可以从一个局部视角区域观看,其中许多工作明确聚焦于室内场景 [2, 9, 16]。Text2NeRF [41] 生成无领域的场景,但使用NeRF表示,并专注于局部相机轨迹。如 LucidDreamer [7] 和 CAT3D [12] 之类的近期方法生成场景的多视角图像,而 RealmDreamer [34] 则提炼多视角图像和深度先验来生成3D场景 [22]。另一个相关的研究方向专注于通过显式姿态条件或对场景进行训练来实现单一图像的3D场景重建 。尽管这些方法在3D场景生成的质量上取得了显著的改进,但它们是生成固定场景的离线过程,然后提供给用户。由于场景是固定的,这些方法不允许用户交互,例如,不允许用户选择他们想看的内容和位置。作者相反地解决了交互式3D场景生成的问题,这需要在运行时和解决外推中的几何失真方面有显著的改进。

视频生成。视频生成方面的近期改进 引发了人们对于这些模型是否也可以用作场景生成器的兴趣。一些工作试图为这些模型添加相机控制,允许用户在场景中“移动”;例如,MotionC-trl [37] 和 CameraCtrl [13] 训练专用模块,以使用具有相机姿态的数据集实现相机姿态控制。

尽管这些技术很有前景,生成的视频在3D一致性或遵循用户指定的相机姿态方面没有保证。此外,当前的视频生成模型仍然速度较慢,因此不能实现交互性。

快速的3D场景表示。在过去的几年里,关于3D表示的质量和速度取得了重大进展;开创性的NeRF [29] 论文之后,出现了Plenoxels [11],InstantNGP [30],最终是3D Gaussian Splatting [22]。在3DGS的背景下,研究行人也重新审视了传统的surfel [31, 35] 概念:使用高斯surfel进行高质量表面重建 [8] 和基于几何精确辐射场的2D高斯喷射 [17]。尽管这些方法的主要焦点是提高重建质量,但作者的目标是使用surfel来加速优化过程,因为它们可以通过基于深度的原则几何方法进行初始化。

3 Approach

作者的目标是生成一组多样但连贯连接的3D场景,形成一个潜在的无限虚拟世界。为此,作者提出了WonderWorld框架,该框架允许快速场景扩展和实时渲染,以提供交互式视觉体验。

概述作者在图2中展示了作者的WonderWorld框架的示意图。主要思想是从输入图像生成3D场景,并通过扩展现有场景来迭代地扩展它。用户可以提供文本以指定要生成的场景内容,或者可以留给大型语言模型(LLM)。

主要技术挑战包括场景生成速度和扩展场景中的几何失真。为了加快场景生成速度,作者采用了传统的面元[surfels] [31, 35]的思想,将其扩展到3DGS,并证明了这种扩展允许基于原则的几何初始化,显著将优化时间减少到小于1秒。为了处理生成场景中的遮挡孔洞,作者引入了一种逐层场景生成策略,该策略无需多视图图像生成。因此,WonderWorld能够在单块GPU上在10秒内快速生成场景并实现实时渲染。为了解决几何失真问题,作者提出利用引导深度扩散为新的场景生成几何。引导深度扩散是稳健且灵活的,允许指定各种几何约束。

Fast Gaussian Surfels

作者引入了快速高斯表面元(Fast Gaussian Surfels,FGS)来表示作者生成的3D场景。FGS可以被看作是3DGS的轻量级版本,其中每个高斯核的z轴缩小到零。特别是,FGS由一组高斯表面元组成,其中每个高斯表面元由一组参数 { } 表示,其中 表示高斯核的3D空间位置, 表示方向四元数, 表示x轴和y轴的比例, 表示不透明度, 表示RGB颜色。作者假设生成的场景中是朗伯表面,因此三维颜色 与观察角度无关。高斯表面元的核是

其中协方差矩阵 是从比例和可以通过四元数 获得的旋转矩阵 构造的。协方差矩阵是

光栅化和alpha混合渲染过程与3D高斯溅射(3DGS)[22]保持相同。

基于几何的初始化:作者快速优化的核心思想是,由于作者从单视图图像生成快速高斯表面元,因此作者可以假设图像中的每一个像素都揭示了底层3D场景中的一个表面元。因此,表面元的参数可以通过利用相应像素的信息直接求解或近似,而不是随机初始化和优化。从而简化、加速并适当正则化优化。

具体来说,对于输入图像 ,其像素为 ,作者的目标是生成 个表面元来表示底层3D场景。表面元的颜色 初始化为像素的RGB值。表面元的位置 可以通过反投影估计:

其中 表示像素坐标, 分别表示当前相机的内参矩阵、旋转矩阵和平移向量。 表示像素估计的深度。作者将在第3.3节详细讨论深度估计。

为了初始化surfel的朝向,注意到旋转矩阵 的第三列 是surfel的法线方向。因此,作者可以构造旋转矩阵

其中 表示一个单位向上向量, 表示在世界坐标系中像素估计的法线,而 表示从图像 中估计的相机坐标系法线。

至于尺度 ,作者需要找到一个合适的初始化值,以防止走样,例如,它不应该在移近场景时导致孔洞。为了实现这一点,作者考虑了surfel的奈奎斯特区间。设作者图像的采样间隔(即像素大小)为 。那么距离 处的surfel的奈奎斯特区间 就是 ,其中 表示焦距。作者希望将surfel的尺度设置为与 成比例,使其大约覆盖区间 以最小化走样。直观地说,这意味着surfel可以无缝覆盖可见表面,且没有显著的重叠。作者在图3(a)中展示了表面平行于图像平面时的一个示例。如图3(b)所示,如果表面不平行于图像平面,作者需要在尺度中添加一个余弦项。因此,作者初始化尺度为

其中 表示一个超参数, 表示图像平面法线与在 平面上投影的surfel法线之间的余弦值。作者在图4中比较了使用作者的FGS尺度初始化和Mip-Splatting [40]反走样的3D高斯初始化经过优化后的效果。作者观察到,作者的尺度初始化减轻了移向生成场景时的走样孔洞。

优化作者使用了与3DGS相同的 photometric 损失函数: 。作者对不透明度、朝向和尺度进行优化,但不优化颜色和空间位置。作者的优化包括 次迭代,且不包括致密化过程。在实际操作中,作者在 轴上添加一个很小的数值,而不是零,以允许在利用作者原则性的初始化的同时,具有更高的表示能力。### 分层场景生成

为了填充生成场景中的视差孔洞,作者引入了一种分层场景生成策略。主要思想是解析场景的几何层结构,以发现可能发生重大视差的地方,通过移除遮挡内容来揭示这些区域,并生成内容来填充这些区域。作者将这个过程称为深度引导的层分解,并在图2的顶部行中展示了一个示例。

作者特别将图像从前到后分解为三层:前景层 ,背景层 ,以及天空层 。由于视差边缘会出现遮挡,作者通过寻找深度边缘来分离这些层。作者通过估计深度图的的空间梯度幅值的阈值化计算出一个重要的深度边缘图。前景层 是通过寻找包含重要深度边缘的语义段形成的。作者对这些段进行轻微膨胀,以确保它们在实际与深度边缘相交时能够相交。作者在图5中展示了一个示例。至于天空层,作者发现直接使用语义分割更为健壮,因为天空深度估计对深度估计器来说非常具有挑战性,这也得到了之前工作[26, 38]的观察。

在给定层分割的情况下,作者首先通过扩散模型修复天空层,并使用修复后的天空图像来为其训练一个FGS。然后,作者修复背景层并在冻结的天空FGS之上为其训练FGS。最后,作者在冻结的背景层和天空FGS之上训练前景FGS。

Guided Depth Diffusion

为了生成一个无限的世界,作者需要将现有场景扩展到未探索的空间。一个基本的挑战是扩展过程中的几何扭曲,也就是说,新生成的场景内容可能与现有场景内容在几何上有很大的差距,因此当从不同于外绘视角的视角观察时,它们看起来可能是断裂的。这是由于估计的深度与现有几何之间的不一致性造成的。

特别是,令 的大小为 的深度图是从外绘相机视角渲染的现有可见内容,并有一个二进制 Mask 指示可见区域,以及令 是外绘新图像 的估计深度。然后作者观察到 之间存在强烈的不一致,其中 表示逐元素乘积。作者在图6中展示了一个例子来说明这个问题。

简单的后处理启发式方法,例如通过计算全局移动和缩放[7]进行对齐,或者微调深度估计器以使估计的深度与现有几何匹配[38],这些方法不够充分,因为它们并未减少对新场景深度的估计中的内在模糊性。

为了应对这一挑战,作者采用了深度扩散网络的引导方法。主要思想是将外推场景的深度估计公式化为一个条件深度生成问题,即从深度分布 中采样,它明确将观察到的深度 作为条件引导信号。作者使用扩散模型,因为与前馈网络不同,它们提供了一种从深度后验中自然采样的方式[14]。作者的引导深度扩散基于潜在深度扩散模型[21]。简而言之,潜在深度扩散模型通过从 中采样来学习生成深度图,这是通过对随机初始化的潜在深度图 进行逐步去噪实现的,使用学习到的去噪U-Net ,其中 表示时间步。生成的深度由解码器 给出。作者在图7(a)中展示了示意图。

从基于分数的视角[15],去噪器 预测了一个更新方向,并且通过递归应用更新来完成潜在深度生成过程:

作者将可见深度作为引导,通过修改去噪器来注入:

其中 表示引导去噪器, 表示预解码的深度图, 表示引导权重。

作者的修改可以看作是将两个得分函数组合起来,从条件分布 中采样。这个条件分布同时考虑了可见的现有深度 中的新场景几何,从而导致了更平滑的几何外推。

解决地面扭曲问题作者注意到,作者的引导深度扩散公式非常灵活,允许作者指定不同的深度约束。例如,另一个重要的几何扭曲是地面平面通常呈现曲线。因此,对于所有生成的场景,作者通过用从语义分割获得的地面 Mask 替换方程式 3.3 中的 Mask ,并用计算出的平坦地面深度 替换可见内容的深度 ,为地面平面添加深度引导。

4 Results

在本节中,作者展示了作者的WonderWorld研究成果。由于作者不知道有任何允许交互式场景生成的 Baseline 方法,因此作者重点关注展示生成的大规模3D场景的质量。为此,作者考虑了开源 Baseline ,并使用它们的官方代码。作者在视频中展示了交互式场景生成的示例,并强烈建议读者首先观看。

作者的 Baseline 方法包括WonderJourney [38],这是一种最先进的永久视图生成方法,以及LucidDreamer [7],这是一种最近的3D场景生成方法。WonderJourney以单张图像作为输入,通过图像外绘和像素反投生成点云序列。LucidDreamer以单张图像作为输入,从中合成多视角图像以训练3DGS。在作者的示例中,作者使用了公开可用的真实图像和合成图像。

Implementation details

在作者的实现中,作者使用稳定扩散修复模型[32]作为作者的外绘模型。作者也用它来修复背景和天空层。作者使用One-Former[18]来分割天空、地面和前景物体。在初始场景中,作者使用SyncDiffusion[25]离线生成整个天空。作者使用万寿菊法线估计器[21]来估计法线。作者将万寿菊作为作者的深度扩散模型。在引导深度扩散中,作者将引导权重 设置为引导信号的范数与预测更新的范数成比例。作者的深度扩散使用欧拉调度器[20]进行 步,其中在最后 步应用作者的引导。作者使用高效的SAM[23, 28]对估计的深度进行后处理,类似于WonderJourney[38]。当用户没有提供文本时,作者也遵循WonderJourney使用GPT4生成提示,并根据场景名称通过添加合理的物体和背景文本来丰富提示。作者将发布完整的代码和软件以供复现。

Qualitative results

作者在图10中展示了使用相同输入图像的WonderWorld与 Baseline 方法的定性比较。请注意,作者的WonderWorld结果包含了9个场景,而LucidDreamer的结果仅包含一个场景。WonderJourney仅支持在两个连续场景之间提取3D点;作者在这里扩展了代码,以支持为最多4个场景生成点。

从图10中,作者观察到像LucidDreamer [7]这样的单一3D场景生成方法不会在预定义场景之外进行外推,并且在生成场景的边界上会出现严重的几何扭曲。尽管WonderJourney [38]允许生成在特定视图中看似连贯连接的多个场景,但从不同的摄像机角度渲染时,几何扭曲是显著的。与 Baseline 相比,作者的WonderWorld显著减轻了几何扭曲,从而产生了一个连贯的大规模3D场景。作者在图8、图12和图13中展示了更多示例。

由于WonderWorld允许选择不同的文本提示来更改内容,因此生成的场景可以是多样的,并且在每次运行中都不相同。在图9中,作者展示了从相同输入图像生成的多样化生成结果的一个示例。WonderWorld还允许用户在同一个生成的虚拟世界中指定不同的风格,例如图11中所示的地牢、绘画和乐高风格。

Generation speed

由于作者的重点是使3D场景生成具有交互性,作者从开始生成直到可以看到结果报告场景生成的耗时。作者在表1中展示了单个场景的生成时间。从表1中作者可以看出,即使是现有方法中最快的WonderJourney,生成单个场景也需要超过700秒,大部分时间用于生成多视图以填充现有场景和新生成场景之间的空白。LucidDreamer从输入图像生成稍微扩展的场景,并大部分时间用于生成多视图,对这些视图进行对齐深度,以及训练一个3DGS以适应这些视图。总的来说,先前的方法需要生成或提炼多个视图,并对其3D场景表示进行一段时间的优化。作者通过基于原则的几何初始化的FGS加速了表示优化,并通过作者的逐层场景生成策略减少了所需的图像数量。这些共同促成了作者快速的场景生成。作者在表2中展示了作者的时间成本分析。由于扩散模型推理(外绘、层修复、深度和法线估计)耗时最多,作者的方法将受益于未来加速扩散推理的进展。

5 Conclusion

作者介绍了WonderWorld系统,这是一个用于交互式生成3D场景的系统,其技术改进显著提高了生成速度并提升了大型多样化场景的性能。WonderWorld允许用户以交互方式生成并探索他们想要的部分场景,并按需请求内容。

局限性:WonderWorld的一个局限性是场景密度低,因为每个场景只有最多 的高斯表面元素。另一个局限性是处理细节目标(如树木)的难度,这可能导致深度估计不准确,当视点改变时留下“孔洞”或“漂浮物”。作者在视频中展示了一个失败的案例。

因此,一个令人兴奋的未来方向是使用WonderWorld交互式原型化粗糙的世界结构,然后通过更慢的单场景多视图扩散模型细化它,以增加场景密度,填补孔洞并移除漂浮物。

参考

[1].WonderWorld: Interactive 3D Scene Generation from a Single Image.





扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息








请到「今天看啥」查看全文