24年12月来自上海交大、宁波东方理工大学、清华大学、旷视科技、芜湖迈驰智行、复旦大学和香港大学的论文“UniScene: Unified Occupancy-centric Driving Scene Generation”。
生成高保真、可控和带注释的训练数据对于自动驾驶至关重要。现有方法通常直接从粗略的场景布局生成单一数据形式,这不仅无法输出各种下游任务所需的丰富数据形式,而且难以建模直接的布局到数据分布。UniScene 是一个用于生成驾驶场景中三种关键数据形式(语义占用、视频和激光雷达)的统一框架。UniScene采用渐进式生成过程,将复杂的场景生成任务分解为两个分层步骤:(a)首先,从定制的场景布局生成语义占用,作为富含语义和几何信息的元场景表示,然后(b)以占用为条件,分别生成视频和激光雷达数据,采用两种迁移策略:基于高斯的联合渲染和先验引导的稀疏建模。这种以占用为中心的方法减轻生成负担,尤其是对于复杂的场景,同时为后续生成阶段提供详细的中间表示。大量实验表明,UniScene 在占用、视频和 LiDAR 生成方面优于之前的 SOTA,这也确实有利于下游驾驶任务。
生成高质量驾驶场景是实现自动驾驶 (AD) 的一种有前途的方法,因为它有助于缓解与现实世界数据收集和注释相关的高资源需求 [24、31、42、52]。生成模型(尤其是扩散模型 [24、31、42、52])的最新进展使得生成逼真的合成数据 [54、63、80] 成为可能,从而促进了下游任务的训练。现有方法 [15、63、66、70、91] 通常使用从粗几何标签(例如 BEV 地图和 3D 边框)派生的布局条件作为输入来指导场景生成。然后利用生成的合成数据来改进下游任务,例如 BEV 分割 [34、37、73] 和 3D 目标检测 [8、12、19、46、65]。
然而,如表所示,现有的驾驶场景生成模型主要侧重于生成单一格式的数据(如 RGB 视频)[15, 63, 66, 71, 85],而没有充分探索生成多种格式数据的潜力。这限制了它们在需要各种传感器数据(即 RGB 视频、激光雷达)以确保对真实场景进行充分训练广泛下游任务中的适用性 [2, 5, 35, 38, 62]。此外,以前的方法试图在仅给出粗略输入条件(例如 BEV 布局或 3D 框)的情况下通过单步布局到数据建模过程来捕捉真实世界分布 [15, 66, 71]。
这种直接学习策略阻碍模型捕捉真实世界驾驶场景中固有复杂分布(例如真实的几何形状和外观)的能力,通常导致性能不理想,如图 (b) 所示。为了应对这一挑战,数据驱动真实感生成中的最新方法 [28, 44, 56] 试图使用中间表示作为归纳偏差来对复杂分布进行建模,从而通过分层步骤生成高质量的结果。
因此,探索自动驾驶中复杂 3D 生成任务的最佳中间表示,对于实现高质量输出至关重要。语义占用率广泛应用于自动驾驶感知任务,最近因其丰富的语义和几何信息而被公认为一种优越的场景表示 [21, 57, 62]。在此基础上,体生成方面的最新进展 [31, 50, 90, 91] 凸显了语义占用率的巨大潜力,不仅可以用增强的 3D 结构细节描绘驾驶环境,还可以实现更准确、更多样化的场景生成。与传统的 2D 表示(例如 BEV 地图 [15、54、63、66、71、80、85])相比,3D 占用提供更丰富、更详细的场景表示。鉴于这些优势,语义占用是分解复杂驾驶场景生成任务的理想中间表示。它捕获语义和几何信息,有助于生成各种数据格式(例如 RGB 视频和 LiDAR),同时增强生成过程的灵活性和准确性。
UniScene 是一个统一的以占用为中心的框架,旨在灵活生成语义占用、视频和激光雷达数据。如上图 (a) 所示,UniScene 采用分解学习范式,结构分层:它首先从 BEV 场景布局生成 3D 语义占用,然后利用此表示来促进视频和激光雷达数据的生成。
语义占用表示
。语义占用已成为自动驾驶中一种重要的 3D 场景表示。当前的研究主要集中在语义占用预测 (SOP) 上。
MonoScene
[11] 介绍了一种基于单目摄像头的 3D SOP 方法。
FB-Occ
[36] 学习鸟瞰图 (BEV) 空间中的特征以用于 SOP。
TPVFormer
[23] 提出了一种用于 SOP 的三视角框架。
VPD
[31] 利用生成扩散模型进行 3D SOP。在占用预测领域,
OccWorld
[86] 根据先前的占用情况预测未来的占用状态,而
OccLlama
[68] 则结合了大语言模型 (LLM) 来协助未来的占用预测。然而,对于占用生成,特别是时间 3D 占用序列生成的研究仍然有限。最近,
OccSora
[59] 使用扩散Transformer (DiT) 来生成占用,但生成结果的质量仍然落后于真实值。
自动驾驶中的生成模型
。高质量的数据对于自动驾驶训练模型至关重要,这导致人们对驾驶场景生成任务的兴趣日益浓厚。其中一条研究路线采用
神经辐射场 (NeRF)
和
高斯 splatting (GS)
技术 [74, 75, 79, 82] 来合成新视角,尽管这些方法通常受到场景多样性有限的困扰。随着
扩散模型
的兴起,人们越来越关注生成驾驶图像或视频,例如 BEVGen [55]、DriveDreamer [63]、MagicDrive [15] 和 Panacea [70] 等。一些方法还将
世界模型
概念集成到生成过程中,例如 Drive-WM [66]、WoVoGen [41] 和 Vista [16]。除了生成图像或视频外,最近的研究还探索激光雷达点云的生成,包括 LidarDiffusion [50] 和 LidarDM [91]。然而,这些方法主要侧重于单一形式的生成,忽视了多模态数据的互补性。
如图所示,将驾驶场景生成的复杂任务分解为以占用为中心的层次结构。具体而言,给定多帧 BEV 布局作为条件,UniScene 首先使用占用扩散 Transformer 生成相应的语义占用序列。然后,生成的占用作为后续视频和激光雷达生成的条件指导。对于视频生成,占用被转换为 3D 高斯基元,然后将其渲染为 2D 语义和深度图以指导视频扩散 UNet。对于激光雷达生成,提出一种稀疏建模方法,该方法将激光雷达稀疏 UNet 与基于射线的稀疏采样策略相结合,并在占用先验的指导下,有效地生成激光雷达点。
可控制语义占用生成
在 UniScene 中,生成可控且时间一致的语义占用至关重要,因为后续的视频和激光雷达生成都依赖于此。为了解决这个问题,引入占用扩散Transformer (DiT),它将 BEV 布局序列作为输入,使用户可以轻松编辑和生成相应的占用序列。
时域-觉察占用 VAE
。占用 VAE 旨在将占用数据压缩到潜空间以提高计算效率。与依赖离散token化器的基于 VQVAE 方法 [68, 86] 不同,该方法采用 VAE 将占用序列编码到连续潜空间中。它有助于更好地保留空间细节,尤其是在高压缩比下。
潜占用 DiT
。潜占用 DiT 学习在 BEV 布局 B 的条件下从噪声体生成占用潜序列。具体来说,BEV 布局首先与噪声体连接,然后进一步修补,再输入到占用 DiT 中。这种显式对齐策略有助于模型有效地学习空间关系,从而能够更精确地控制生成的序列。占用 DiT 通过一系列堆叠的空间和时间Transformer块聚合时空信息 [43]。
视频:占用作为条件指导
视频生成模型使用预训练的Stable Video Diffusion (SVD) [6] 潜生成模型进行初始化,该模型由 3D 视频 VAE 和视频扩散 UNet 组成。如上图所示,视频扩散 UNet 以占用率渲染图和文本提示为条件生成多视角驾驶视频。
基于高斯的联合渲染
。输入的语义占用网格通过前向高斯分层 [26, 88] 联合渲染为多视图语义和深度图。渲染后的地图,弥补占用网格和多视图视频之间的表示差距,提供细粒度的语义和几何指导,促进高质量和一致的视频生成。保留 SVD [6] 中的原始交叉注意机制,并通过基于占用的多视图条件指导确保跨视图一致性,而不是依赖于以前工作 [15, 72] 中使用的资源密集型时空注意机制来实现跨视图一致性。
渲染后的语义和深度图的可视化结果如图所示。请注意,BEV 布局中的道路线被投影到语义占用上,整合相应的语义信息。这些图被输入到具有残差连接和零卷积的编码器分支中,类似于 ControlNet [84],利用视频扩散 UNet 的预训练功能,同时保留其固有的生成能力。
几何-觉察噪声先验
。为了进一步提高视频生成质量,在采样过程中引入几何-觉察噪声先验策略。它注入密集的外观先验,类似于以前的工作 [14, 64],同时还通过渲染的深度图 D 结合显式几何-觉察来模拟区域相关性。
然而,在现实世界中,动态视频中的许多区域在多帧之间表现出显著的变化。前面描述的简单策略没有考虑到这些高度动态区域中的对应建模。为了解决这个问题,利用渲染的深度图 D,使用单应性扭曲(homography warping)将外观先验从参考图像扭曲到其他图像 [10, 67],从而实现显式几何-觉察重投影。
激光雷达:基于占用的稀疏建模
对于激光雷达生成,首先使用稀疏 UNet [53] 将输入占用编码为稀疏体素特征,然后通过占用先验引导的稀疏采样生成激光雷达点。
先验引导稀疏建模
。鉴于语义占用固有的稀疏性和详细几何形状,提出一种先验引导的稀疏建模方法来提高计算效率,避免对未占用体素进行不必要的计算。首先使用稀疏 UNet[53] 处理输入的语义占用网格以聚合上下文特征。接下来,沿激光雷达射线进行均匀采样,表示为 r,生成一系列点,表示为 s。
如图 (a) 所示,为了便于先验引导的稀疏采样,为占用体素内的点分配 1 的概率,为所有其他点分配 0 的概率,从而定义概率分布函数 (PDF)。随后,根据 PDF 对 n 个点 {r/i = o + s/i * v (i = 1,...,n)} 进行重采样。这里 o 是射线原点,v 是归一化射线方向。
激光雷达头和训练损失
。遵循先前研究 [3, 60, 81] 中基于射线的体渲染技术,每个重采样点的特征通过多层感知器 (MLP) 处理,预测符号距离函数 (SDF) f (s) 并计算相关权重 w(s)。然后使用这些预测和权重通过体渲染估计射线的深度。