近年来生成模型的进步为合成逼真的驾驶视频提供了有前景的解决方案,这对训练自动驾驶感知模型至关重要。
然而,现有的方法往往在集成3D信息时遇到困难,同时保持空间-时间一致性并从统一的模型中有效学习,这使得多视视频生成往往受限于每帧2HZ的3D框标注帧率,而作者的DriveScape却能克服这一限制,以稀缺条件下的精确运行能力,实现1024x576的高分辨率视频以10Hz的速度生成。
与其他方法相比,由于作者的双向调制 Transformer (BiMot)可以确保3D结构信息的精确对齐,保持空间-时间一致性。
在与nuScenes数据集的对比中,DriveScape在生成性能方面表现出色,实现了最先进的结果,FID得分为8.34,FVD得分为76.39。代码将在作者的项目主页上提供。
1 Introduction
自动驾驶已经引起了显著的关注,强调了需要精确的环境理解以确保安全的驾驶决策;Zheng等人(2024年))。从多视图图像生成的鸟瞰图(BEV)为诸如3D目标检测、分割、跟踪、深度估计和轨迹预测等任务提供了关键的结构表示;周和克哈内布尔(2022年);Yang等人(2023年);李等人(2023年);廖等人(2024年))。然而,获取高质量的多视图视频数据极具挑战性,因为标签成本高,催生了生成与实际世界分布和3D标签对齐的实时同步视频数据的需求。最近生成的模型展示了合成数据的潜力,以增强视觉任务,而扩散模型则已经能够在驾驶视频中生成多样化和真实的效果,这对于构建自动驾驶系统至关重要。
对于作者来说,最相关的方法是利用3D条件生成多视图驾驶视频。首先,如Tab 1所示,大多数方法在低空间和时间分辨率下生成图像。由于它们不支持稀疏条件,因此无法从低频率输入生成高频率视频,这在自主驾驶中是一个重要能力,因为在标注成本远高于视频捕获的情况下。其次,大多数方法缺乏细粒度的布局控制能力,这对于在各种感知任务中进行灵活条件调整至关重要,最终降低生成成本,因为获得所有类型的布局可能非常昂贵。第三,其他方法;李等人;王等人在未考虑空间和时间维度中每个结构组件的协同和对齐的情况下,直接将多种控制信息拼接在一起,导致不一致和降低的结果。最后,由于多视图驾驶视频生成的复杂性,某些方法(李等人(2023年);王等人(2023年))涉及到依赖复杂 Pipeline 依赖多阶段的方案。DrivingDiffusion(李等人(2023年))使用两个单独的模型和多个阶段来生成帧并连续扩展视频,需要后处理。这种复杂的级联方法效率低下,容易累积错误,可能缺乏鲁棒性,从而限制其实际应用。
为了应对这些挑战,作者提出DriveScape,一种多视图3D条件引导视频生成的解决方案。作者引入了一个简单而高效的训练和推理 Pipeline ,无需任何后处理,支持高空间和时间分辨率,实现稀疏条件控制以生成多视图、高分辨率和高帧率视频。作者还引入了一个双向条件对齐模块,以实现各种条件引导和稀疏条件控制多样化,在视频生成任务中实现解耦、稀疏和精确控制。通过在对齐潜在空间中集成多个条件并将范围从更广泛到更精致的层次集成,作者可以实现细粒度的布局控制,并显著提高生成的视频的真实感。此外,作者充分利用时间和空间信息,创建了一个统一的模型以实现一致的多视图视频生成。
总之,作者的关键贡献如下:
-
作者提出了一个有效而简洁的框架,用于生成多视图驾驶视频,不需要复杂的后处理。据作者所知,
作者的模型是第一台实现高分辨率、高帧率、稀疏条件控制的多视图驾驶视频生成
。
-
作者引入了一个双向条件对齐模块,以促进条件指导的多样化,并实现稀疏条件控制,以实现在视频生成任务中解耦、稀疏和精确控制动态前景和静态背景。作者的实验表明,作者的模型实现了独立可控和精确控制的动态前景和静态背景。
-
作者在nuScenes数据集上实现了最先进的视频合成性能,不仅在多视图图像和视频生成的质量方面优于其他感知应用,而且在各种感知应用中表现出色。
2 Related Works
Controllable generation
随着扩散模型的出现,在文本到视频生成领域取得了巨大进展采用了一种潜在扩散 Pipeline ,其中扩散去噪在图像潜在模态上进行,极大地加快了去噪过程。由于文本无法准确控制视频生成,所以后来的方法通过将图像块与文本作为提示信息一起输入到去噪网络进行控制(Zhang等人(2024))。作者希望生成的是高度逼真的街道视频。
这个场景非常复杂,有许多元素和元素之间的互动(如复杂的街道布局,移动的汽车等),所以作者需要更多的信息来进行精细控制,而不仅仅是图片和文本。在作者的方法中,作者将道路地图、3D边界框和BEV关键帧结合在一起来控制视频生成。
Multi-view video generation
多视图一致性和时间一致性是多视图视频生成的两个关键问题。(Tang等人,2023)提出的MVDiffusion方法中,为了保持多视图一致性,提出了一个对应关系的自注意力模块,以将多个视图的信息对齐。(Tseng等人,2023)利用双极几何对在不同的视图之间进行一致性进行正则化。(Gao等人,2023) MagicDrive利用相机姿态、边界框和道路地图作为先验,然后插入额外的交叉视图注意力模块来提高一致性。然而,这些方法只能生成多视图图像而不是视频。
Street view generation
图1:端到端多视图视频生成流水线。作者使用可学习的嵌入矢量来表示不同的摄像头,并将其视野分类为关键视图和邻接视图。作者的训练方案指导通过其相邻帧生成的关键视图视频。此外,作者引入了关键帧条件以及训练和推理方案,以确保同时的多视图一致性。此外,作者的模型不需要进行任何后处理过程,如DriveDiffusion (Li等,2023年)。它可以同时学习多视图和时间一致性,导致高保真度街道视图合成。
大多数街道视图生成模型依赖于2D布局,如BEV地图、2D边界框和语义分割。BEVGen (Swerdlov等人,2024年)通过包含所有语义信息在BEV中实现街道视图生成。BEVControl (Yang等人,2023年b)提出了一种两阶段方法,用于从BEV布局生成多视图城市场景图像,其中控制器生成前景和背景目标,协调器将它们合并在一起,同时保留不同视图之间的视觉一致性。此外,将3D信息投影到2D会失去3D几何信息。因此,直接将其扩展到视频生成可能会导致多个帧之间存在不一致。作者引入了3D边界框作为生成条件之一来引导生成。DriveDiffusion (Li等人,2023年a)提出了一种具有两个模型和2阶段后处理的流水线,用于分别生成帧并扩展视频。然而,这些方法依赖于多阶段 Pipeline ,而作者的方法使用有效且高效的端到端流水线。
3 方法
Overview
DriveScape的概述如图1所示。它运行在LDM (Rombach等人,2022年)的流水线上,根据场景标注BEV图、3D边界框、自车状态和每个视图的文本生成街道视图视频。在第三部分,作者介绍了统一的模型。在该部分中,作者实现了无需复杂后处理和任何后优化的高分辨率多视图视频生成。此外,在第三部分的第3.5节,作者将介绍双向条件对齐模块,它能够实现各种3D道路结构信息之间的有效对齐和协同作用。
DriveScape的概述如图1所示。它运行在LDM (Rombach等人,2022年)的流水线上,根据场景标注BEV图、3D边界框、自车状态和每个视图的文本生成街道视图视频。在第三部分,作者介绍了统一的模型。
在第三部分的第3.2节,作者实现了一个无需复杂后处理和任何后优化的统一模型,用于高分辨率多视图视频生成。
此外,在第三部分的第3.5节,作者介绍了双向条件对齐模块,它能够实现各种3D道路结构信息之间的有效对齐和协同作用。
Unified Model
作者的统一模型主要由包含空间和时间卷积以及关注(attention)的UNet组成。其中,
代表视点数量,
代表帧数(frame)。通过第一轮多视点帧
,DriveScape可以预测接下来的帧
,其中条件包括BEV图
,3D 边界框
,BEV关键帧和相邻的摄像头视频。BEV图和3D 边界框会通过透视投影和卷积块进行编码。
如图1所示,作者使用可学习的嵌入向量
来表示不同的摄像头。与相同的canbus信息(速度和方向角),这些向量随后被输入到多层感知机(MLP)和 Sigmoid线性单元(SiLU)函数中。此过程使得嵌入向量可以与图像潜在进行交互,从而实现一个能够从不同视角预测视频的统一模型。
然而,嵌入摄像头信息无法实现空间和时间维度的一致性,因为它只能代表每个摄像头在整个数据集上的全局特性。一致性将通过模型结构和训练方案的设计得到保证。一方面,为实现时间一致性,作者充分利用时间信息,通过在潜在扩散UNet(Ronneberger等人(2015))层中引入时间关注以及控制对齐模块(将在Sec.双向调制 Transformer (BiMOT)中讨论)来达到时间一致性。另一方面,作者还引入了关键帧条件以及训练和推理方案,以确保多视图同时保持一致性。
Training Stage.
针对邻居帧的生成
DriveScape将相机视图分为关键视图和邻居视图,如图2所示。同一类型的视图之间的可见重叠最小。事实上,它们之间几乎不存在可辨别的重叠区域。因此,训练方案将通过邻居视图的相邻帧来引导关键视图视频的生成。在训练阶段,依次选择邻居视图和关键视图。而在邻居视图的训练过程中,会输入邻居摄像机(靠近关键视图)的的视频条件到网络中。DriveScape按照关键视图的顺序生成视频并存储,以供后续训练阶段使用。一旦准备好了关键视图,它们将与其图像潜在进行交叉注意,以确保邻居视图受其邻居的影响。
针对关键帧条件的生成
作者遇到了一个挑战,即在没有特定多视图约束输入的情况下生成了关键视图,这会导致性能下降。在大多数情况下,这是合理的,因为它们之间的重叠区域几乎为零。然而,在长期生成的情况下,这些视图是相关的。例如,当超过时,这些车辆首先由后视摄像头观察到,然后在一定时间后由前摄像头捕捉到。因此,提出了关键帧条件,即所有视图的共同开始帧与图像潜在相关。与时间注意力相结合,模型可以在开始阶段和所有邻居摄像机的先前帧之间学习所有视图的相关性。