24年6月来自西湖大学领头的几所大学和理想汽车公司的论文“Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation”。
使用生成模型来合成新数据已成为自动驾驶中解决数据稀缺问题的事实标准。虽然现有方法能够增强感知模型,但这些方法无法提高端到端自动驾驶模型的规划性能,因为生成的视频通常少于 8 帧,并且空间和时间不一致性不可忽略。为此,Delphi,一种基于扩散的长视频生成方法,具有跨多视图的共享噪声建模机制以增加空间一致性,以及特征对齐模块以实现精确可控性和时间一致性。该方法可以生成多达 40 帧的视频而不会失去一致性,这比最先进的方法长约 5 倍。不是随机生成新数据,而是进一步设计一种采样策略,让 Delphi 生成与这些故障案例相似的新数据,以提高采样效率。这是在预训练的视觉-语言模型帮助下构建故障案例驱动框架实现的。
端到端自动驾驶最近引起了越来越多的关注 [13, 16, 43],它直接从原始传感器数据中学习规划运动,减少对手工制定规则的严重依赖并避免级联模块。然而,当前的端到端模型在训练数据的规模和质量方面面临重大挑战。数据多样性不足会导致模型过拟合 [44],例如收集的真实轨迹主要涉及“直行”动作的直线,当应用于“十字路口左转”等更复杂的场景时,模型很容易失败。虽然大规模和高质量的注释数据对于安全且强大的端到端自动驾驶系统至关重要,但不幸的是,收集此类数据带来了挑战,特别是在涉及数据收集可能困难或不安全危险场景的情况下。
尽管最近的生成模型 [5, 40, 42] 在缓解感知模型数据稀缺问题方面取得了显著进展,这是通过使用 ControlNet [46] 来控制 BEV 布局的场景元素几何位置并跨视图维生成多视图图像来实现的。当应用于需要长的多视图视频端到端自动驾驶时,会出现两个主要挑战:时空一致性和精确可控性。现有的生成方法 [5, 40, 38, 39] 仅利用跨帧注意与先前生成帧来确保一致性,这忽略了图像生成和视频生成之间的噪声模式差异,以及跨帧注意中特征对齐。因此,时间一致性只能在短视频序列中保持,例如具有 8 帧 Panacea [40] 和具有 7 帧 MagicDrive [5]。此外,目前的方法对生成的视频只能进行粗粒度控制,仅限于修改简单的全局属性,例如通过简单的文本提示改变天气。它们无法精细地控制场景的整体建筑风格或单个目标的具体外观属性。
如图所示:图 (a) Delphi 的架构。它以多视角视频 z 和相应的 BEV 布局序列作为输入。每个视频由 N 帧和 V 个视图组成。首先根据相机参数将 BEV 布局序列投影到相机空间中,从而产生包含前景和背景布局的相机布局。具体而言,前景布局包括边框的角坐标、航向、实例 ID 和密集字幕,而背景布局包括不同颜色的线条来表示道路趋势。由编码器处理的布局嵌入通过交叉注意注入 U-Net,在生成过程中实现细粒度的布局控制。此外,利用 VLM [1] 为输入场景提取密集字幕,然后通过 Long-CLIP [45] 对其进行编码以获得文本嵌入,然后通过文本交叉注意将其注入 U-Net 实现基于文本的控制。
另外,该工作进一步设计了两个关键模块,图 (b) 噪声重新初始化模块,它包含不同视图之间的共享噪声;图 (c) 特征对齐的时间一致性模块,以确保空间和时间的一致性。
多视角视频在时间和视角维上自然表现出相似性。
然而,现有的方法分为两类,i)并发单视角视频生成方法 [22, 27, 26] 不能直接应用于户外多视角场景;
ii)多视角生成模型添加独立的噪声,没有考虑跨视角一致性 [5, 42, 40]。
本文在这两个维度上引入共享噪声来解决这个问题。
具体来说,在时间维度上引入共享运动噪声 m,在视点维度上引入共享全景噪声 p。
这会得到一个在时间和视角维度上都相关的多视角视频噪声版本。
现有方法 [40, 5, 39] 在生成当前帧时利用简单的交叉注意机制将前一帧信息融合到当前视图中。然而,它们往往忽略了位于不同网络深度的特征具有不同感受野这一事实。因此,这种粗略的特征交互方法无法捕获来自前一帧不同级感受野的所有信息,导致视频生成性能不佳。
为此,提出一种更有效的结构,在相邻帧中相同网络深度的对齐特征之间完全建立特征交互。通过确保全局一致性和优化局部一致性来实现这一点,结合了两种主要设计:场景-觉察注意和实例-觉察注意。
为了利用生成的数据,常见的方法会随机抽取训练数据集的一个子集,然后应用视频生成模型来扩充这些数据,以提高下游任务的性能。假设这个随机样本不考虑长尾案例的现有分布,对进一步优化至关重要。因此,提出一个故障案例驱动框架,该框架利用四个步骤来降低计算成本。如图所示,首先评估现有的故障案例作为起点,然后实施一种基于视觉-语言的方法来分析这些数据的模式并检索类似的场景以更深入地理解上下文,接着使场景和实例编辑的字幕多样化,以生成具有不同外观的新数据。最后,使用这些附加数据对下游任务进行几个epochs的训练,以提高泛化能力。