24年8月来自哥伦比亚大学的论文“DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving”。
自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界的场景。视觉-语言模型 (VLM) 正在成为具有巨大潜力的革命性工具,对自动驾驶产生影响。本文提出 DriveGenVLM 框架来生成驾驶视频并使用 VLM 来理解它们。为此,采用一个基于去噪扩散概率模型 (DDPM) 的视频生成框架,旨在预测现实世界的视频序列。然后,使用一种在以自我为中心视频进行高效上下文学习(EILEV) 的预训练模型,探索生成的视频是否适合用于 VLM。扩散模型使用 Waymo 开放数据集进行训练,并使用 Fre ́chet 视频距离 (FVD) 分数进行评估,确保生成视频的质量和真实感。EILEV 为这些生成的视频提供相应的旁白,增强对交通场景的理解,帮助导航,并提高规划能力。
在快速发展的自动驾驶领域,将先进的预测模型集成到车辆系统或交通系统中,对于提高安全性和效率变得越来越重要 [1],[2]。采用尖端的扩散模型方法,这项研究不仅促进了自动驾驶技术的进步,而且为预测模型在提高车辆安全性和导航精度方面的应用树立了新的标杆。
AI生成的内容目前是计算机视觉和人工智能领域的一个主要研究领域。由于内存和计算时间的限制,生成照片般逼真且连贯的视频是一项具有挑战性的领域。在自动驾驶汽车领域,预测车辆前置摄像头的视频至关重要,特别是在自动驾驶和高级驾驶辅助系统 (ADAS) 的背景下 [3]。
生成模型也已用于交通和自动驾驶领域 [4]、[5]。模型因其理解驾驶环境的能力而越来越受到认可。视觉-语言模型 (VLM) 现在正用于自动驾驶应用。为了增强 VLM 的实用性并探索生成模型在 VLM 中对视频内容的应用,必须验证生成模型的预测以确认它们在现实场景中的相关性和准确性。
相关工作
基于扩散的架构在最近用于生成图像和视频的研究中越来越受欢迎。扩散模型已应用于各种图像任务,包括图像生成 [6]、图像编辑 [7] 和图像-到-图像转换 [8]。视频生成和预测是理解现实世界的有效方法。其中使用了几种标准架构,包括生成对抗网络 (GAN) [9]、基于流的模型、自回归模型和变分自动编码器 (VAE) [10]。最近,更多的扩散模型已应用于该领域,并实现了更好的视频质量和更逼真的帧,例如视频生成 [11] 和文本提示到视频生成 [12]。
扩散模型是一类深度生成模型,其特点是两个主要阶段:(i) 正向扩散阶段,其中初始数据通过在多个步骤中添加高斯噪声而逐渐受到干扰;(ii) 反向扩散阶段,其中生成模型旨在通过逐步学习逆扩散过程,从噪声版重建原始数据。去噪扩散概率模型 (DDPM) 是一种常见的生成模型,旨在通过扩散过程学习和生成特定目标概率分布。DDPM 已被证实比传统的生成模型(如 GAN 和 VAE)更有效。
生成长视频需要大量的计算源。一些工作使用基于自回归模型克服这一挑战,例如 Phenaki [12] 和 [13]。然而,自回归模型可能会导致不切实际的场景转换和扩展视频序列中的持续不一致,因为这些模型缺乏从较长镜头中吸收模式的机会。为了解决这个问题,MCVD [14] 采用一种训练方法,独立随机地屏蔽所有前帧或后帧,为模型做好各种视频生成任务的准备。同时,FDM [11] 引入一个基于扩散概率模型 (DDPM) 的框架,该框架能够在不同的设置下生成具有真实和连贯场景完成的扩展视频序列。NUWA-XL [15] 引入一种“Diffusion over Diffusion”架构,旨在通过“由粗到细”的方法生成扩展视频。
近年来,基于文本的大语言模型 (LLM) 越来越受欢迎 [16]。此外,各种生成式视觉-语言模型 (VLM) 已被引入自动驾驶领域。RAG-Driver [17] 旨在利用情境学习实现高性能、可解释的自动驾驶。
本文利用车辆周围摄像头拍摄的视频来预测未来帧。DriveGenVLM 引入上下文 VLM 作为一种方法,提供驾驶场景的文本描述,验证基于扩散生成模型的预测视频。
利用 EILEV [18] 的上下文学习功能来生成驾驶场景的描述。在 DriveGenVLM 中,上下文 VLM 能够处理由扩散框架预测的视频,然后其他基于视觉的模型可以识别这些视频,从而可能有助于自动驾驶中的决策算法。
上下文学习最初是在 GPT-3 [20] 的论文中提出的,它指的是模型能够根据单次交互中提供的上下文来学习或调整其响应,而无需对其底层模型进行任何明确的更新或重新训练。
EILEV [18],是一种为增强第一人称视频视觉-语言模型 (VLM) 中的上下文学习而开发的训练技术。如图所示,EILEV这种 针对交错上下文-查询场景的架构,涉及使用 BLIP-2 [21] 中未修改的 Vision Transformer来处理视频片段。生成的压缩tokens与文本tokens按照初始上下文-查询实例的序列混合。然后将这些组合的tokens输入到 BLIP-2 的静态语言模型中,该模型会生成新的文本tokens。此方法可以通过上下文学习概括分布外(OOD)的视频和文本以及罕见动作。用预训练的模型为驾驶视频生成语言叙述,验证生成的结果是否可解释且真实。
利用 U-net 结构作为 DDPM 图像框架。
该架构的特点是一系列层,这些层会先缩小空间维度,然后将其放大,中间穿插着卷积残差的网络块和聚焦空间注意的层。
该架构如图所示。
DDPM 迭代地将噪声 XT 转换为视频帧 X0。
带红色边框的是条件。
右侧显示每个 DDPM 步骤的 UNet 架构。
如下算法 1 说明了如何使用一个样本方案对视频进行采样。
生成模型可以对以其他子集为条件的视频帧任何子集进行采样。
该模型可以生成 X 和 Y 的任意选择。
每种采样方案的相对有效性,在很大程度上取决于手头的数据集,并且没有普遍最佳的选择。
这项工作试验了三种采样方案,如表所示。
采用的第一个也是最直接的方案是 Autoreg,它对前十帧进行调节,在每个步骤中对十个连续帧进行采样。
使用的另一种方案是 Hierarchy-2,它采用多层采样方法,第一层有十个等距选择的帧,覆盖视频的未观察部分,以十个观察的帧为条件。
在第二层中,连续帧按组进行采样,考虑最近的前一帧和后一帧,直到所有帧都被采样。
最后,使用 Adaptive Hierarchy-2 (Ad),这只能通过实施 灵活扩散模型(FDM) 来实现。
Adaptive Hierarchy-2 在测试期间策略性地选择调节帧以优化帧多样性,以成对 LPIPS 距离来衡量结果。