24年12月来自新加坡国立和浙大的论文“WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model”。
随着视觉语言模型 (VLM) 的快速发展,人类通用知识和令人印象深刻的逻辑推理能力的出现,推动人们对将 VLM 应用于高级自动驾驶任务(如场景理解和决策)的兴趣日益浓厚。然而,深入研究知识熟练程度(尤其是基本驾驶专业知识)与闭环自动驾驶性能之间的关系需要进一步探索。本文研究基本驾驶知识的深度和广度对闭环轨迹规划的影响,并介绍 WiseAD,一种专门为端到端自动驾驶量身定制的 VLM,能够在不同场景中进行驾驶推理、行动论证、目标识别、风险分析、驾驶建议和轨迹规划。
对驾驶知识和规划数据集进行联合训练,使模型能够相应地执行与知识一致的轨迹规划。大量实验表明,随着驾驶知识多样性的扩展,重大事故发生率显著降低,在 Carla 闭环评估中驾驶得分和路线完成率分别提升 11.9% 和 12.4%,达到最佳性能。此外,WiseAD 在域内和域外数据集的知识评估中也表现出色。
如图所示:
用于自动驾驶的 LLM 和 VLM
ADAPT [16] 进行早期探索,利用视频 swin Transformer [24] 进行文本驾驶叙述和推理,从而对驾驶行为提供明确的解释。DriveGPT4[43] 也有类似的想法,即使用 VLM 通过大量训练数据实现可解释的端到端驾驶。LMDrive [36] 提出一种基于 LLaVA [23] 端到端自动驾驶模型,以使用自然语言指令处理多模态传感器数据。在 DriveVLM [39] 中,提出一种用于自动驾驶的慢速-快速混合系统,其中 VLM 负责场景理解和规划增强。还集成另一个传统流水线以满足实时推理要求。DriveMLM [42] 结合额外的激光雷达数据,并提出一种基于 LLaMA [40] 的多模态模型来提供高级驾驶决策。 RAG-Driver [44] 并未提供端到端解决方案,而是使用 VLM 进行知识检索和增强的可泛化驾驶解释。ELM [46] 集成多种驾驶任务,如目标检测、活动预测、跟踪和场景描述。ELM 的局限性在于,所提出的 VLM 智体无法提供未来轨迹或驾驶决策,这阻碍对闭环驾驶性能的进一步探索。
用于自动驾驶的知识增强数据集
如 [20] 所述,自动驾驶正在逐渐演变为知识驱动技术,这在很大程度上归功于知识增强数据集的出现。与具有用于感知和其他任务标准注释的传统驾驶数据集 [4、9、12、38] 相比,知识增强数据集通常会引入文本字幕来明确表达专业知识。 BDD-X [17] 是为实现值得信赖且用户友好的自动驾驶而提出的。它由超过 77 小时的视频组成,并附有驾驶行为的文字说明,已广泛用于评估车辆控制、解释生成和场景字幕。HAD 数据集 [18] 是从 HDD 数据集 [33] 收集的,包含 5675 个驾驶视频片段,提供由人类注释的明确驾驶建议。驾驶建议涵盖速度、交通状况、道路要素和驾驶操作。安全一直是自动驾驶的关键挑战,DRAMA 数据集 [27] 旨在在目标和场景级别提供明确的风险分析,并附带文本驾驶建议。最近,CODA-LM [22] 数据集的提议收集各种长尾极端情况,并为一般感知、区域感知和驾驶建议提供文本注释。 NuScenes 数据集 [4] 是一个流行的数据集,具有丰富的感知、预测和规划任务注释,并已在传统解决方案中广泛采用。最近,已经进行一些探索,为 NuScenes 数据集提供文本知识注释。DriveLM [37] 提出一种图样式结构来连接感知、预测和规划任务中的问答对。它不使用视频剪辑,而是只选择关键帧。Talk2Car [10] 和 NuScenesQA [31] 数据集也是基于 Nuscenes 数据集构建的,前者数据集侧重于转换驾驶命令,后者数据集侧重于通过利用现有的 3D 检测注释手动构建场景图和问题。在 LingoQA [28] 中,作者探索了一个名为 Lingo-Judge 的真实性分类器,它与人类评估具有更高的相关系数。此外,还提出一个全面的视频问答数据集,包括驾驶推理、目标识别、动作证明和场景描述等任务。 CoVLA 数据集 [2] 的介绍包括 10,000 个视频片段,其中包含描述驾驶场景以及未来轨迹动作的语言字幕。
WiseAD 概述
WiseAD 是一种专门的视觉语言模型,具有丰富的基本驾驶知识,专为自动驾驶而设计,能够进行场景描述、目标识别、动作论证、潜在风险分析、驾驶建议和轨迹规划。输出与文本空间对齐,如 DriveVLM[39],以便可以很好地保留预训练模型的语言能力。
WiseAD 建立在 MobileVLM[8] 的基础上,MobileVLM[8] 是一种针对移动设备计算友好的视觉语言模型。整体框架如图所示,由一个冻结的 CLIP ViT-L/14 [32] 和一个用于提取视觉tokens的可学习投影器以及一个用于文本问答的大语言模型 MobileLLaMA 组成。
具体来说,给定一个由 T 幅图像组成的视频序列
X
v,CLIP ViT 特征
F
v 被投影到模态对齐的视觉token
H
v,Dv 和 Dl 表示 ViT 和 MobileLLaMA 嵌入的隐维度,Nv = HW/142。然后,将投影的视觉 tokens 沿时间维度展平。语言提示
X
l 在与 Hv 连接后被token化为文本token
H
l,其中 Nl 是文本序列长度。大语言模型采用多模态 tokens,并通过自回归生成长度为 L 的相应文本响应
Y
a:
其中 p(
Y
a) 是目标答案
Y
a 的概率。对于闭环驾驶推理,生成的文本路径点将转换为数字格式。采用两个 PID 控制器来调整转向、油门和制动,以跟踪航向和速度,就像 LMDrive [36] 一样。
数据构建
高质量数据在训练视觉语言模型中起着至关重要的作用。
基本驾驶知识
:成熟且值得信赖的人类驾驶员会根据积累的历史信息做出可靠的决策。为了模拟这一点,收集基于视频的数据集,包括 LingoQA [28]、DRAMA [27] 进行知识学习,并使用 BDDX [17]、DriveLM [37] 和 HAD [18] 数据集进行知识评估。对于 LingoQA 数据集,遵循默认配置,其中每个数据对由 5 个连续帧组成,并附带有关驾驶推理、行动理由、目标识别和场景描述的问题和答案。将原始 DRAMA 数据集拆分为两组驾驶建议和潜风险分析,探索引入额外知识领域和场景的有效性。在 DRAMA、BDDX 和 HAD 数据集中,原始视频序列被分割成 5 帧,采样间隔均匀。根据原始文本描述,使用固定问题模板重新制定问题。对于 DRAMA 数据集,问题被构建为“当前场景中的潜在风险是什么?”和“建议的下一步行动是什么?”。对于 BDDX 数据集,问题是“自车的动作是什么?”。相应的答案保持不变,作为原始数据集中的默认描述。固定问题模板“驾驶员应该注意什么?”用于 HAD 数据集,以反映驾驶注意的知识获取,这是一项接近潜风险分析的任务。DriveLM [37] 数据集是在关键帧上构建的。为目标识别任务采样数据对,并合并当前时间步的前 4 帧。
文本轨迹规划
:继开创性的工作 [34, 36] 之后,用 Carla 模拟器 [11] 以大约 10Hz 的恒定频率收集自动驾驶在各种场景中运行的轨迹。接下来五个航路点的轨迹规划,是基于第一视角的五个相邻帧以及指定与自车纬度和经度距离的目标航路点来学习的。在训练阶段,目标航路点表示为“您的目标航路点是 (x, y),接下来的五个经过航路点是什么?”。x 的符号表示沿水平轴的转向方向,其中正值表示右转,负值表示左转。相应的答案结构为“接下来的五个经过航路点是 (x1, y1)、(x2, y2)、(x3, y3)、(x4, y4)、(x5, y5)。”。
在推理阶段,引入一个注意前缀提示:“注意周围环境,不要违反交通规则。您的目标航点是(x,y),接下来的五个经过航点是什么?”。此注意前缀可作为触发器来利用所学知识,促进知识增强的轨迹规划并有助于显著减少事故。
联合学习进行知识增强轨迹规划
利用广泛的基本驾驶知识来增强轨迹规划是一项不小的挑战。一种直观的方法是在第一阶段利用基础知识数据进行预训练,然后在第二阶段对轨迹数据进行微调。然而,这种两阶段的顺序训练会导致驾驶专业知识的大量遗忘和导航性能的下降。受人类学习过程的启发,其中多才多艺的智能和一般的逻辑推理能力是学习的基础,强调加载在大规模数据上预训练参数的重要性。此外,在驾驶学习过程中,学习者在获取理论知识和通过实践经验应用理论知识之间交替进行。与此过程一致,将这两个任务的数据以大致相等的比例混合,联合学习理论知识和轨迹规划。给定一批训练数据,视觉-语言模型被要求回答各种任务中与驾驶相关的问题,同时生成到达目的地的可靠路线。这种联合学习方式有助于理解驾驶行为背后的基本知识。随着基础知识多样性的积累,车辆碰撞等重大事故显着减少,路线完成率也随之提高。