Hint-AD：面向可解释端到端！语言与感知-预测-规划全面对齐，助力多项任务SOTA

自动驾驶之心 · 公众号 · · 2024-09-12 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享 清华AIR&梅赛德斯-奔驰中国团队最新的端到端工作Hint-AD！ 如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『端到端自动驾驶』 技术交流群

论文作者 | Kairui Ding等

编辑 | 自动驾驶之心

写在前面&出发点

自动驾驶中的端到端架构在可解释性方面面临重大挑战，这阻碍了人机之间的信任。为了执行诸如驾驶解释和3D字幕生成等任务，已探索过了人性化的自然语言。然而，以往的工作主要关注于声明式可解释性的范式，其中自然语言解释并未以自动驾驶系统的中间输出为基础，导致这些解释仅具有声明性质。相比之下，对齐式可解释性在语言与自动驾驶系统的中间输出之间建立了联系。在此，我们介绍了Hint-AD，这是一个集成的自动驾驶-语言系统，能够生成与自动驾驶模型的整体感知-预测-规划输出相对齐的语言。通过整合中间输出和一个用于有效特征适应的整体标记混合子网，Hint-AD实现了理想的准确性，在包括驾驶解释、3D密集字幕生成和指令预测在内的驾驶语言任务中取得了最先进的成果。

为了促进对nuScenes上驾驶解释任务的进一步研究，我们还引入了一个人工标注的数据集Nu-X。代码、数据集和模型均可在网上公开获取，网址为：https://air-discover.github.io/Hint-AD/

背景介绍

端到端的感知规划架构在自动驾驶（AD）和一般具身智能中至关重要，因为它具有利用大量数据进行自监督训练的潜力。然而，这些系统面临着严峻的可解释性挑战，在具身智能问题中，如自动驾驶，可解释性问题尤为突出。当自动驾驶系统直接输出控制信号时，人类乘客很难信任其决策。为了解决这个问题，自然语言作为一种高度用户友好的沟通媒介，已被探索用于通过诸如驾驶解释、3D密集字幕和视觉问答（VQA）等任务来增强可解释性。虽然人类驾驶员认识到BEV轨迹作为解释正在发生什么（WHAT）的价值，但语言提供了为什么发生这种情况（WHY）的补充视角。这些方法可以根据单一标准分为声明式可解释性和对齐式可解释性：即生成的语言是否与自动驾驶系统的中间输出对齐（图1）。

声明式可解释性如近期在驾驶解释、3D密集字幕和视觉问答等方面的研究所示，它直接生成自然语言，而不依赖于自动驾驶系统的中间输入。这种方法经常会产生幻觉，因为语言没有基于全面的中间输出，只是驾驶行为的合理化解释。
对齐式可解释性要求语言与自动驾驶模型的内部状态保持一致。据我们所知，这种方法首先由[14]提出，他们将自动驾驶模型的注意力状态与语言解码器对齐，后来的工作将语言解码器与内部决策状态对齐。

然而，现有研究忽视了语言解码器与自动驾驶流程中的完整感知-预测-规划输出之间的对应关系，导致语言任务与自动驾驶任务之间存在差异。通过自动驾驶流程的中间输出来提高驾驶场景中语言任务准确性的潜力尚未被探索。为此，这里提出了Hint-AD，一个集成的自动驾驶-语言框架，旨在与自动驾驶模型的感知-预测-规划过程进行全面对齐，并生成高精度的语言，以促进自动驾驶的可解释性。

我们开发了两种方法来实现语言与自动驾驶模型之间的全面对齐以及语言输出的准确性：

(a) 开发了一个整体token混合模块，该模块将自动驾驶模型的中间输出token适应于语言解码器，重点在于稳健的特征提取和融合；

(b) 引入了一个对齐任务作为在线数据集，以将语言输出与自动驾驶模型的中间输出对齐，要求语言解码器在整个训练过程中解释自动驾驶模型推理过程中生成的中间token。

在UniAD和VAD这两个最先进的自动驾驶模型上实现了Hint-AD，这两个模型分别采用了光栅化和矢量化表示，以证明Hint-AD的通用性。实验结果表明，Hint-AD在各种语言任务上均达到了最先进的性能，包括驾驶解释（CIDEr得分比基线高出20.4%）、3D密集字幕（CIDEr得分比基线高出185%）、视觉问答（准确率提高1.2%）和驾驶指令预测（准确率提高1.2%）。对齐任务显著提高了语言输出与自动驾驶模型中间表示之间的一致性。此外，我们还贡献了一个基于nuScenes的人类标注的驾驶解释数据集Nu-X，以解决这个广泛使用的自动驾驶数据集上缺乏驾驶解释数据的问题。

Hint-AD方法

为了探索自然语言与端到端自动驾驶框架中的中间结果之间的全面对齐，我们提出了一个名为Hint-AD的新型框架，该框架包含三个模块：整体token混合器、语言解码器和传统自动驾驶框架。Hint-AD的概览如图2所示。图2中的现有自动驾驶流程可以是任何将自动驾驶分解为感知、预测和规划的端到端自动驾驶系统。为了不失一般性，在UniAD（作为Hint-UniAD）和VAD（作为Hint-VAD）的基础上实现了我们的方法，它们分别使用光栅化和矢量化表示。

1）Hint-AD的整体框架

首先，从现有的感知-预测-规划架构的自动驾驶模型中提取中间查询token，生成跟踪token、运动token和规划token。其次，整体token混合器模块将对token进行适配，以作为语言解码器的输入。在此模块中，设计了一个实例混合器来合并每个检测实例的实例级跟踪和运动信息。还引入了鸟瞰图（BEV）block和实例block以进行进一步的特征提取，并将长度可变的实例token转换为固定长度。所有处理过的token都被连接起来作为文本生成的上context tokens。最后，context tokens被格式化为prompt tokens，并与文本提示一起放入语言解码器中。我们采用了一种杠铃式适应范式，以实现语言解码器对context的高效理解。

为了在训练过程中使语言和自动驾驶pipeline的中间结果对齐，加入了额外的训练数据，称为对齐任务，这些数据在训练过程中在线构建。

2）Holistic token mixer

从自动驾驶pipeline中提取的查询tokens对于语言解码器来说并不是直接可理解的。针对这一问题，我们提出了一个整体token混合器架构。Hint-UniAD和Hint-VAD的具体实现略有不同。主要遵循Hint-UniAD的设计，而Hint-VAD的小幅调整则在附录中给出。

首先，对从自动驾驶pipeline中提取的查询tokens进行标记。对于一个典型的感知-预测-规划自动驾驶pipeline，可以提取以下组件：BEV tokens ，其中分别是BEV字段的高度、宽度和通道数。

Track tokens 包含每个检测对象的位置和过去轨迹信息，其中是检测到的目标数量，D是token向量的维度。Motion tokens 包含每个检测目标预测的未来轨迹。Planning steps 将是模型预测的未来轨迹。

为了有效地将tokens合并到实例级别，设计了一种新颖的实例混合器，它将每个检测实例的跟踪tokens 和运动tokens 集成到一个实例tokens 中。这是通过张量拼接后跟一个多层感知器（MLP）投影器来实现的，该投影器将个检测实例的tokens投影到维度为的嵌入中：

特征编码器E被实现为一个多层卷积网络，该网络提取特征并将鸟瞰图（BEV）缩放到3×3。之后，使用一个多层感知器（MLP）投影器来将BEV的通道维度C转换为，从而得到。

BEV block和实例block采用多头自注意力层来适应BEV和实例特征。对于BEV tokens，多头自注意力（MHSA）在它们之间进行操作。考虑到每帧检测到的实例数量是可变的，我们引入了