利用潜世界模型增强端到端自动驾驶

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-08-09 00:03

正文

24年6月来自中科院自动化所、中科大和中科院香港创新研究院的论文“Enhancing End-to-End Autonomous Driving with Latent World Model”。

端到端自动驾驶引起了广泛关注。当前的端到端方法很大程度上依赖于感知任务（例如检测、跟踪和地图分割）的监督来帮助学习场景表征。然而，这些方法需要大量注释，从而阻碍了数据的可扩展性。为了应对这一挑战，提出了一种自监督方法来增强端到端驾驶，而无需昂贵的标签。具体来说，框架 LAW 使用 LAtent World 模型根据预测的自我动作和当前帧的潜特征来预测未来的潜特征。预测的潜特征由未来实际观测的特征监督。这种监督共同优化了潜特征学习和动作预测两个过程，从而大大提高了驾驶性能。

传统规划器无法访问原始传感器数据。这会导致信息丢失和错误积累 [15, 22]。相比之下，端到端规划器处理传感器数据以直接输出规划决策，这显示出进一步探索的有前途的领域。

一些端到端方法 [35, 4, 40] 不采用感知任务，仅从记录的驾驶视频和轨迹中学习。这些方法可以利用大量可用数据，使其成为一个有前途的方向。然而，仅使用有限的轨迹指导会使网络难以学习有效的场景表示并实现最佳驾驶性能。

如图所示先前的辅助任务与潜预测任务之间的比较。虽然 (a) 中的先前工作依赖于具有大量注释的辅助感知任务，但端到端的任务目标是通过 (b) 中的潜世界模型来增强端到端驾驶模型。在训练期间，从未来帧中获得潜特征，以联合监督当前帧的潜特征和预测轨迹。（Seg. = 分割）

世界模型在自动驾驶任务中，旨在根据当前状态和动作预测未来状态。具体来说，让 Ft 表示在时间步 t 从当前帧中提取的特征，Wt ={wt1,wt2,...,wtM} 表示规划器规划的航点序列，世界模型使用 Ft 和 Wt 预测未来帧的特征 Ft+1。

如图所示整个端到端框架：

端到端规划器

最初，通过图像主干，处理 N 个视图图像以提取它们各自的特征表示。按照 PETR [25]，为这些图像特征生成 3D 位置嵌入。这些位置嵌入与图像特征集成，唯一地标识每个视图。丰富的图像特征表示为 F = {f1，f2，...，fN}。

然后，采用视图注意机制将 F 压缩为观察的视图潜特征 V。在这里，用术语“观察的”来区分这个视图潜特征与其他视图潜特征。具体来说，对于 N 个视图，有 N 个可学习的视图查询 Qview = {q1view，q2view，...，qNview}。每个视图查询 qiview 与其对应的图像特征 fi 进行交叉注意，得到 N 个观察的视图潜特征 V = {v1，v2，...，vN}。

接下来，对观测的视图潜特征进行时间聚合。观测的视图潜特征 V 通过从前一帧生成的历史视图潜特征 H 得到增强。E = V + H。

给定 E，一个航点解码器解码航点。该模块使用航点查询从 E 中提取相关信息。具体来说，初始化 M 个航点查询，Qwp = {q1wp, q2wp, . . . , qMwp}，其中每个查询都是可学习的嵌入。这些航点查询通过交叉注意机制与 E 交互。然后，更新后的航点查询通过 MLP 头输出航点 W = {w1,w2,...,wM}。

在训练期间，用 L1 损失来衡量预测航路点与真值航路点之间的差异。

世界模型

首先，根据增强视图潜特征 Et 和预测路径点 Wt 生成基于动作的视图潜特征。具体来说，设 Et ={e1t,e2t,...,eNt }，将 Wt ={wt1,wt2,...,wtM} 转换为一维向量 w。然后，沿特征通道维连接 e 和 w。连接后的向量由 MLP 变换以形成 ait，它与 eit 的特征通道维相匹配。

整体基于动作的视图潜特征为 At = {a1t, a2t, . . . , aNt}。随后，给定 At，通过潜世界模型获得第 t + 1 帧的预测视图潜特征 Pt+1。

潜世界模型的网络架构是一个 Transformer 解码器，由两块组成。每个块包含一个自注意和 FFN 模块。自注意在视图维上执行。在训练期间，用端到端规划器提取第 t + 1 帧的观察视图潜特征 Vt + 1。Vt + 1 用 L2 损失函数作为 Pt + 1 的监督。

此外，给定 At，将时间信息编码到历史视图隐特征 Ht+1 中。Ht+1 用于增强观察的视图隐特征 Vt+1。具体来说，在视图维上对 At 进行自注意，得到 Ht+1。

Ht+1 旨在将时间信息编码为残差，而 Pt+1 则旨在预测未来帧的视图潜特征。此外，Pt+1 可以很好地替代未来帧的观测视图潜特征，这启发一个想法：即视图选择概念。

视图选择

视图选择方法得益于世界模型预测的有效视图潜特征。该方法以多视图视频作为输入，动态选择一些信息视图来提取特征。其他视图不进行处理，其对应的视图潜特征由世界模型预测的视图潜特征替换。如图所示，此部分由三个部分组成。首先，给定几种潜视图选择策略，选择奖励预测组件，预测这些策略的奖励并选择奖励最高的策略。然后，根据选定的视图，具有选定视图的规划器预测轨迹。在训练期间，选择奖励标签模块为每个选择策略分配一个奖励标签。

开环基准测试。开环基准测试使用专业驾驶员录制的视频流以及相应的自车轨迹。在包含 1,000 个驾驶场景的 nuScenes 数据集 [1] 上进行实验。与之前的研究 [14、16、22] 一致，用位移误差 (DE) 和碰撞率 (CR) 来全面评估规划性能。位移误差测量预测轨迹和 GT 轨迹之间的 L2 距离。碰撞率量化遵循预测轨迹时与其他物体发生碰撞的概率。测试性能比较如下：

利用潜世界模型增强端到端自动驾驶

正文

请到「今天看啥」查看全文