专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

端到端自动驾驶：挑战与前沿

智能车情报局 · 公众号 · · 2024-10-21 21:37

正文

公开课预告

10月22日上午10点，NVIDIA Research 自动驾驶方向研究科学家李柏依，将以《探索基于多模态 LLM 的自动驾驶智能体》为主题进行直播讲解。

👀

摘要

自动驾驶社区见证了采用端到端算法框架的方法的快速增长，利用原始传感器输入来生成车辆运动计划，而不是专注于检测和运动预测等单个任务。与模块化管道相比，端到端系统受益于感知和规划的联合特征优化。由于大规模数据集的可用性、闭环评估以及对自动驾驶算法在具有挑战性的场景中有效执行的日益增长的需求，该领域蓬勃发展。在本次调查中，我们对 270 多篇论文进行了全面分析，涵盖了端到端自动驾驶的动机、路线图、方法、挑战和未来趋势。我们深入研究了几个关键挑战，包括多模态性、可解释性、因果混淆、稳健性和世界模型等。此外，我们还讨论了基础模型和视觉预训练的最新进展，以及如何将这些技术纳入端到端驾驶框架。我们维护一个活跃的存储库，其中包含最新的文献和开源项目，网址为https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving。

引言

传统的自动驾驶系统采用模块化设计策略，其中每个功能（例如感知、预测和规划）都是单独开发并集成到车载车辆中的。负责生成转向和加速度输出的规划或控制模块在决定驾驶体验方面起着至关重要的作用。模块化管道中最常见的规划方法是使用复杂的基于规则的设计，这些设计通常无法有效解决道路上发生的大量情况。因此，利用大规模数据并使用基于学习的规划作为可行替代方案的趋势日益增长。我们将端到端自动驾驶系统定义为完全可区分的程序，它将原始传感器数据作为输入并生成计划和/或低级控制操作作为输出。图 1 (a)-(b) 说明了经典和端到端公式之间的区别。传统方法将每个组件的输出（例如边界框和车辆轨迹）直接输入到后续单元（虚线箭头）。相比之下，端到端范式在组件之间传播特征表示（灰色实线箭头）。优化函数设置为例如规划性能，并通过反向传播最小化损失（红色箭头）。在此过程中，任务被联合和全局优化。

图 1：概览。（a）管道和方法。我们将端到端自动驾驶定义为基于学习的算法框架，具有原始传感器输入和规划/控制输出。我们深入研究了 270 多篇论文，并将其分为模仿学习 (IL) 和强化学习 (RL)。（b）基准测试。我们将流行的基准测试分别分为闭环和开环评估。我们涵盖了闭环模拟的各个方面以及开环评估对于这个问题的局限性。（c）挑战。这是我们工作的主要部分。我们从广泛的主题中列出了关键挑战，并广泛分析了这些问题为何至关重要。还涵盖了对这些挑战的有希望的解决方案。（e）未来趋势。我们讨论了端到端范式如何借助基础模型、视觉预训练等的快速发展而受益。部分照片由在线资源提供。

在本次调查中，我们对这一新兴主题进行了广泛的回顾。图 1 概述了我们的工作。我们首先讨论端到端自动驾驶系统的动机和路线图。端到端方法可以大致分为模仿和强化学习，我们对这些方法进行了简要回顾。我们涵盖了闭环和开环评估的数据集和基准。我们总结了一系列关键挑战，包括可解释性、泛化、世界模型、因果混淆等。最后，我们讨论了我们认为社区应该接受的未来趋势，以融入数据引擎、大型基础模型等的最新发展。请注意，本次审查主要是从理论角度进行的。版本控制、单元测试、数据服务器、数据清理、软硬件协同设计等工程工作在部署端到端技术中起着至关重要的作用。关于这些主题的最新实践的公开信息有限。我们邀请社区在未来的讨论中更加开放。

1.1 端到端系统的动机

在经典管道中，每个模型都服务于一个独立的组件并对应一个特定的任务（例如，交通信号灯检测）。这种设计在可解释性和易于调试方面是有益的。然而，由于模块之间的优化目标不同，检测追求平均精度（mAP），而规划则以驾驶安全和舒适为目标，整个系统可能与统一的目标不一致，即最终的规划/控制任务。随着顺序程序的进行，每个模块的错误可能会累积并导致信息丢失。此外，与一个端到端神经网络相比，涉及多个编码器和消息传输系统的多任务、多模型部署可能会增加计算负担，并可能导致计算的次优使用。

与传统系统相比，端到端自主系统具有多项优势。

（a）最明显的优点是它能够简单地将感知、预测和规划结合到一个可以联合训练的模型中。

（b）整个系统（包括其中间表示）都针对最终任务进行了优化。

（c）共享主干提高了计算效率。

（d）数据驱动的优化有可能通过简单地扩展训练资源来改进系统。

请注意，端到端范式并不一定表示一个只有规划/控制输出的黑匣子。

它可以像传统方法一样具有中间表示和输出（图 1 (b)）。事实上，几个最先进的系统 [1, 2] 提出了一种模块化设计，但优化了所有组件以实现卓越的性能。

1.2 路线图

图 2 描绘了端到端自动驾驶关键成就的按时间顺序排列的路线图，其中每个部分都表明了重要的范式转变或性能提升。

端到端自动驾驶的历史可以追溯到 1988 年的 ALVINN [3]，当时的输入是来自摄像头和激光测距仪的两个“视网膜”，一个简单的神经网络生成转向输出。NVIDIA 设计了一个原型端到端 CNN 系统，在 GPU 计算的新时代重新确立了这一想法 [8]。随着深度神经网络的发展，无论是在模仿学习 [15, 16] 还是强化学习 [4, 17, 18, 19] 方面，都取得了显著的进展。LBC [5] 中提出的策略蒸馏范式和相关方法[20, 21, 22, 23] 通过模仿行为良好的专家，显著提高了闭环性能。为了提高由于专家和学习策略之间的差异而产生的泛化能力，一些论文 [10, 24, 25] 提出了在训练期间聚合策略数据 [26]。

2021 年左右出现了一个重大转折点。由于在合理的计算预算内有多种传感器配置可用，人们的注意力集中在结合更多模态和高级架构（例如 Transformers [27]）以捕获全局上下文和代表性特征，如 TransFuser [6, 28] 和许多变体 [29, 30, 31]。结合对模拟环境的更多了解，这些先进的设计在 CARLA 基准 [13] 上实现了显着的性能提升。为了提高自主系统的可解释性和安全性，方法 [11, 32, 33] 明确涉及各种辅助模块，以更好地监督学习过程或利用注意力可视化。最近的研究优先考虑生成安全关键数据 [7, 34, 35]、预先训练用于策略学习的基础模型或主干 [12, 36, 37]，并倡导模块化端到端规划理念 [1, 2, 38, 39]。同时，引入了新的具有挑战性的 CARLA v2 [13] 和 nuPlan [14] 基准，以促进对该领域的研究。

1.3 与相关调查的比较

我们想澄清我们的调查与之前的相关调查 [40, 41, 42, 43, 44, 45, 46, 47, 48] 之间的区别。

一些先前的调查 [40, 41, 42, 43] 涵盖的内容与我们在端到端系统意义上的内容类似。然而，它们没有涵盖该领域最近发生重大转变而出现的新基准和方法，而只是将重点放在前沿和挑战上。其他的则专注于该领域的特定主题，例如模仿学习[44、45、46]或强化学习[47、48]。相比之下，我们的调查提供了该领域最新发展的最新信息，涵盖了广泛的主题，并深入讨论了关键挑战。

1.4 贡献

总而言之，本调查有三个主要贡献：

（a）我们首次对端到端自动驾驶进行了全面的分析，包括高级动机、方法、基准等。我们提倡一种设计整个算法框架的理念，而不是优化单个块，最终目标是实现安全舒适的驾驶。

（b）我们广泛研究了并发方法面临的关键挑战。在调查的 250 多篇论文中，我们总结了主要方面并进行了深入分析，包括关于普遍性、语言指导学习、因果混淆等主题。

方法

本节回顾了大多数现有端到端自动驾驶方法背后的基本原理。第 2.1 节讨论了使用模仿学习的方法，并详细介绍了两个最受欢迎的子类别，即行为克隆和逆最优控制。第 2.2 节总结了遵循强化学习范式的方法。

2.1 模仿学习

模仿学习 (IL)，也称为从示范中学习，通过模仿专家的行为来训练代理学习策略。IL 需要一个数据集

，其中包含根据专家策略

，收集的轨迹，其中每个轨迹都是一系列状态-动作对。IL 的目标是学习与

匹配的代理策略

。策略

可以输出计划轨迹或控制信号。早期的工作通常采用控制输出，因为易于收集。然而，预测不同步骤的控制可能会导致不连续的操纵，并且网络本质上专门用于车辆动力学，这阻碍了对其他车辆的推广。另一类工作预测航路点。它考虑了相对较长的时间范围。同时，将车辆的轨迹转换为控制信号需要额外的控制器，这并非易事，涉及车辆模型和控制算法。由于没有观察到这两种范式之间明显的性能差距，因此我们在本调查中没有明确区分它们。可以在 [22] 中找到一个有趣且更深入的讨论。IL 的一个广泛使用的类别是行为克隆 (BC)[49]，它将问题简化为监督学习。逆最优控制 (IOC)，也称为逆强化学习 (IRL) [50]，是另一种类型的 IL 方法，它利用专家演示来学习奖励函数。我们在下面详细说明这两个类别。

图 2：端到端自动驾驶路线图。我们按时间顺序介绍关键里程碑，将相似的作品归类为同一主题。代表性作品或第一部作品以粗体显示，并附有插图，而同一主题中其余文献的日期可能有所不同。我们还展示了每年 CARLA 排行榜 [13]（DS，范围从 0 到 100）和最近的 nuPlan 挑战赛 [14]（分数范围从 0 到 1）中最高分的得分。

2.1.1 行为克隆

在 BC 中，通过将规划损失最小化为对收集的数据集进行监督学习，可以将代理的策略与专家的策略相匹配：

，这里，

表示一个损失函数，用于测量代理动作和专家动作之间的距离。

BC 在驾驶方面的早期应用 [3, 8, 51] 利用端到端神经网络从摄像头输入生成控制信号。已经提出了进一步的增强功能，例如多传感器输入 [6, 52]、辅助任务 [16, 28] 和改进的专家设计 [21]，以使基于 BC 的端到端驾驶模型能够处理具有挑战性的城市场景。

BC 的优势在于其简单性和效率，因为它不需要手工制作的奖励设计，这对 RL 至关重要。然而，也存在一些常见问题。在训练过程中，它将每个状态视为独立且相同分布的，从而导致一个称为协变量偏移的重要问题。对于一般的 IL，已经提出了几种策略方法来解决这个问题[26, 53, 54, 55]。在端到端自动驾驶的背景下，DAgger [26] 已被采用在 [5, 10, 25, 56] 中。BC 的另一个常见问题是因果混淆，其中模仿者利用并依赖某些输入组件和输出信号之间的错误相关性。这个问题已经在 [57, 58, 59, 60] 中在端到端自动驾驶的背景下进行了讨论。这两个具有挑战性的问题将分别在第 4.9 节和第 4.8 节中进一步讨论。

2.1.2 逆最优控制

传统的 IOC 算法从专家演示中学习未知的奖励函数 R(s, a)，其中专家的奖励函数可以表示为特征的线性组合 [50, 61, 62, 63, 64]。然而，在连续、高维的自动驾驶场景中，奖励的定义是隐式的，难以优化。生成对抗模仿学习 [65, 66, 67]是 IOC 中的一种特殊方法，它将奖励函数设计为对抗目标，以区分专家和学习到的策略，类似于生成对抗网络的概念 [68]。最近，有几篇论文提出用辅助感知任务来优化成本量或成本函数。由于成本是奖励的另一种表示形式，我们将这些方法归类为属于 IOC 领域。我们对成本学习框架的定义如下：端到端方法学习合理的成本c(·)，并使用算法轨迹采样器选择成本最低的轨迹，如图3所示。

关于成本设计，它具有包括鸟瞰视图 (BEV) [32] 中学习到的成本体积、根据其他代理的未来运动计算出的关节能量 [69] 或一组概率语义占用或自由空间层 [39, 70, 71] 等表示。另一方面，轨迹通常从固定的专家轨迹集 [1] 中采样，或通过使用运动模型的参数采样进行处理 [32, 38, 39, 70]。然后，采用最大边际损失，就像经典 IOC 方法一样，以鼓励专家演示具有最低成本，而其他演示具有高成本。成本学习方法存在一些挑战。特别是，为了生成更现实的成本，通常会结合高清地图、辅助感知任务和多个传感器，这增加了学习和构建多模态多任务框架数据集的难度。尽管如此，上述成本学习方法显著提高了决策的安全性和可解释性（见第 4.6 节），我们相信，受行业启发的端到端系统设计是现实世界应用的可行方法。

2.2 强化学习

强化学习 (RL) [72, 73] 是一个通过反复试验进行学习的领域。深度 Q 网络 (DQN) [74] 在 Atari 基准 [75] 上实现人类水平控制的成功使深度 RL 广受欢迎。DQN 训练一个称为批评家（或 Q 网络）的神经网络，该网络将当前状态和动作作为输入，并预测该动作的折扣回报。然后通过选择具有最高预测回报的动作来隐式定义策略。

RL 需要一个允许执行潜在不安全操作的环境来收集新数据（例如，通过随机操作）。此外，RL 需要比 IL 多得多的数据来训练。因此，现代 RL 方法大多在多个环境中并行收集数据[76]。在现实世界中满足这些要求是一项巨大的挑战。因此，几乎所有在驾驶中使用 RL 的论文都只是在模拟中研究了该技术。大多数论文使用了 DQN 的不同扩展。社区尚未就特定的 RL 算法达成一致。

RL 已成功学会了在空旷的街道上跟随真车的车道 [4]。尽管取得了令人鼓舞的结果，但必须指出的是，IL 在三十年前已经完成了类似的任务 [3]。到目前为止，还没有报告显示端到端 RL 训练的结果可以与 IL 相媲美。失败的原因可能是通过 RL 获得的梯度不足以训练驾驶所需的深度感知架构（即 ResNet）。在 Atari 等 RL 取得成功的基准测试中使用的模型相对较浅，仅由几层组成 [77]。

图 3：端到端自动驾驶方法概述。我们说明了三种流行的范例，包括两种模仿学习框架（行为克隆和逆最优控制）以及在线强化学习。

强化学习与监督学习 (SL) 相结合，已成功应用于端到端驾驶。隐式可供性 [18, 19] 使用 SL 对 CNN 编码器进行预训练，任务包括语义分割。在第二阶段，此编码器被冻结，并使用现代版本的 Q 学习 [78] 对冻结编码器的特征进行浅层策略头训练。强化学习还可用于微调使用 IL [17, 79] 进行预训练的完整网络。如果网络可以访问特权模拟器信息，也可以有效地应用强化学习。[48, 80, 81]。特权强化学习代理可用于数据集管理。Roach [21] 在特权 BEV 语义图上训练强化学习代理，并使用该策略自动收集数据集，用于训练下游 IL 代理。WoR [20] 使用 Q 函数和表格动态规划为静态数据集生成附加或改进的标签。

该领域的一个挑战是将模拟结果转移到现实世界。在 RL 中，目标表示为奖励函数，许多算法要求它们密集并在每个环境步骤提供反馈。当前的工作通常使用简单的目标，例如进度和避免碰撞。这些简单的设计可能会鼓励冒险行为 [80]。设计或学习更好的奖励函数仍然是一个悬而未决的问题。

另一个方向是开发可以处理稀疏奖励的 RL 算法，从而直接优化相关指标。RL 可以有效地与世界模型相结合 [82、83、84]，尽管这带来了特定的挑战（参见第 4.3 节）。当前用于驾驶的 RL 解决方案严重依赖场景的低维表示，这个问题将在第 4.4 节中进一步讨论。4.2.2.

英文原文地址:

https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10614862

基准测试

自动驾驶系统需要进行全面评估以确保安全。研究人员必须使用适当的数据集、模拟器、指标和硬件对这些系统进行基准测试才能实现这一点。本节概述了对端到端自动驾驶系统进行基准测试的三种方法：（1）真实世界评估，（2）模拟中的在线或闭环评估，以及（3）驾驶数据集上的离线或开环评估。我们专注于可扩展且有原则的在线模拟设置，并总结了真实世界和离线评估以确保完整性。

3.1 真实世界评估

对自动驾驶进行基准测试的早期努力涉及真实世界评估。值得注意的是，DARPA 发起了一系列竞赛来推进自动驾驶。第一项赛事为自动驾驶穿越莫哈韦沙漠的 240 公里路线提供了 100 万美元的奖金，但没有一支队伍实现这一目标 [85]。系列赛的最后一项赛事名为 DARPA 城市挑战赛，要求车辆在 96 公里的模拟城镇赛道上行驶，遵守交通法规并避开障碍物 [86]。这些比赛促进了自动驾驶的重要发展，例如 LiDAR 传感器。秉承这种精神，密歇根大学建立了 MCity [87]，这是一个大型受控的现实世界环境，旨在促进自动驾驶汽车的测试。除了这些学术项目外，拥有部署无人驾驶汽车车队的资源的行业也依靠现实世界的评估来衡量其算法的改进。

3.2 在线/闭环模拟

在现实世界中对自动驾驶系统进行测试成本高昂且风险大。为了应对这一挑战，模拟是一种可行的替代方案 [14, 88, 89, 90, 91, 92]。模拟器有助于快速进行原型设计和测试，实现想法的快速迭代，并提供低成本的多种场景访问以进行单元测试。此外，模拟器还提供准确测量性能的工具。然而，它们的主要缺点是在模拟环境中获得的结果不一定能推广到现实世界（第 4.9.3 节）。

闭环评估涉及构建一个与现实世界驾驶环境非常相似的模拟环境。评估需要在模拟中部署驾驶系统并测量其性能。系统必须在向指定目标位置前进的同时安全地穿越交通。开发此类模拟器涉及四个主要子任务：参数初始化、交通模拟、传感器模拟和车辆动力学模拟。我们在下面简要介绍这些子任务，然后总结当前可用的闭环基准开源模拟器。

3.2.1 参数初始化

模拟的好处是可以高度控制环境，包括天气、地图、3D 资产和交通场景中物体的排列等低级属性。虽然功能强大，但这些参数的数量相当大，导致设计问题具有挑战性。当前的模拟器通过两种方式解决这个问题：

程序生成：传统上，初始参数由 3D 艺术家和工程师手动调整 [88、89、90、91]。

这限制了可扩展性。最近，一些模拟属性可以用计算机算法从概率分布中采样，我们称之为程序生成 [93]。程序生成算法结合规则、启发式和随机化来创建多样化的道路网络、交通模式、照明条件和物体位置 [94, 95]。由于与完全手动设计相比，它效率更高，因此已成为视频游戏和模拟最常用的初始化方法之一。尽管如此，该过程仍然需要预定义的参数和算法来控制生成可靠性，这非常耗时，并且需要大量的专业知识。

数据驱动：用于模拟初始化的数据驱动方法旨在学习所需的参数。可以说，最简单的方法是从现实世界的驾驶日志中采样 [14, 92]，其中道路地图或交通模式等参数直接从预先记录的数据集中提取。

对数采样的优点是它能够捕捉现实世界数据中存在的自然变化，从而产生更真实的模拟场景。然而，它可能不包括对测试自动驾驶系统的稳健性至关重要的罕见情况。可以优化初始参数以增加此类场景的代表性 [7, 34, 35]。另一种先进的数据驱动初始化方法是生成建模，其中机器学习算法用于学习现实世界数据的底层结构和分布。然后，他们可以生成类似于现实世界但未包含在原始数据中的新场景 [96, 97, 98, 99]。

3.2.2 交通模拟

交通模拟涉及在环境中生成和定位具有真实运动的虚拟实体 [97,100]。这些实体通常包括车辆（例如汽车、摩托车、自行车等）和行人。交通模拟器必须考虑速度、加速度、制动、障碍物和其他实体行为的影响。此外，必须定期更新交通信号灯状态以模拟真实的城市驾驶。交通模拟有两种流行的方法，我们将在下面描述。

基于规则：基于规则的交通模拟器使用预定义的规则来生成交通实体的运动。这一概念最突出的实现是智能驾驶员模型 (IDM) [101]。IDM 是一种跟车模型，它根据每辆车的当前速度、领先车辆的速度和所需的安全距离来计算每辆车的加速度。尽管这种方法被广泛使用且简单易懂，但它可能不足以模拟城市环境中的真实运动和复杂交互。

数据驱动：现实的人类交通行为具有高度交互性和复杂性，包括变道、合并、突然停车等。为了对这种行为进行建模，数据驱动的交通模拟利用了从真实驾驶中收集的数据。这些模型可以捕捉更细微、更真实的行为，但需要大量标记数据进行训练。已经提出了各种基于学习的技术来完成这项任务[97、98、100、102、103、104]。

3.2.3 传感器模拟

传感器模拟对于评估端到端自动驾驶系统至关重要。这涉及生成模拟的原始传感器数据，例如驾驶系统将在模拟器中从不同视点接收的摄像头图像或 LiDAR 扫描[105、106、107]。此过程需要考虑噪声和遮挡，以真实地评估自主系统。关于传感器模拟，有两个主要思想分支，如下所述。

基于图形：最近的计算机图形模拟器使用环境的 3D 模型以及交通实体模型，通过传感器中物理渲染过程的近似值生成传感器数据 [89, 90]。例如，这可能涉及在模拟相机图像时存在于真实环境中的遮挡、阴影和反射。然而，基于图形的模拟的真实性通常低于标准或以大量计算为代价，使得并行化变得并非易事 [108]。它与 3D 模型的质量和用于建模传感器的近似值密切相关。[109] 中提供了基于图形的驾驶数据渲染的全面调查。

数据驱动：数据驱动的传感器模拟利用现实世界的传感器数据来创建模拟，其中自我车辆和背景交通的移动方式可能与记录中的移动方式不同 [110, 111, 112]。流行的方法是神经辐射场 (NeRF) [113] 和 3D 高斯溅射 [114]，它们可以通过学习场景几何和外观的隐式表示来生成场景的新视图。这些方法可以比基于图形的方法在视觉上产生更逼真的传感器数据，但它们具有诸如渲染时间长或需要对每个正在重建的场景进行独立训练等局限性 [107, 115, 116, 117, 118]。数据驱动的传感器模拟的另一种方法是领域自适应，旨在最大限度地缩小真实和基于图形的模拟传感器数据之间的差距 [119]。可以采用 GAN 等深度学习技术来提高真实感（第 4.9.3 节）。

表 1：具有有效基准的开源模拟器用于自动驾驶的闭环评估。

3.2.4 车辆动力学模拟

驾驶模拟的最后一个方面是确保模拟车辆遵循物理上合理的运动。大多数现有的公开模拟器都使用高度简化的车辆模型，例如单轮车模型 [120] 或自行车模型 [121]。然而，为了促进算法从模拟到现实世界的无缝转移，必须结合更准确的车辆动力学物理建模。例如，CARLA 采用多体系统方法，将车辆表示为四个车轮上的簧载质量集合。有关全面回顾，请参阅 [122]。

3.2.5 基准

我们在表 1 中简要概述了迄今为止可用的端到端驾驶基准。2019 年，CARLA [90] 发布的原始基准以近乎完美的分数解决了 [5]。随后的 NoCrash 基准测试 [123] 涉及在特定天气条件下对单个 CARLA 城镇进行训练，并测试对另一个城镇和一组天气的泛化能力。Town05 基准测试 [6] 不涉及单个城镇，而是涉及对所有可用城镇进行训练，同时保留 Town05 进行测试。同样，LAV 基准测试在除 Town02 和 Town05 之外的所有城镇上进行训练，这两个城镇都保留用于测试。Roach [21] 使用包含 3 个测试城镇的设置，尽管这些城镇都是在训练期间看到的，并且没有 Town05 和 LAV 中的安全关键场景。最后，Longest6 基准测试 [28] 使用 6 个测试城镇。两个在线服务器，排行榜（v1 和 v2）[13]，通过对评估路线保密来确保公平比较。由于路线长度较长（平均超过 8 公里，而 v1 上只有 1-2 公里），且存在各种新交通场景，因此 Leaderboard v2 极具挑战性。

nuPlan 模拟器目前可通过 NAVSIM 项目 [124] 访问，用于评估端到端系统。

此外，有两个基准测试，代理通过 nuPlan 的数据驱动参数初始化输入地图和对象属性（第 3.2.1 节）。[125] 中提出的 Val14 使用 nuPlan 的验证分割。排行榜是一个带有私有测试集的提交服务器，曾在 2023 年 nuPlan 挑战赛中使用，但不再公开提交。

3.3 离线/开环评估

开环评估主要根据预先记录的专业驾驶行为评估系统的性能。此方法需要评估数据集，包括（1）传感器读数、（2）目标位置和（3）相应的未来驾驶轨迹，通常从人类驾驶员处获得。

给定传感器输入和目标位置作为输入，通过将系统预测的未来轨迹与驾驶日志中的轨迹进行比较来衡量性能。

根据轨迹预测与人类基本事实的匹配程度以及辅助指标（例如与其他代理的碰撞概率）对系统进行评估。开环评估的优点是它很容易使用真实的交通和传感器数据来实现，因为它不需要模拟器。但是，关键的缺点是它没有衡量部署期间遇到的实际测试分布中的性能。在测试过程中，驾驶系统可能会偏离专家驾驶路线，因此必须验证系统从这种漂移中恢复的能力（第 4.9.2 节）。

此外，预测轨迹和记录轨迹之间的距离在多模式场景中并不是一个理想的指标。例如，在合并到转弯车道的情况下，立即合并或稍后合并的选项都可能是有效的，但开环评估会惩罚数据中未观察到的选项。因此，除了测量碰撞概率和预测误差外，还提出了一些指标来涵盖更全面的方面，例如交通违规、进度和驾驶舒适度 [125]。

这种方法需要全面的轨迹数据集来绘制。用于此目的的最流行的数据集包括 nuScenes [126]、Argoverse [127]、Waymo [128] 和 nuPlan [14]。所有这些数据集都包含大量具有不同难度的真实驾驶遍历。然而，由于上述缺点，开环结果不能提供闭环驾驶行为改善的确凿证据[123、125、129、130]。总的来说，如果可用且适用，建议在未来的研究中采用现实的闭环基准测试。

挑战

按照图 1 中所示的每个主题，我们现在将介绍当前的挑战、相关工作或潜在的解决方案、风险和机遇。我们首先从第 4.1 节中处理不同输入模式的挑战开始，然后在第 4.2 节中讨论有效策略学习的视觉抽象。此外，我们介绍了学习范式，例如世界模型学习（第 4.3 节）、多任务框架（第 4.4 节）和策略提炼（第 4.5 节）。最后，我们讨论了阻碍安全可靠的端到端自动驾驶的一般问题，包括第 4.6 节中的可解释性、第 4.7 节中的安全保障、第 4.8 节中的因果混淆和第 4.9 节中的稳健性。

4.1 感知和输入模式的困境

4.1.1 感知和多传感器融合

感知：尽管早期工作 [8] 成功地实现了使用单目摄像头跟踪车道，但这种单一输入模式无法处理复杂场景。因此，图 4 中的各种传感器已被引入最近的自动驾驶汽车中。特别是，来自摄像头的 RGB 图像复制了人类感知世界的方式，具有丰富的语义细节；激光雷达或立体摄像头提供准确的 3D 空间知识。毫米波雷达和事件摄像头等新兴传感器擅长捕捉物体的相对运动。此外，来自速度计和 IMU 的车辆状态以及导航命令是指导驾驶系统的其他输入线。然而，各种传感器具有不同的视角、数据分布和巨大的价格差距，因此在有效设计传感器布局并将它们融合以相互补充以实现自动驾驶方面带来了挑战。多传感器融合主要在感知相关领域进行讨论，例如物体检测 [131, 132] 和语义分割 [133, 134]，通常分为三类：早期融合、中期融合和晚期融合。端到端自动驾驶算法探索了类似的融合方案。早期融合将感官输入组合起来，然后将它们输入到共享特征提取器中，其中连接是融合的常见方式 [32, 135, 136, 137, 138]。为了解决视图差异，一些工作将点云投射到图像上 [139] 或反之亦然（预测 LiDAR 点的语义标签 [52, 140]）。另一方面，后期融合结合了多模态的多个结果。由于其性能较差，因此讨论较少 [6, 141]。与这些方法相反，中间融合通过分别编码输入然后在特征级别进行融合来实现网络内的多传感器融合。朴素的连接也经常被采用[15、22、30、142、143、144、145、146]。最近，一些研究采用了 Transformers [27] 来模拟特征之间的相互作用[6、28、29、147、148]。Transformers 中的注意力机制在聚合不同传感器输入的上下文和实现更安全的端到端驾驶方面表现出了极大的有效性。

图 4：输入模态和融合策略的示例。不同的模态具有不同的特征，导致有效传感器融合的挑战。我们以点云和图像为例来描述各种融合策略。

受感知技术进步的启发，在统一空间（如 BEV [131,132]）中对模态进行建模是有益的。端到端驾驶还需要识别与策略相关的上下文并丢弃不相关的细节。我们将在第 4.2.1 节中讨论基于感知的表示。此外，自注意力层将所有 token 自由互连，会产生大量计算成本，并且不能保证有用的信息提取。感知领域中基于 Transformer 的高级融合机制（如 [149, 150]）有望应用于端到端驾驶任务。

4.1.2 语言作为输入

人类使用视觉感知和内在知识来驾驶，它们共同形成因果行为。在与自动驾驶相关的领域（例如具身人工智能），将自然语言作为细粒度知识和指令来控制视觉运动代理已经取得了显着进展 [151、152、153、154]。然而，与机器人应用相比，驾驶任务更加直接，不需要任务分解，户外环境更加复杂，具有高度动态的代理，但很少有独特的锚点用于接地。

为了将语言知识融入驾驶，提出了一些数据集来对户外接地和视觉语言导航任务进行基准测试 [155、156、157、158]。

HAD [159] 采纳人对车的建议并添加视觉接地任务。Sriram 等人 [160] 将自然语言指令转化为高级行为，而 [161、162] 直接将文本接地。CLIP-MC [163] 和 LM-Nav [164] 利用 CLIP [165] 从指令中提取语言知识，从图像中提取视觉特征。

最近，观察到大型语言模型 (LLM) [166, 167] 的快速发展，将感知场景编码为标记并将其提示给 LLM 进行控制预测和基于文本的解释 [168, 169, 170]。

研究人员还将驾驶任务表述为问答问题并构建相应的基准 [171, 172]。他们强调，LLM 提供了处理复杂指令和推广到不同数据域的机会，这与机器人领域的应用具有类似的优势 [173]。然而，考虑到其推理时间长、定量准确性低和输出不稳定，目前用于道路驾驶的 LLM 可能具有挑战性。潜在的解决方案可能是在云端专门针对复杂场景使用 LLM，并仅将其用于高级行为预测。

4.2 对视觉抽象的依赖

端到端自动驾驶系统大致有两个阶段：将状态编码为潜在特征表示，然后使用中间特征解码驾驶策略。在城市驾驶中，输入状态（即周围环境和自我状态）与视频游戏等常见策略学习基准相比更加多样化和高维 [18, 174]，这可能导致表示与制定政策所需的注意区域之间的不一致。因此，设计“良好”的中间感知表示或首先使用代理任务预训练视觉编码器是有帮助的。这使网络能够提取有用的信息以有效驾驶，从而促进后续的政策阶段。此外，这可以提高 RL 方法的样本效率。

4.2.1 表示设计

使用各种主干提取朴素表示。

经典卷积神经网络 (CNN) 仍然占主导地位，具有平移等变性和高效率的优势 [175]。深度预训练的 CNN [176] 显著提升了感知和下游性能。相比之下，基于 Transformer 的特征提取器 [177, 178] 在感知任务中表现出了极大的可扩展性，但尚未被广泛用于端到端驾驶。对于特定于驾驶的表示，研究人员引入了鸟瞰图 (BEV) 的概念，将不同的传感器模态和时间信息融合在统一的 3D 空间中 [131, 132, 179, 180]。

它还有助于轻松适应下游任务 [2, 30,181]。此外，基于网格的 3D 占用被开发出来以捕获不规则物体并用于规划中的防撞 [182]。然而，与 BEV 方法相比，密集表示带来了巨大的计算成本。

另一个尚未解决的问题是地图的表示。

传统的自动驾驶依赖于高清地图。由于高清地图的可用性成本高，在线制图方法已经设计出不同的公式，例如 BEV 分割 [183]、矢量化车道线 [184]、中心线及其拓扑 [185, 186] 和车道段 [187]。然而，最适合端到端系统的公式仍未得到验证。

虽然各种表示设计提供了如何设计后续决策过程的可能性，但它们也带来了挑战，因为整个框架需要共同设计这两个部分。此外，鉴于在几种简单但有效的方法中观察到的扩大训练资源的趋势[22, 28]，地图等显式表示的最终必要性尚不确定。

4.2.2 表示学习

表示学习通常包含某些归纳偏差或先验信息。学习到的表示中不可避免地存在可能的信息瓶颈，并且可能删除与决策无关的冗余上下文。

一些早期方法直接利用现成网络中的语义分割掩码作为后续策略训练的输入表示[188, 189]。SESR [190] 进一步通过 VAE 将分割掩码编码为类解耦表示[191]。在 [192,193] 中，预测的可供性指标（例如交通信号灯状态、与车道中心的偏移量以及与领先车辆的距离）被用作策略学习的表示。

观察到像分割这样的结果作为表示会产生由人类定义的瓶颈并导致有用信息的丢失，一些人选择了预训练任务中的中间特征作为 RL 训练的有效表示 [18, 19, 194, 195]。在 [196] 中，VAE 中的潜在特征通过从分割的扩散边界和深度图获得的注意图得到增强，以突出显示重要区域。TARP [197] 利用来自一系列先前任务的数据来执行与不同任务相关的预测任务以获得有用的表示。在 [198] 中，通过近似⇡-双模拟度量来学习潜在表示，该度量由来自动态模型的奖励和输出的差异组成。ACO [36] 通过将转向角分类添加到对比学习结构中来学习判别特征。最近，PPGeo [12] 提出在未校准的驾驶视频上以自监督的方式通过运动预测和深度估计来学习有效的表征。

ViDAR [199] 利用原始图像点云对，并使用点云预测预任务对视觉编码器进行预训练。这些工作表明，从大规模未标记数据中进行自监督表征学习以进行策略学习是有前景的，值得未来探索。

4.3 基于模型的强化学习的世界建模复杂性

除了更好地抽象感知表示的能力之外，端到端模型还必须对未来做出合理的预测，以采取安全的操作。

在本节中，我们主要讨论当前基于模型的策略学习工作所面临的挑战，其中世界模型为策略模型提供明确的未来预测。

深度强化学习通常受到高样本复杂度的影响，这在自动驾驶中尤为明显。基于模型的强化学习 (MBRL) 通过允许代理与学习到的世界模型而不是实际环境进行交互，为提高样本效率提供了一个有希望的方向。MBRL 方法采用显式的世界（环境）模型，该模型由过渡动力学和奖励函数组成。这在驾驶中特别有用，因为像 CARLA 这样的模拟器相对较慢。

然而，对高度动态的环境进行建模是一项具有挑战性的任务。为了简化问题，Chen 等人。[20] 将过渡动力学分解为非反应性世界模型和简单的运动自行车模型。在 [137] 中，使用概率序列潜在模型作为世界模型。为了解决学习的世界模型的潜在不准确性，Henaff 等人 [200] 使用 dropout 正则化训练策略网络以估计不确定性成本。另一种方法 [201] 使用多个世界模型的集合来提供不确定性估计，在此基础上可以截断并相应地调整虚拟的 rollouts。受 Dreamer [82] 的启发，ISO-Dream [202] 将视觉动态分解为可控和不可控的标签状态，并在解开的状态下训练策略。值得注意的是，在原始图像空间中学习世界模型对于自动驾驶来说并非易事。重要的小细节，例如交通信号灯，很容易在预测图像中被忽略。为了解决这个问题，GenAD [203] 和 DriveWM [204] 采用了流行的扩散技术 [205]。MILE [206] 将 Dreamer 风格的世界模型学习融入 BEV 分割空间，作为模仿学习之外的辅助任务。SEM2 [136] 也扩展了 Dreamer 结构，但使用了 BEV 地图输入，并使用 RL 进行训练。除了直接将学习到的世界模型用于 MBRL 之外，DeRL [195] 还将无模型的参与者-评论家框架与世界模型相结合，融合了两个模型对动作或状态的自我评估。端到端自动驾驶的世界模型学习是一个新兴且有前途的方向，因为它大大降低了 RL 的样本复杂性，并且了解世界有助于驾驶。然而，由于驾驶环境高度复杂且动态，仍需要进一步研究以确定需要建模的内容以及如何有效地建模世界。

4.4 依赖多任务学习

多任务学习 (MTL) 涉及通过不同的主管基于共享表示联合执行几个相关任务。MTL 具有降低计算成本、共享相关领域知识以及利用任务关系来提高模型泛化能力等优势 [207]。因此，MTL 非常适合端到端驾驶，其中最终的策略预测需要对环境有全面的了解。然而，辅助任务的最佳组合和适当的损失权重以实现最佳性能是一项重大挑战。与密集预测紧密相关的常见视觉任务相比，端到端驾驶预测的是稀疏信号。稀疏监督增加了在编码器中提取有用信息进行决策的难度。对于图像输入，端到端自动驾驶模型通常采用语义分割 [28, 31, 139, 208, 209, 210] 和深度估计 [28, 31, 208, 209, 210] 等辅助任务。语义分割有助于模型获得对场景的高级理解；深度估计使模型能够捕捉环境的 3D 几何形状并更好地估计到关键物体的距离。除了透视图像上的辅助任务外，3D 物体检测 [28, 31, 52] 对 LiDAR 编码器也很有用。随着 BEV 成为自动驾驶的自然而流行的表示，BEV 分割等任务被纳入模型 [11, 23, 28, 29, 30, 31, 52, 148]，这些模型聚合了 BEV 空间中的特征。此外，除了这些视觉任务之外，[29, 208, 211] 还预测视觉可供性，包括交通信号灯状态、到对面车道的距离等。尽管如此，构建具有多种类型的对齐和高质量注释的大规模数据集对于现实世界的应用来说并非易事，由于当前模型对 MTL 的依赖，这仍然是一个大问题。

图 5：策略提炼。（a）特权代理通过访问特权基本事实信息来学习稳健的策略。专家用虚线标记，以表明如果特权代理是通过 RL 进行训练的，则这不是强制性的。（b）感觉运动代理通过特征提炼和输出模仿来模仿特权代理。

4.5 低效专家和策略提炼

由于模仿学习或其主要子类别行为克隆只是模仿专家行为的监督学习，因此相应的方法通常遵循“师生”范式。主要有两个挑战：（1）教师（例如 CARLA 提供的手工制作的专家自动驾驶仪）不是完美的驾驶员，尽管可以访问周围代理和地图的真实状态。（2）学生仅通过传感器输入由记录的输出进行监督，要求他们提取感知特征并同时从头开始学习策略。一些研究建议将学习过程分为两个阶段，即训练更强大的教师网络，然后将策略提炼给学生。特别是，陈等人。[5, 52] 首先使用特权代理来学习如何在访问环境状态的情况下采取行动，然后让感觉运动代理（学生）在输出阶段通过蒸馏紧密模仿特权代理。更紧凑的 BEV 表示作为特权代理的输入比原始专家提供了更强的泛化能力和监督。该过程如图 5 所示。除了单独监督规划结果外，一些工作还在特征级别提炼知识。例如，FM-Net [212] 使用分割和光流模型作为辅助教师来指导特征训练。SAM [213] 在教师和学生网络之间添加了 L2 特征损失，而 CaT [23] 在 BEV 中对齐特征。WoR [20] 学习基于模型的动作值函数，然后使用它来监督视觉运动策略。Roach [21] 使用 RL 训练更强大的特权专家，消除了 BC 的上限。它包含多个蒸馏目标，即动作分布、价值/奖励和潜在特征。

通过利用强大的 RL 专家，TCP [22] 在 CARLA 排行榜上以单个摄像头作为视觉输入实现了新的最先进水平。DriveAdpater [181] 学习仅感知的学生和具有特征对齐目标的适配器。解耦范式充分利用了教师的知识和学生的训练效率。

尽管已经投入了巨大的努力来设计一个强大的专家并在各个层面上传递知识，但师生范式仍然受到蒸馏效率低下的影响。例如，特权代理可以访问交通信号灯的真实状态，而交通信号灯是图像中的小物体，因此很难提取相应的特征。

因此，与特权代理相比，视觉运动代理表现出巨大的性能差距。这也可能导致学生产生因果混淆（见第 4.8 节）。值得探索如何从机器学习中的一般蒸馏方法中汲取更多灵感，以尽量减少差距。

4.6 缺乏可解释性

可解释性在自动驾驶中起着至关重要的作用[214]。它使工程师能够更好地调试系统，从社会角度提供性能保证，并促进公众接受。实现端到端驾驶模型的可解释性，通常被称为“黑匣子”，更为重要和具有挑战性。

给定训练好的模型，可以应用一些事后 X-AI（可解释的 AI）技术来获得显着性图 [208、215、216、217、218]。显着性图突出显示视觉输入中的特定区域，模型主要依赖于这些区域进行规划。然而，这种方法提供的信息有限，其有效性和有效性难以评估。相反，我们专注于直接增强模型设计可解释性的端到端框架。我们在下面的图 6 中介绍了每种可解释性类别。

图 6：可解释性的不同形式的总结。它们有助于人类理解端到端模型的决策过程和输出的可靠性。

注意力可视化：注意力机制提供了一定程度的可解释性。在 [33, 208, 211, 218,219] 中，应用学习到的注意力权重来聚合中间特征图中的重要特征。注意力权重还可以自适应地组合来自不同对象区域 [220] 或固定网格 [221] 的 ROI 池化特征。

NEAT [11] 迭代地聚合特征以预测注意力权重并细化聚合特征。最近，Transformer 注意力模块被用于更好地融合不同的传感器输入，注意力图显示输入中的重要区域以供驾驶决策 [28, 29, 31, 147,222]。在 PlanT [223] 中，注意力层处理来自不同车辆的特征，为相应动作提供可解释的见解。与事后显着性方法类似，虽然注意力图提供了关于模型焦点的直接线索，但它们的忠实度和实用性仍然有限。

可解释任务：许多基于IL的工作通过将潜在特征表示解码为除策略预测之外的其他有意义的信息来引入可解释性，例如语义分割[2,11,15,28,29,31,52,139,163,208,209,210,224]，深度估计[15,28,31,208,209]，物体检测[2,28,31,52]，可供性预测[29,208,211]，运动预测[2,52]和凝视图估计[225]。虽然这些方法提供了可解释的信息，但大多数方法仅将这些预测视为辅助任务 [11、15、28、31、139、208、209、211]，对最终驾驶决策没有明确影响。一些 [29、52] 确实将这些输出用于最终操作，但它们仅用于执行额外的安全检查。规则集成和成本学习：如第 2.1.2 节所述，基于成本学习的方法与传统模块化系统有相似之处，因此具有一定程度的可解释性。NMP [32] 和 DSDNet [226] 结合检测和运动预测结果构建成本量。P3 [39] 将预测的语义占用图与舒适度和交通规则约束相结合，以构建成本函数。各种表示法，例如概率占用和时间运动场 [1]、突发占用 [71] 和自由空间 [70]，都用于对采样轨迹进行评分。在 [38、125、227] 中，人类专业知识和预定义规则（包括基于感知和预测输出的安全性、舒适性、交通规则和路线）明确包含在轨迹评分成本中，从而证明了改进的鲁棒性和安全性。

语言可解释性：由于可解释性的一个方面是帮助人类理解系统，因此自然语言是实现此目的的合适选择。Kim 等人 [33] 和 Xu 等人 [228] 开发了将驾驶视频或图像与描述和解释配对的数据集，并提出了具有控制和解释输出的端到端模型。

BEEF [229] 融合了预测轨迹和中间感知特征，以预测决策的理由。ADAPT [230] 提出了一个基于 Transformer 的网络来联合估计动作、叙述和推理。最近，[169, 171, 172] 借助多模态和基础模型的进展，使用 LLM/VLM 提供与决策相关的解释，如第 4.1.2 节所述。不确定性建模：不确定性是一种定量方法，用于解释深度学习模型输出的可靠性[231, 232]，它可以帮助设计者和用户识别不确定的情况以进行改进或进行必要的干预。对于深度学习，有两种类型的不确定性：偶然不确定性和认知不确定性。随机不确定性是任务所固有的，而认知不确定性则是由于数据或建模能力有限造成的。在 [233] 中，作者利用模型中的某些随机正则化来执行多次前向传递作为样本来测量不确定性。然而，在实时场景中，多次前向传递的要求是不可行的。Loquercio 等人 [232] 和 Filos 等人 [234] 建议使用一组专家似然模型来捕捉认知不确定性，并汇总结果以执行安全规划。关于对随机不确定性进行建模的方法，驱动动作/规划和不确定性（通常用方差表示）在 [146, 235, 236] 中得到明确预测。这种方法直接在动作层面对不确定性进行建模和量化，作为网络要预测的变量。规划器将根据预测的不确定性生成最终行动，要么从多个行动中选择不确定性最低的行动[235]，要么根据不确定性生成建议行动的加权组合[146]。目前，预测的不确定性主要与硬编码规则结合使用。探索更好的方法来建模和利用自动驾驶的不确定性是必要的。

4.7 缺乏安全保障

在现实场景中部署自动驾驶系统时，确保安全至关重要。然而，与传统的基于规则的方法不同，端到端框架基于学习的性质本质上缺乏关于安全性的精确数学保证 [237]。

然而，应该注意的是，模块化驾驶堆栈已经在其运动规划或速度预测模块中加入了特定的安全相关约束或优化，以加强安全性 [238, 239, 240]。

这些机制可以潜在地适应集成到端到端模型中作为后处理步骤或安全检查，从而提供额外的安全保障。此外，如第 4.6 节所述，中间可解释性预测（例如检测和运动预测结果）可用于后处理程序。

端到端自动驾驶：挑战与前沿

正文

请到「今天看啥」查看全文