专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

端到端规划器的现实挑战：NeRF模拟器揭示自动驾驶系统缺陷！

智驾实验室 · 公众号 · · 2024-08-26 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

作者展示了一个基于NeRF的灵活自动驾驶（AD）软件系统测试模拟器，该模拟器专注于传感器现实闭环评估和安全关键场景的创建。

该模拟器从真实世界的驾驶传感器数据序列中学习，并能够重新配置和渲染新的、未见过的场景。

在这项工作中，作者使用作者的模拟器来测试AD模型对受欧洲新车评价程序（Euro NCAP）启发的安全关键场景的响应。作者的评估揭示，尽管最先进的端到端规划器在开环设置中的名义驾驶场景中表现出色，但在闭环设置中导航作者的安全关键场景时，它们表现出严重的缺陷。这突显了端到端规划器在安全和真实世界可用性方面的进步需求。

通过将作者的模拟器和场景作为易于运行的评估套件公开发布，作者邀请研究界在受控的、高度可配置且具有挑战性的传感器真实环境中探索、完善和验证他们的AD模型。https://github.com/wljungbergh/NeuroNCAP

1 Introduction

近期关于自动驾驶（AD）的研究[22, 23]建议设计和训练一个整体的神经网络，直接将传感器输入映射到计划轨迹。与之前使用模块化软件堆栈、工程化模块接口或手工制定规则的工作相比，这种端到端方法具有几个优点。首先，由于驾驶行为是学习得到的，预计预测的轨迹会类似于典型人类驾驶员的行为。其次，这种方法在可扩展性方面，更多的数据可以带来更健壮和可推广的驾驶性能[4, 23]，并且无需手动设计中间接口或成本函数。神经网络可以分为模块，但它们之间的接口是为了减少信息损失而学习的。

图1：NeuroNCAP核心理念是利用NeRFs从一系列真实世界数据中真实地模拟许多安全关键场景。这里作者展示了原始场景，然后是作者的三种碰撞场景示例：静止、正面和侧面。为了说明目的，插入的安全关键参与者已被突出显示。通过选择不同的参与者、抖动它们的轨迹以及为自我车辆选择不同的起始条件，作者可以从每个日志中生成数百个独特的场景。请注意，场景不是预先生成的，而是通过迭代生成新图像、计算计划并按照该计划行动来获得的。

Hu等人[22]证明了他们的端到端规划器UniAD在流行的nuScenes[5]规划基准上表现良好。这是一个开环基准，测试的规划器从不影响驾驶。相反，将计划与车辆在数据收集期间采取的轨迹进行比较，并根据两者之间的相似性计算得分。Codevilla等人[8]以及Dauner等人[11]对这种开环得分与实际驾驶性能之间的相关性表示了一些怀疑。这引发了一个问题：如果执行了预测的策略，最先进的端到端规划器的表现会如何？与可以使用简单的目标级模拟以闭环方式评估的常规规划器不同，端到端规划器需要复杂的传感器模拟来准确预测它们在真实世界场景中的行为。这由于高保真传感器模拟的复杂性和计算需求而带来了重大挑战。此外，nuScenes基准包含正常驾驶场景，其中没有发生碰撞。在最先进端到端规划器在安全关键场景中的表现尚不清楚，在这些场景中，除非迅速采取纠正措施，否则很可能会发生碰撞。在这项工作中，作者将最先进的端到端规划器置于闭环评估中的安全关键场景中。给定传感器数据，规划器预测一个计划。然后根据车辆模型的约束执行计划，以将自我车辆的状态向前传播。考虑到新的状态，作者使用神经渲染的最新进展——NeRFs——解决生成真实传感器数据的问题。这三个步骤然后重复，直到发生碰撞或作者认为场景结束。通过执行预测的计划，作者旨在缩小模型评估与部署之间的差距。如果渲染的图像不够真实，神经渲染器可能会加剧这种差距。作者通过分析在UniAD[22]和VAD[23]等最先进（SotA）端到端规划器中可用的中间感知输出来量化渲染器对差距的影响程度。此外，作者确保在开环评估过程中用渲染的传感器数据替换真实传感器数据不会对开环性能产生负面影响。

为了生成安全关键场景，作者从欧洲新车评估协议（Euro NCAP）[14]中寻找灵感，用于避撞。该协议包含已被确定作为安全关键的场景类型。这些场景类型很罕见，但如果规划器不能妥善处理，很可能会导致碰撞。作者通过改变nuScenes数据集[5]中场景的记录来构建场景。作者通过是否发生碰撞以及碰撞发生时的速度来评估驾驶质量。作者的基准应该被视为高质量驾驶的必要但不充分条件。总结一下，作者的贡献如下：

作者发布了一个开源框架，用于自动驾驶的高保真闭环仿真。
作者构建了受业界标准Euro NCAP启发的安全关键场景，这些场景无法在现实世界中安全收集。
使用模拟器和作者的场景，作者设计了一个关注碰撞而非位移指标的全新评估协议。
作者展示了两个SotA端到端规划器在作者的安全关键场景中表现严重失败，尽管它们准确感知了环境。

2 Related Work

端到端驾驶模型 ：自动驾驶任务传统上被划分为不同的模块——例如，感知、预测和规划——这些模块是单独构建的[22, 23, 29]。Hu等人[22]认为这种划分带来了一些缺点：模块间信息丢失、误差累积和特征不对齐。Jiang等人[23]强调规划模块可能需要访问传感器数据中的语义信息，而这些信息在手工制作的接口中是不会存在的。这两项工作接着主张支持端到端规划。Pomerlau等人[31]的开创性工作提出了这样的规划器，其中一个神经网络被训练用来将传感器输入映射到输出轨迹。数十年的神经网络进展激起了对端到端规划的新兴趣[4, 7, 9, 10, 32]。然而，这些规划器的黑箱特性使得它们难以优化，其结果也难以解释[23]。Hu等人[22]和Jiang等人[23]提出了两种具有中间输出的端到端神经网络规划器，对应于模块化方法中的那些部分。他们的规划器被划分为模块，但是模块接口是学习的，由深度特征向量组成。

开环评估的端到端规划器 ：Pomerleau等人[31]通过让他们的驾驶模型驾驶现实世界的测试车辆来进行评估。这种设置使得大规模测试成本高昂，且结果可能难以复现。近期关于端到端规划的工作[22, 23]则采用开环方式进行评估，其中模型基于记录的传感器数据预测计划。预测的计划从未被执行，而是将动作固定为记录中的内容。这种设置也已被用于目标级规划的工作中[12, 15, 26]，这些工作假设感知完美，并将静态环境的地图以及动态目标的轨迹都输入模型。这样的开环评估在评估和实际部署之间存在差距。此外，性能通常被测量为预测计划与记录中车辆行驶的轨迹之间的距离[12, 15, 22, 23, 26]。虽然零误差对应于人类 Level 的驾驶，但更低误差不一定更好。通过考虑两种不同轨迹同样好的情景，可以认识到这一点。Codevilla等人[8]研究了这些问题，他们发现开环评估并不一定与实际的驾驶质量相关。Dauner等人[11]也得出了类似的结论。

闭环评估与模拟 ：鉴于上述开环评估的问题，闭环模拟变得吸引人。已经提出了几个目标 Level 的模拟器[2, 6, 17, 25]。然而，这些模拟器并不生成传感器数据，这使得无法测试端到端规划器在闭环中的运行。已经提出了许多手工制作的图形模拟器[13, 34, 35]。这类模拟器面临的挑战是双重的：创建看起来逼真的图像很困难，而且创建捕捉现实世界多样性的图形资产也很难。关于世界模型的工作[38, 18]证明了场景的未来——例如，一个Atari游戏——可以在潜在空间中预测，并且潜在空间中的向量可以解码为传感器输入。Hu等人[20]从一个大规模的真实世界汽车数据集中构建了一个世界模型。Amini等人[3]提出了VISTA，通过预测的深度将最近的图像进行反投影视图，并在局部轨迹周围合成新的视图。Yang等人[41]提出使用神经辐射场（NeRF）创建场景的光追真实感传感器输入。随后，Tonderski等人[36]通过更准确的传感器建模和更高的渲染质量改进了该方法，特别是对于这里考虑的360度设置。

新车评估项目 ：新车评估项目（NCAP）由美国交通部的国家公路安全管理局于1979年推出，目的是向消费者提供有关汽车相对安全潜力的信息[19]。NCAP对车辆进行了碰撞测试，并根据严重伤害的概率对车辆进行评分。1996年提出了一个类似的欧洲协议，即欧洲新车评估计划（Euro NCAP）。2009年，Euro NCAP进行了彻底改革，以便也包括新兴的碰撞避免系统的测试[37]。最初，这包括电子稳定性控制和速度辅助系统，但后来扩展到包括其他系统，如自动紧急制动[37]和自动紧急转向[14]。在这项工作中，作者从Euro NCAP自动碰撞避免评估协议[14]中获得灵感。该协议提供了除非采取措施，否则会发生碰撞的场景。为了获得满分，车辆需要刹车或转向以避免事故。如果冲击速度足够降低，可以获得部分分数。

3 Method

作者的端到端规划评估协议包括一个闭环模拟器（见第3.1节）和一个以碰撞为重点的评估协议（见第3.2节）。

Closed-loop Simulator

作者的闭环模拟器反复执行四个步骤。首先，根据自我车辆的状态和相机标定，渲染高质量相机输入。渲染器是由行驶车辆的记录构建的。其次，端到端规划器根据渲染的相机输入和自我车辆状态预测未来的自我车辆轨迹。第三，控制器将规划好的轨迹转换为一组控制输入。第四，车辆模型根据控制输入将自我状态向前传播。这个过程在图2中有所说明。接下来，作者将详细说明这四个步骤。

神经渲染器 ：为了模拟新的传感器数据，作者采用了神经渲染器[28]。NeRFs从收集的真实世界数据的记录中学习3D环境的隐式表示。一旦训练完成，NeRFs就能够从所述场景渲染传感器真实的新的视角。最近的进展还增加了通过改变相应3D边界框来编辑场景中动态目标的能力[30]。具体来说，可以移除、添加或设置演员跟随新的轨迹，这在作者的情况下使得创建安全关键场景成为可能。例如，为了模拟一个罕见但关键的安全场景，原本在相邻车道行驶的车辆可以被定位为在自我车辆同一车道静止。这种新情况需要自我车辆要么刹车要么执行精确的超车操作。

有两点需要注意。首先，最近提出的NeuRAD[36]也支持渲染激光雷达数据。然而，由于最先进的端到端规划器仅使用相机数据，因此在本研究中作者只关注相机数据。其次，正如作者的实验所示，与现代NeRFs相比，真实数据引入的域差距足够小，使得端到端规划器的感知部分仍能以高性能运行。然而，作者预计随着神经渲染技术的未来发展，这一差距将进一步缩小。

AD模型 ：关于端到端规划的最新研究[21, 22, 23]描述了一个系统，该系统使用（i）原始传感器数据；（ii）自我车辆状态；（iii）高级计划来预测规划好的轨迹。规划好的轨迹包括以一定频率和一定时间范围的方式点。需要注意的是，虽然作者主要目的是分析最先进的端到端规划器，但此模块可以用任何类型的规划器替换，例如，模块化检测器-跟踪器-规划器 Pipeline 。

控制器 ：为了应用车辆模型，需要将航点转换为控制信号的序列，对应于转向角($\delta$)和加速度($a$)命令的序列。作者遵循Caesar等人的方法[24]，使用线性二次调节器（LQR）实现这一点。需要注意的是，虽然作者只分析输出航点的规划器，但规划器也可以直接输出控制信号的序列。

车辆模型 ：给定一组从规划轨迹生成的控制信号，车辆状态随时间传播。为此，作者遵循先前的闭环模拟器[24, 6]并采用离散版的自行车动力学模型[33]。它可以正式描述为

$S=\begin{pmatrix}x\\ y\\ \theta\\ v\end{pmatrix},\quad\frac{dS}{dt}=\begin{pmatrix}v\cos\theta\\ v\sin\theta\\ \frac{v\tan\delta}{L}\\ a\end{pmatrix}\enspace. \tag{1}$

状态$S$由$x$、$y$、$\theta$和$v$组成，其中$x$和$y$是纵向和横向位置；$\theta$是旋转；$v$是车辆的速度。此外，$L$是车辆的轴距，$\delta$和$a$是控制信号。作者根据收集数据时使用的车辆采用控制信号限制和轴距。注意，$x$、$y$和$\theta$位于全局坐标系中，而$v$、$L$、$\delta$和$a$是值。

Evaluation

与常见的评估实践——即在大规模数据集上平均性能——相反，作者则将评估重点放在一组精心设计的安全关键场景上。这些场景被设计成任何无法成功处理所有这些场景的模型，都应该被认为是安全的。作者从行业标准欧洲新车评价程序（Euro NCAP）测试[14]（见第2节）中获得灵感，并定义了三种类型的场景，每种场景的特点是作者即将与之碰撞的演员的行为：_静止_、_正面_和_侧面_。按照Euro NCAP的命名法，作者将这个演员称为_目标演员_。目标是控制自我车辆以避免与目标演员发生碰撞，或者至少降低碰撞速度。

对于每种场景类型，作者创建多个场景。每个场景基于从现实世界中约20秒的驾驶收集的数据。自我车辆和目标演员的状态被初始化，以保持当前速度和转向角，将在大约4秒的将来发生碰撞。场景中移除了所有非静止的演员，作者随机选择其中一个作为目标演员，考虑到该演员是否被足够近地观察到，以及在必要的角度下，以产生逼真的渲染。由于作者的渲染器仅限于刚体演员，作者从这个选择中排除了行人。最后，作者在特定于场景的间隔内随机抖动目标演员的位置、旋转和速度。在评估期间，作者使用固定的随机种子大量运行每个场景，并计算平均结果。接下来，作者描述每种类型场景的特点。

静止：这是一种相对简单的场景，目标演员被放置在自我车道上并且是静止的。目标车辆可以任意旋转放置，但整个场景中都将保持静止。这意味着自我车辆可以通过紧急制动或转向操作来避免碰撞。图2(a)提供了插图。

端到端规划器的现实挑战：NeRF模拟器揭示自动驾驶系统缺陷 ！