专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

中科院提出 GenAD | 超越UniAD/VAD等端到端方法,实现L4完全自动驾驶指日可待!

智驾实验室  · 公众号  ·  · 2024-05-28 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料


直接从原始传感器产生规划结果一直是自动驾驶长期追求的解决方案,并且最近受到了越来越多的关注。大多数现有的端到端自动驾驶方法将这个问题分解为感知、运动预测和规划。然而,作者认为传统的逐步式 Pipeline 仍然不能全面模拟整个交通演变过程,例如,未来自车辆与其他交通参与者之间的交互以及结构化轨迹先验。

在本文中,作者探讨了一种新的端到端自动驾驶范式,其关键在于预测给定过去场景时自车辆和周围环境如何演变。作者提出了GenAD,一个生成式框架,将自动驾驶转化为一个生成式建模问题。作者提出了一种以实例为中心的场景标记器,首先将周围场景转换为地图感知的实例标记。然后,作者使用变分自编码器在结构化潜在空间中学习未来轨迹分布,用于轨迹先验建模。作者进一步采用时间模型来在潜在空间中捕捉代理和自车运动,以生成更有效的未来轨迹。GenAD最终通过在学习的结构化潜在空间中根据实例标记条件采样分布,并使用学习到的时间模型生成未来,同时进行运动预测和规划。

在广泛使用的nuScenes基准上的大量实验表明,所提出的GenAD在以视觉为中心的端到端自动驾驶方面取得了最先进的性能,并且具有高效率。

1 Introduction

以视觉为中心的自动驾驶近年来因其实用经济性而被广泛研究。虽然研究行人已经在包括3D目标检测、地图分割和3D语义占用预测在内的多项任务中推进了以视觉为中心的自动驾驶的极限,但最近在以视觉为中心的端到端自动驾驶方面的进展揭示了直接从原始传感器生成规划结果的潜在而优雅的途径。

大多数现有的端到端自动驾驶模型由几个模块组成,并遵循感知、运动预测和规划的流程。例如,UniAD 进一步逐步执行地图感知、检测、跟踪、运动预测、占用预测和规划模块,以提高系统的鲁棒性。还观察到,使用规划目标可以提升中间任务的性能。然而,现有流水线的预测和规划的串行设计忽视了自动驾驶车辆与其他交通参与者之间可能发生的未来交互。

作者认为这种类型的交互对于准确规划至关重要。例如,自动驾驶车辆的车道变换会影响后车的行为,进而影响自动驾驶车辆自身的规划。这种高阶交互在目前的规划之前的运动预测设计中无法有效建模。此外,未来轨迹具有高度的结构性,并共享一个共同的先验(例如,大多数轨迹是连续且直线的)。然而,大多数现有方法未能考虑这种结构性的先验,导致预测和规划不准确。

在本文中,作者提出了一种生成端到端自动驾驶(GenAD)框架(如图1所示),将自动驾驶建模为轨迹生成问题,以充分发挥端到端方法的优势。作者提出了一个场景标记器来获取以实例为中心的场景表示,这些表示关注实例同时整合地图信息。

为实现这一点,作者使用一个 Backbone 网络提取每个周围摄像头的图像特征,然后将它们转换到3D鸟瞰视图(BEV)空间。作者进一步使用交叉注意力来精化来自BEV特征的高层地图和代理标记。然后,作者添加一个自车标记,并使用自车代理的注意力来捕捉它们的高阶交互。作者进一步通过交叉注意力注入地图信息以获得地图感知的实例标记。

为了建模未来轨迹的结构先验,作者学习了一个变分自编码器,将 GT 轨迹映射到高斯分布,考虑到运动预测和驾驶规划的不确定性本质。然后,作者使用一个简单而有效的门控循环单元(GRU)执行自回归以在潜在结构空间中建模实例移动。在推理过程中,作者在以实例为中心的场景表示条件下从学习到的分布中采样,从而可以预测不同的可能未来。

GenAD可以同时使用统一的未来轨迹生成模型进行运动预测和规划。作者在广泛使用的nuScenes基准上进行了大量实验,以评估所提出的GenAD框架的性能。基于生成建模,GenAD在高效性方面取得了基于视觉的规划性能的最新成果。

2 Related Work

感知。 感知是自动驾驶的基本步骤,旨在从原始传感器输入中提取有意义的信息。尽管基于激光雷达的方法表现出色,但由于RGB摄像头的低成本,以视觉为中心的方法已成为一种具有竞争力的替代方案。配备了大型2D图像 Backbone 网络,以视觉为中心的方法在主要的感知任务中表现出巨大的潜力,包括3D目标检测,高清地图重建,以及3D语义占用预测。

为了准确完成这些3D任务,关键步骤是将图像特征转换为3D空间。一项工作是为图像特征预测明确的深度,然后使用相机参数将它们投影到3D空间。其他方法在3D空间中初始化 Query ,并利用可变形交叉注意力从2D图像中自适应地聚合信息。一些研究进一步设计了更好的位置嵌入策略,3D表示或任务头,以提高感知性能或效率。

在本文中,作者采用了传统的简单设计用于3D感知,并专注于运动预测和规划。

预测。 对交通参与者的准确运动预测是自车辆后续运动规划的关键。传统方法使用真实的代理历史和 HD 地图信息作为输入,并专注于预测未来代理轨迹。一种直接的方法是在 BEV 图像上绘制代理路径和 HD 地图,并使用卷积神经网络处理它们并输出运动预测结果。进一步的方法使用向量或标记来表示单独的代理或地图元素。然后,它们利用图神经网络和 Transformer 的推理能力来推理未来的运动,同时考虑代理与地图元素之间的交互。

硬件能力的提升促进了端到端运动预测方法的出现,这些方法联合执行感知和预测,以摆脱离线 HD 地图。尽管挑战非常艰巨,但最近的端到端方法在这种更实际的设置中已经展示了有希望的性能。它们通常采用注意力机制来整合代理和地图信息,并利用时间网络(例如,门控循环单元)来预测未来状态。然而,大多数现有方法直接从潜在特征解码轨迹,并忽略了真实轨迹的结构性质(例如,它们大多数是直线)。与之不同,作者从真实轨迹中学习一个变分自编码器,以在潜在结构空间中建模轨迹先验,并在该空间中采样实例进行推理。

规划。 规划是自动驾驶第一阶段最终的目标。尽管基于规则的规划器发展成熟,基于学习的规划器因其能够从大规模驾驶数据中受益并兼容端到端自动驾驶方法而受到越来越多的关注。大多数现有的端到端规划方法遵循一个感知、预测和规划的流程。

例如,ST-P3逐步使用地图感知、鸟瞰图占用预测和轨迹规划模块从周围摄像头获取未来自车运动。UniAD进一步扩展了ST-P3,增加了检测、跟踪和运动预测模块以提高系统的鲁棒性。VAD简化了UniAD,采用向量化的场景表示,仅为端到端驾驶提供地图、运动和规划模块,以更高的效率实现了最先进的规划性能。然而,预测和规划的串行设计忽略了未来自车运动对代理运动预测的影响。在运动预测和规划的不确定性自然特性方面也缺乏建模。

为了解决这个问题,GenAD在一个生成式框架中建模自动驾驶,并在学习的概率潜在空间中同时生成自车辆和其他代理的未来轨迹。

3 Proposed Approach

本节展示了作者的基于视觉的端到端自动驾驶生成框架,如图2所示。

  1. 首先,作者引入了一种以实例为中心的场景表示,它融合了高阶地图-自车-代理互动,以实现全面且紧凑的场景描述(第3.1节)。
  2. 接着,详细阐述了学习潜在嵌入空间以建模真实轨迹作为先验(第3.2节),并在该学习的潜在空间中生成未来的运动(第3.3节)。
  3. 最后,作者详细介绍了生成端到端自动驾驶(GenAD)框架的训练和推理(第3.4节)。

Instance-Centric Scene Representation

自动驾驶端到端的目标可以表述为:在给定当前和过去 帧传感器输入 以及轨迹 的情况下,为自车辆获取一个计划好的 帧未来轨迹

其中 表示从第 帧开始的 帧轨迹, 表示第 帧的航点,而 表示第 帧的传感器输入。

实现端到端自动驾驶的第一步是对传感器输入进行感知,以获得对周围场景的高级描述。这些描述通常包括语义地图和实例边界框。

为了达到这个目的,作者遵循一个传统的以视觉为中心的感知流程,首先提取鸟瞰图(BEV)特征 ,然后在此基础上改进地图和边界框特征。

图像到鸟瞰图(BEV) 。作者基本遵循BEVFormer的方法来获取鸟瞰图(BEV)特征。具体来说,作者使用卷积神经网络和特征金字塔网络从相机输入 中获取多尺度图像特征 。然后,作者将 的BEV Token 初始化为 Query ,并使用可变形交叉注意力来从多尺度图像特征 中转移信息:

其中 表示由交错的自车关注和可变形交叉关注层组成的可变形注意力块,分别使用 , 作为 Query 、Key和Value。然后作者将来自过去 帧的鸟瞰图(BEV)特征对齐到当前的坐标系统中,并将它们连接起来作为最终的鸟瞰图特征

鸟瞰图到地图。 由于在鸟瞰图空间中语义地图元素通常是稀疏的,作者遵循类似的概念,并使用地图标记 来表示语义地图。每个地图标记 可以通过一个地图解码器 解码成鸟瞰图空间中的一组点,这些点代表了一类地图元素及其对应的位置。

跟随 VAD,作者考虑了三种类型的地图元素(即车道分隔线、道路边界和行人横道)。作者使用全局交叉注意力机制来更新从鸟瞰图标记 中学习初始化的 Query

其中 表示由交替自注意力层和交叉注意力层组成的交叉注意力块,分别使用 , , 和 作为 Query 、Key和Value。

鸟瞰图到智能体。 类似于语义地图的表示方法,作者采用一组智能体标记 来表示周围环境中每个实例的3D位置。作者使用可变形交叉注意力机制从BEV标记 获取更新后的智能体标记

其中 是作为初始化的可学习标记。

在获得了代理标识符 之后,作者使用一个3D目标检测 Head 来解码每个代理标识符 中的位置、方向和类别信息。

以实例为中心的场景表示。 由于预测和规划主要关注代理实例和自车辆实例,作者提出了一种以实例为中心的场景表示方法,以全面高效地表示自动驾驶场景。首先,作者在学习的代理标记集 中添加一个自车标记 ,以构建一个实例标记集合

现有方法通常以串行方式执行运动预测和规划,这忽略了未来自身运动对其他代理的影响。例如,自身车辆的变道可能会影响后车的行为,使得运动预测结果不准确。

与之不同,作者通过对实例标记执行自注意力来启用自身车辆与其他代理之间的高阶交互:

其中 表示由使用 , , 和 分别作为 Query 、Key和Value的自注意力层组成的自注意力模块。

此外,为了进行准确的预测和规划,代理和自车辆都需要了解语义地图信息。因此,作者采用更新后的实例标记和学习到的地图标记之间的跨注意力机制,以获得以实例为中心的、对地图敏感的场景表示:

学习的实例标记 结合了高阶的代理-自车交互,并意识到所学习的语义地图,这些地图紧凑但包含了执行运动预测和轨迹规划所需的所有地图和实例信息。

Trajectory Prior Modeling

作者发现其他代理的运动预测目标和自车辆的规划目标共享相同的输出空间,并且在本质上是一样的。它们都旨在给定语义地图和其他代理的交互情况下,生成关注实例的高质量真实轨迹。

因此,所提出的GenAD的目标可以表述为:给定地图感知的以实例为中心的场景表示 ,推理未来的轨迹

与现有直接使用简单解码器输出轨迹的方法不同,作者将轨迹生成视为一个问题 ,考虑到其具有不确定性。

自车辆和其他代理的轨迹具有高度的结构化(例如,连续性)且遵循一定的模式。例如,大多数轨迹是直线,因为车辆以恒定速度行驶,而有些则是当车辆左右转弯时具有近常数曲率的曲线。只有在非常罕见的情况下,轨迹才会呈现之字形。考虑到这一点,作者采用了变分自编码器(VAE)架构来学习潜在空间 以建模这种轨迹先验。

具体来说,使用一个真实轨迹编码器 来建模 ,它将未来轨迹 映射到潜在空间 上的对角高斯分布。编码器 输出两个向量 ,分别表示高斯分布的均值和方差:

其中 表示均值为 、标准差为 的高斯分布。

学习到的分布







请到「今天看啥」查看全文