专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
弗雷赛斯  ·  国自然放这张预实验图,中标概率大增! ·  2 天前  
研之成理  ·  中南大学阳华课题组ACS ... ·  2 天前  
科研大匠  ·  中国科大最新Nature:首创性突破! ·  3 天前  
募格学术  ·  两会建议:支持这一地,新建国家实验室! ·  3 天前  
51好读  ›  专栏  ›  自动驾驶之心

首个开源混合运动规划框架!规划可解释和决策准确两大王牌

自动驾驶之心  · 公众号  ·  · 2024-09-09 07:30

正文

作者 | Rainer Trauth  编辑 | 深蓝AI

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

>> 点击进入→ 自动驾驶之心 BEV感知 技术交流群

本文只做学术分享,如有侵权,联系删文

导读:


本文开发了一种新的混合运动规划方法,将环境和预测信息集成在Frenet坐标系中,提升了运动规划能力。本文将传统运动规划算法的可预测性和稳定性与RL的动态适应性相结合,从而形成了一个能够有效管理复杂情况并适应不断变化的环境条件的系统。

图1|运动规划代理的混合强化学习原理


本文介绍了一种自主运动规划的新方法,即在Frenet坐标系中使用强化学习(RL)代理来指导分析算法。这种组合直接解决了自动驾驶中的适应性和安全性问题。运动规划算法对于驾驭动态和复杂场景至关重要,然而,传统方法缺乏不可预测环境所需的灵活性,而机器学习技术,尤其是强化学习(RL),虽然具有适应性,但却存在不稳定和缺乏可解释性的问题。作者独特的解决方案将传统运动规划算法的可预测性和稳定性与RL的动态适应性相结合,从而形成了一个能够有效管理复杂情况并适应不断变化的环境条件的系统。

图2|Frenetix运动规划器

正如各种碰撞报告所记录的那样,自动驾驶技术在现实世界中的实施拥有极大挑战。这些挑战包括在复杂的城市环境中导航、管理不可预测的交通和行人行为以及在新环境中做出明智的决策。这种不可预测性要求运动规划领域采用高度复杂且适应性强的算法。

传统的分析规划方法通常不足以处理现实世界场景的动态性质,这强调了自动驾驶系统对增强决策能力和强大适应性以确保安全和效率的迫切需求。此外,分析基于规则的模型需要调整参数,这涉及识别和调整适合特定场景的各种设置和参数,这些调整通常是通过专家知识和数值评估技术进行的。值得注意的是,即使是微小的参数变化也会明显影响系统的行为。调整整个系统既低效又昂贵,在处理多种配置和变体时,这一点变得更加明显。

当代机器学习方法,尤其是强化学习,在复杂场景中有望实现出色的性能。然而,学习过程的有效性取决于所使用的特定环境和训练配置。尤其是在自动驾驶中,用于运动规划的机器学习模型成功率较低,或者只能在高速公路驾驶等特定环境和场景中取得成功。此外,复杂场景需要较长的训练时间,并且Sim2Real可能会出现失真问题。此外,这些代理的决策过程通常缺乏固有的透明度,需要在验证和实施安全措施方面付出相当大的努力,以确保其行动的可靠性和可信度。应对这些挑战至关重要,尤其是在安全性和可靠性至关重要的自动驾驶领域。

相比之下,结合分析和机器学习模型的混合方法有望在这两个领域都发挥优势。基于此,作者提出了一种使用两阶段代理进行运动规划的新方法,如图1所示。在这种方法中,分析模型的基础稳健性与机器学习算法的动态学习能力相结合,提高了驾驶行为环境中的性能和适应性。这种混合方法有效地弥补了理论构造与实际应用之间的差距,特别是在具有复杂、非线性数据模式的环境中。特别注意,这些混合模型通常需要较少的数据进行有效训练,在数据匮乏的情况下具有优势。另外,可以将安全方法和附加功能有效地集成到分析规划算法中。

表1|学习过程的观察空间

多年来,自动驾驶运动规划一直是研究的热门领域。目前,已有多种方法被开发用于解决自动驾驶的规划任务。规划方法大体可分为以下几类:

基于图的算法通过节点和边的网络来寻找结构化路径;

基于采样的方法通过生成大量可能性来探索各种轨迹;

基于优化的规划方法则通过系统地评估各种约束和目标来找到最有效的轨迹,其通常使用线性规划、动态规划或基于梯度的优化等技术。

此外,利用人工智能的算法被开发出来用于在动态环境中提供高适应性。自动驾驶研究领域中已有几种机器学习模型可以学习控制方向盘和加速度,这些模型几乎完全使用特定场景进行训练,例如高速公路驾驶或决策代理。虽然这些模型体现出性能的改进,例如类似场景决策的准确性和决策制定的实时性都得到改进,但在更复杂的场景的成功率太低,特别是对于现实世界的应用。还通过逆强化学习研究了学习类似人类的行为。可以学习和采用某些特征的驾驶行为。然而,这并不能从根本上提高自动驾驶复杂场景行为规划成功率。

相关研究探讨了迭代学习和人类反馈如何改善自主机器人在复杂环境中的导航。通过将这些元素集成到传统导航系统中,该研究展示了潜在的性能改进,同时保持了系统的安全性和可解释性,这项研究为开发机器人自适应导航系统提供了一个值得注意的视角。结果虽然很有希望,但主要作为概念验证,它们没有纳入复杂的公共道路环境,也没有考虑到其他道路使用者的预测不确定性。此外,该方法没有集成复杂的分析规划算法;相反,它依靠机器学习来吸收基于专家知识的参数设置。

也有人提出了一种将RL与快速探索随机树相结合的自动驾驶汽车运动规划框架。它专注于有效控制车速和确保安全,使用深度学习技术适应不同的交通状况。该方法的主要问题是其在高维状态空间中的收敛速度慢,这损害了其实时适用性。此外,该方法仅适用于某些场景,限制了其通用性。其他研究采用 RL 通过分析模型确定执行动作的最佳切换点。这种方法适用于诸如定时车道变换和促进不同道路使用者之间的互动行为等场景。当前的研究表明,在探索一种将机器学习与强大的轨迹规划分析算法相结合的混合方法方面存在差距,这种方法可以确保高成功率、实时能力、可解释性和附加安全功能的集成。可以使用这种独立于监督学习数据集的概念来研究其优缺点。

图3|学习过程结构的类图

本节介绍了基于分析采样的轨迹规划器架构与RL设计的结合,以开发混合运动规划方法。

4.1 基于采样的运动规划器

本文所用的分析轨迹规划算法是基于Frenet坐标系中采样方法,作者使用神经网络的算法来预测场景中的其他车辆。该算法在一个时间步内的流程如图2所示。该流程可归纳为以下主要阶段:

车辆状态更新: 车辆使用自我、预测和环境信息更新与Frenet坐标系有关的所有状态。
轨迹采样: 该算法根据采样矩阵对可能的轨迹进行采样。作者使用时间、速度和横向采样指标来创建取决于当前自我车辆状态的不同轨迹方案。
轨迹运动学检查: 根据单轨模型和车辆参数检查生成的轨迹的运动学可行性。
轨迹成本计算: 作者使用不同的成本指标(如碰撞概率、加速度、到参考路径的距离和速度偏移成本)来区分不同轨迹的性能。作者将碰撞概率成本与来自预测信息的其他障碍物相结合。轨迹生成采用C++实现,以减少计算时间并加速训练过程。
轨迹碰撞检查: 分析成本最低的轨迹是否可能与车道边界和其他障碍物发生碰撞。此步骤在成本计算步骤之后进行,以提高计算效率。

按绝对成本排序的第一个无碰撞轨迹是更新当前车辆状态的最佳轨迹。根据为每个连续时间步计算的最佳轨迹更新车辆的状态。轨迹涵盖3秒的范围。模拟的时间步离散化为0.1秒。

图4|轨迹损失观测空间

4.2 强化学习过程

在本节中,作者将集成一个RL算法,该算法优化了后续提出的基于采样的轨迹规划器的轨迹选择过程。对于定制环境和训练过程,作者使用gymnasium4和stable-baselines35。对于代理的模拟环境,作者使用CommonRoad。优化由近端策略优化(PPO)执行,这是一种通过剪辑策略更新来平衡探索和利用的RL算法。它避免了可能导致性能下降的大型策略更新,从而使训练更加稳定和可靠。

该方程表示截断的替代目标函数,这对于PPO算法的效率和稳定性至关重要。这里, 表示策略参数, 是时间步长上的经验期望, 表示新策略与旧策略下的概率比, 表示时间 时的估计优势, 是控制目标函数中截断的关键超参数。作者使用MlpLstmPolicy的循环PPO优化来处理时间关系和信息。传统的PPO架构通过长短期记忆(LSTM)网络进行扩展,这是一种适用于动态时间序列数据的循环神经网络。这种方法在顺序数据和部分可观察环境中非常有效。

LSTM状态更新: 在每个时间步 ,LSTM根据当前输入 、先前的隐藏状态 和先前的单元状态 更新其隐藏状态 和单元状态 ,。
策略和价值函数: 更新后的隐藏状态 随后被策略网络 和价值网络 使用,其中 是动作, 是时间 的状态。这种集成使网络能够记住过去的状态,从而增强复杂环境中的决策能力。
表2|PPO训练过程的混合奖励

为了启动优化过程,首先需要设计几个关键组件:观察空间、终止标准、奖励系统的结构以及代理行动空间的定义。图3显示了类图,概述了训练过程中不可或缺的功能。

观测空间: 观测空间分为表1中的类别和观测值。

类别可以分为各种类型: 源自自我车辆的类别、与实现目标区域相关的类别、周围信息、轨迹细节以及与采样轨迹相关的成本信息。与其他仅假设直接车辆控制的系统不同,作者的方法提供了增强观察空间的补充数据。轨迹规划算法的数百条采样轨迹通过图2中的计算步骤包含附加信息。这些数据的关键要素包括运动学上可行的轨迹数量、每条轨迹的相关风险水平及其各自的成本分布。此外,作者使用图4中所示的概念来解决碰撞概率感知问题。

示意图显示了采样的轨迹。作者可以通过采用时间、速度和横向相关采样来构建网格。该网格使作者能够分析与最外层轨迹相关的碰撞概率成本的变化,从而丰富了观察空间。这种方法可以映射随时间变化的差异和相关性。在图中,正横向d方向的轨迹比负d方向的轨迹具有更高的碰撞概率成本。

动作空间: 图1显示了分析轨迹规划器和RL代理之间的连接。代理学习动作,即轨迹规划器的成本权重。理论上,任何调整都可以传递给轨迹规划器。在作者的案例中,作者研究成本权重的调整来证明这一概念。为了实现和谐的行为,代理可以减少或增加轨迹规划器的当前成本权重。等式(2)显示了代理在时间步 中关于每个成本项 的动作空间。

考虑







请到「今天看啥」查看全文