面向无信号交叉口的自动驾驶解决方案！涵盖强化学习的超全综述！

自动驾驶之心 · 公众号 · · 2024-10-09 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享决策方向的最新综述！聚焦无信号交叉路口的自动驾驶解决方案。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『决策规划』 技术交流群

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

目前，自动驾驶系统的发展愈发的成熟，但在无信号交叉路口的自动驾驶技术仍然被认为是机器学习的一个具有挑战性的应用，因为处理具有高度不确定性的复杂多智能体场景对于模型而言还是非常复杂的。因此，如何在这些无信号的交叉路口等安全关键环境中实现决策过程的自动化涉及场景理解以及学习稳健的驾驶行为相关的多个抽象层次，以使自动驾驶车辆能够进行高效的导航。

对于自动驾驶系统的决策任务而言，采用了层级的结构进行表示。各个层级分别包括规划下一步要去哪里、根据车载传感器的观察结果在短期和长期时间范围内做出决策、在同一环境中与其他智能体交互的影响下做出决策、确保车辆控制安全可靠、从驾驶历史信息和自然的人类驾驶风格中学习、与其他车辆协调共同执行某些任务。然而，在城市交叉路口的背景下，要使自动驾驶汽车能够在如此复杂的环境中安全高效地行驶，需要高度的自主性。但是对于目前的自动驾驶汽车，即使是完全自动驾驶的汽车，也无法始终完全安全行驶，也无法保证由于关键的决策错误而实现无碰撞的操作。

在无信号交叉口做出决策是一个非常棘手的过程。复杂的驾驶行为和交通控制信号的消失使得对其他交叉口用户的运动推断极具挑战性，如下图所示。

基于此，目前在学术界和工业界已经进行了大量研究来探讨提高无信号交叉口驾驶安全性的算法。根据我们的深入调查，我们发现所提出的决策算法可以分为三大类：合作方法，包括博弈论、基于启发式的方法和混合方法。然而，上述这些方法由于需要调整的规则数量众多，因此设计此类规则以适应各种可能的交叉情况是一个繁琐的过程。基于机器学习的方法，尤其是强化学习方法，侧重于从车辆与交叉路口环境之间的交互中学习驾驶策略。目前，有不少的文献中已经广泛研究了应用现代基于强化学习的方法来学习无信号交叉口的最佳驾驶策略。

但是与现有的关于自动驾驶汽车强化学习的综述论文相比，我们的论文方法综述更加地关注基于强化学习的决策技术，特别是针对无信号交叉口这一领域，该领域尚未在文献中得到全面涵盖。基于此，本文将聚焦于在与无信号交叉口自动驾驶汽车行为运动规划相关的各个方面。

论文链接：https://www.arxiv.org/pdf/2409.13144

不确定性下的自动驾驶

无信号交叉口其他交叉口车辆运动预测的不确定性是由以下因素引起的

路口使用者的未知意图 ：其他路口参与者的运动与自身车辆的未来轨迹高度相关。因此，为了实现安全的路口导航，必须获得路口用户的精确运动预测。推断意图的主要困难来自于未知当前状态和隐藏变量的内在不确定性，即未知的最终目的地及其不可预见的未来纵向路径，以及它们与主体车辆交互的可能性。
传感器观测的噪声特性 ：从安装的传感器收集的测量值相关的噪声为决策问题增加了另一层不确定性。
环境遮挡、感知受限 ：环境障碍和遮挡会阻碍准确观察场景的能力。

下图展示了在四向无信号交叉口这些不确定性的来源示例。在设计复杂交叉路口环境中基于学习的决策方案时考虑这些不确定性对于自车安全穿越交叉路口至关重要。

驾驶员意图推理

准确推断和预测无信号交叉口处驾驶员的意图对于解决事故原因和确保如此多样化的多智能体环境中的道路安全至关重要。为了开发DII应用的算法，人们进行了多项研究。这些算法将意图推理问题作为分类问题来解决，其中意图根据驾驶行为进行分类，这些DII方法可以分为两类：基于索引的方法和基于学习的方法。在基于索引的方法中，安全指标用于检查交叉路口的驾驶行为，以制定风险评估方案。另外一类基于经典机器学习分类技术也已被用于意图推理应用当中。

近年来，受建模序列任务方面的有效性的启发，研究人员采用了深度结构化的循环神经网络来确定无信号交叉口处驾驶员的意图。下表总结了所调查的基于深度学习的意图推理方案，强调了它们的研究目标和重要特性。

决策挑战

由于深层结构神经网络在处理大型部分可观察状态-动作空间方面的优势，主要研究方向是开发基于学习的方案，以解决与自主穿越无信号交叉口相关的问题。因此，我们主要调研并介绍开发基于学习的不确定性决策算法所涉及的主要设计挑战，以及对相关最新解决方案的回顾。

（1）部分可观测性

在真实的多智能体自动驾驶环境中，智能体对其所交互的环境的信息不完整。因此，在这样的环境中设计一个强大的决策框架被认为是一个棘手的问题。在实际过程中，这类问题通常被建模为POMDP，学习一种驾驶策略以提供安全的操作，同时考虑到推断意图和运动规划过程中固有的随机性。下图展示了利用设计的LSTM网络架构来处理POMDP并表示四向停车无信号交叉口的决策问题。

通过上图可以看出，每个时间戳的动作输出是根据每个单独时间戳中网络的第一个LSTM和全连接层的观察输入获得的。随后，通过将前一步

面向无信号交叉口的自动驾驶解决方案！涵盖强化学习的超全综述！

正文

写在前面&笔者的个人理解

不确定性下的自动驾驶

驾驶员意图推理

决策挑战

请到「今天看啥」查看全文