IEEE T-ITS 2024 | 中科院自动化所、港大、清华等联合发布基于模型的强化学习端到端自动驾驶系统SEM2

智能车情报局 · 公众号 · · 2024-05-15 19:48

正文

6月5日 ，在2024上海国际低碳智慧出行展览会同期，智猩猩将联合车东西、上海市国际展览（集团）有限公司在上海举办 GTIC 2024中国智能汽车算力峰会 。峰会全天将依次进行高峰论坛、自动驾驶车端算力、智能座舱算力、云端算力三个专题论坛。

👀

导读

本文由论文共同一作、香港大学在读博士穆尧投稿。

近日，中科院自动化所、香港大学、清华大学李升波教授团队、北京科技大学联合发布一种高效可解释的基于模型的强化学习端到端自动驾驶系统SEM2，与SEM2相关论文发表于IEEE T-ITS 2024 顶刊上。

论文标题：《Enhance Sample Efficiency and Robustness of End-to-end Urban Autonomous Driving via Semantic Masked World Model》

论文链接：https://arxiv.org/abs/2210.04017

端到端的自动驾驶方案直接将原始传感器数据映射到基本控制指令，相较于分层式架构具备巨大的性能潜力。但端到端的自动驾驶方案存在数据短缺、学习效率低下、鲁棒性差与可解释性差等问题。基于世界模型的强化学习方法[1]通过世界模型对环境进行建模，具有时序预测能力，进而能够获得数倍于原始样本的训练样本，相较于无模型强化学习算法样本效率较高，对数据量的需求较小。先前的工作[2]已经验证了基于世界模型的端到端自动驾驶系统的可行性与可解释性，但在世界模型的结构、语义掩码的利用、样本平衡等方面仍具有改进空间。

我们提出了一种高效可解释的基于模型的强化学习端到端自动驾驶系统——SEM2。端到端自动驾驶系统将前视相机图像和雷达点云与路径作为输入，将其编码为原始特征，然而原始特征中包含天气、楼房等与驾驶无关的信息，影响了系统的训练效率与鲁棒性。为此我们设计了语义掩码过滤器，通过过滤器提取新特征，用于重构语义掩码并预测奖励，充分利用奖励与语义掩码与驾驶高度相关的特性，使得过滤器获得提取驾驶相关特征的能力。

SEM2模型学习过程

之后，利用世界模型实现对真实环境的预测，仅输入单个时间步样本，即可在隐空间预测后续多个时间步的样本。输入动作网络与评价网络的特征均为通过语义掩码过滤器的驾驶相关特征，提高了模型的样本效率与鲁棒性，增强了系统的驾驶性能。

SEM2行为学习过程

除了传感器生数据中驾驶无关信息对训练的影响，自动驾驶中的样本不平衡问题也严重影响了训练的有效性。在数据收集阶段，自动驾驶系统大部分时间用于在交通流密度低的直线道路上行驶时收集数据。然而，在弯道和周车密集的交通环境的场景中收集到的边界数据是及其有限的，这造成了数据分布的不均匀，导致了世界模型在重建语义掩码时的不良表现。因此，模型学到的策略在这些边界情况下往往表现不佳。

常见数据与边界数据

为了解决这个问题，我们提出了一种多源训练方法。该方法利用了一个多源数据采样器来混合样本。多源数据采样器通过混合普通数据与边界数据，平衡了训练数据的分布，增强了世界模型在处理边界情况时的准确性，增强了策略应对边界情况的性能。

多源训练

我们在CARLA仿真器中与DreamerV2、SAC基线算法进行了对比实验，验证了SEM2更优异的样本效率与驾驶性能。

我们在不同的天气场景下对原始特征与驾驶相关特征进行了鲁棒性测试并进行了分析。相较于原始特征，驾驶相关特征在前视相机输入出现扰动时变化较小，验证了过滤后特征与驾驶特征高度相关。

最终，我们的系统能够根据传感器的生数据与目标路径提取出与道路拓扑结构、周车信息高度相关的特征，将其输入动作网络，输出油门与刹车开度、方向盘转角，实现直线行驶、弯道行驶、自主跟车、路口等待等不同工况下的自动驾驶。

参考文献

[1] Hafner D, Lillicrap T, Norouzi M, et al. Mastering atari with discrete world models[J]. arXiv preprint arXiv:2010.02193, 2020.

[2]Chen J, Li S E, Tomizuka M. Interpretable end-to-end urban autonomous driving with latent deep reinforcement learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23(6): 5068-5078.

[3]Mu Y, Lan Z, Chen C, et al. Neural MPC-Based Decision-Making Framework for Autonomous Driving in Multi-Lane Roundabout[C]//2023 IEEE 26th International Conference on Intelligent Transportation Systems (ITSC). IEEE, 2023: 5403-5409.

IEEE T-ITS 2024 | 中科院自动化所、港大、清华等联合发布基于模型的强化学习端到端自动驾驶系统SEM2

正文

参考文献

请到「今天看啥」查看全文