专栏名称: 产业智能官

用新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

【智能驾驶】智能驾驶车辆行为决策系统研究

产业智能官 · 公众号 · · 2018-09-12 06:18

正文

调研了国内外无人驾驶车辆行为决策系统的研究现状，对行为决策系统进行分类，基于国内外行为决策系统研究实例，对基于规则和基于学习算法的不同行为决策系统的实现方式、适用条件及优缺点进行比较，分析了现阶段无人车行为决策系统的研究水平、技术难点和发展趋势，为无人驾驶车辆行为决策系统的设计提供参考。

本文来自 2018 年 8 月 3 日出版的《 汽车技术 》，作者是 同济大学汽车学院 熊璐教授、余卓平教授、康宇宸、张培志、朱辰宇。

1. 无人车系统架构

无人驾驶车辆是可以自主行驶的车辆，其系统结构核心在于「智能」，不仅具备加减速、转向等常规的汽车功能，还集成了环境感知、行为决策、路径规划、车辆控制等系统功能，能够综合环境及自车信息，实现类似人类驾驶的行为。

图 1 典型无人驾驶车辆系统架构

典型的无人驾驶车辆系统架构如图 1 所示，总体分为环境感知、决策规划和运动控制三大部分。

环境感知系统 的主要目的是获取并处理环境信息，利用多传感器目标检测与融合等技术，获取周围环境态势，为系统其他部分提供周围环境的关键信息。感知层将处理后的信息发送给决策层。

决策规划系统 综合环境及自车信息，使无人车产生安全、合理的驾驶行为，指导运动控制系统对车辆进行控制 [1]。 行为决策系统是狭义的决策系统 ，其根据感知层输出的信息合理决策出当前车辆的行为，并根据不同的行为确定轨迹规划的约束条件，指导轨迹规划模块规划出合适的路径、车速等信息，发送给控制层。

运动控制系统 接收决策规划层的指令并控制车辆响应，保证控制精度，对目标车速、路径等进行跟踪 [2]。

2. 无人车行为决策系统概述

2.1 设计准则

无人车行为决策系统的目标是使无人车像熟练的驾驶员一样产生安全、合理的驾驶行为。其设计准则可总结为：良好的系统实时性；安全性最高优先级（车辆具备防碰撞、紧急避障、故障检测等功能）；合理的行车效率优先级；结合用户需求的决策能力（用户对全局路径变更、安全和效率优先级变更等）；乘员舒适性（车辆转向稳定性、平顺性等）。

对于适用于城市道路和高速公路工况的行为决策系统，设计准则还包括 [2]：右侧车道通行优先；保持车道优先；速度限制；交通标志及交通信号灯限制等。

2.2 输入与输出

无人车行为决策系统的上层是感知层，其上层输入包括：

a. 局部环境信息 ，其基于相机、雷达等车载传感器，通过多传感器目标检测 [3-4] 与融合等技术 [5]，融合处理各传感器数据，获取车辆周边环境态势，输出关键环境信息，交由决策系统处理。

b. 自车定位信息 ，其基于 GPS/惯性导航系统、高精度地图定位 [6]、即时定位与地图构建（Simultaneous Localization And Mapping，SLAM）[7-8] 等方法，主要功能是对车辆进行高精度定位。

c. 地理地图信息和任务信息 ，包括先验全局路径、道路高精地图、交通标志信息等。

广义的决策系统的输出是运动控制信息。 本文讨论狭义的行为决策系统，其下层是运动规划模块，行为决策系统的输出包括当前车辆行为、车辆运动局部目标点与目标车速等。

2.3 系统分类

无人车行为决策系统主要有基于规则和基于学习算法两大类。

基于规则的行为决策，即将无人驾驶车辆的行为进行划分，根据行驶规则、知识、经验、交通法规等建立行为规则库，根据不同的环境信息划分车辆状态，按照规则逻辑确定车辆行为的方法。其代表方法为有限状态机法 [9-10]，代表应用有智能先锋II [11]、红旗 CA7460、Boss [12]、Junior [13]、Odin [14]、Talos [15]、Bertha [16] 等。

基于学习算法的行为决策，即通过对环境样本进行自主学习，由数据驱动建立行为规则库，利用不同的学习方法与网络结构，根据不同的环境信息直接进行行为匹配，输出决策行为的方法，以深度学习的相关方法及决策树等各类机器学习方法 [17-18] 为代表。代表应用有英伟达（NVIDIA）[19]、Intel [20]、Comma.ai [21]、Mobileye [22]、百度、Waymo、特斯拉等。

3. 基于规则的无人车行为决策系统

3.1 有限状态机法

基于规则的行为决策方法中最具代表性的是有限状态机法，其因逻辑清晰、实用性强等特点得到广泛应用 。有限状态机是一种离散输入、输出系统的数学模型。 它由有限个状态组成，当前状态接收事件，并产生相应的动作，引起状态的转移 。状态、事件、转移、动作是有限状态机的四大要素 [23-24]。

有限状态机的核心在于状态分解。根据状态分解的连接逻辑，将其分为串联式、并联式、混联式 3 种体系架构。

串联式结构的有限状态机系统，其子状态按照串联结构连接，状态转移大多为单向，不构成环路。并联式结构中各子状态输入、输出呈现多节点连接结构，根据不同输入信息，可直接进入不同子状态进行处理并提供输出 [25]。如果一个有限状态机系统下的子状态中既存在串联递阶，又存在并联连接，则称这个系统具有混联结构。

3.2 基于有限状态机的行为决策系统

有限状态机法是经典的决策方法，因其实用性与稳定性在无人车决策系统中广泛应用，目前已比较成熟，美国国防高级研究计划局（Defense Advanced Research Projects Agency，DARPA）城市挑战赛中各队使用的决策系统为其典型代表。

3.2.1 串联结构

图 2 Talos 无人车的行为决策系统

麻省理工大学的 Talos [15] 无人车如图 2 所示，其行为决策系统总体采用串联结构。该无人车以越野工况挑战赛为任务目标，根据逻辑层级构建决策系统。其系统分为定位与导航、障碍物检测、车道线检测、路标识别、可行驶区域地图构建、运动规划、运动控制等模块，其中导航模块负责制定决策任务。

串联式结构的优点是逻辑明确、规划推理能力强、问题求解精度高。其缺点在于对复杂问题的适应性差，某子状态故障时，会导致整个决策链的瘫痪 。串联结构适用于某一工况的具体处理，擅长任务的层级推理与细分解决。

3.2.2 并联结构

图 3 Junior 无人车的行为决策系统

斯坦福大学与大众公司研发的 Junior 无人车 [13] 行为决策系统结构如图 3 所示，其具备典型的并联结构。该系统分为初始化、前向行驶、停止标志前等待、路口通过、U 形弯等 13 个子状态，各个子状态相互独立。

Junior 决策系统是并联划分子系统最多的系统之一，但在实际场景测试中，依然存在其有限状态机没有覆盖的工况，且对真实场景的辨识准确率较差。这说明单纯地应用并联式场景行为细分并不能提高场景遍历的深度，相反容易降低场景辨识准确率。

图 4 Bertha 无人车的行为决策系统

梅赛德斯奔驰公司研发的 Bertha 无人车 [16] 行为决策系统如图 4 所示。该系统分为路径规划、目标分析、交通信号灯管理、放弃管理 4 个独立并行的子状态模块。其中，放弃管理模块通过换挡操纵杆信号进行无人和有人驾驶的切换。

图 5 红旗 CA7460 的行为决策系统

国防科学技术大学研发的红旗 CA7460 [2] 行为决策系统如图 5 所示，其具备典型的并联结构。该系统适用于高速公路工况，其决策系统划分为自由追踪行车道、自由追踪超车道、由行车道换入超车道、由超车道换入行车道等模式。

红旗 CA7460 对车辆行驶的安全性指标和效率指标进行了衡量，根据交通状况和安全性指标选出满足条件的候选行为，再根据效率指标决策出最优行为。

卡尔斯鲁厄工业大学的 AnnieWAY 无人车团队 [26] 建立了并行层次状态机，构建决策系统应对环境中出现的各类情况。布伦瑞克工业大学提出的移动导航分布式体系结构，包含一系列驾驶行为（跟随道路点、车道保持、避障、行驶在停车区等），通过投票机制决策驾驶行为并应用于 Caroline 号无人车 [27-28] 上。

并联式结构将每一种工况单独划分成模块进行处理，整个系统可快速、灵活地对输入 进行响应。但在复杂工况下，由于遍历状态较多导致的算法机构庞大，以及状态间的划分与状态冲突的解决是难点 。并联结构适用于场景较复杂的工况。

相较于串联结构，并联结构的优点是具备场景遍历广度优势，易于实现复杂的功能组合，具有较好的模块性与拓展性，缺点是系统不具备时序性，缺乏场景遍历的深度， 决策易忽略细微环境变化，状态划分灰色地带难以处理，从而导致决策错误。

3.2.3 混联结构

串、并联结构具备各自的局限性，混联式结构可较好地结合两者优点，层级式混联结构是比较典型的方法。

图 6 Boss 无人车的行为决策系统

卡耐基梅隆大学与福特公司研发的 Boss 无人车 [12] 行为决策系统如图 6 所示，其具备典型的层级式混联结构。 系统顶层基于场景行为划分，底层基于自车行为划分 。3 个顶层行为及其底层行为分别为：车道保持（车道选择、场景实时报告、距离保持器、行为发生器等）、路口处理（优先级估计、转移管理等）和指定位姿。

图 7 Odin 无人车行为决策系统

弗吉尼亚理工大学研发的 Odin 无人车 [14] 行为决策系统如图 7 所示，该系统引入决策仲裁机制，其决策系统划分为车道保持、超车、汇入交通流、U 型弯、拥堵再规划等模块。每个子决策模块输出的结果均交由决策融合器进行决策仲裁。各模块具备不同优先级，优先级低的模块必须让步于优先级高的模块。

图 8 智能驾驶 Ⅱ 号行为决策系统

中国科学技术大学研发的智能驾驶 Ⅱ 号 [11] 行为决策系统如图 8 所示，其具备典型的混联结构。该系统进行了专家算法和机器学习算法的融合，顶层决策系统采用并联式有限状态机，分为跟车巡航、十字路口、U 形弯、自主泊车等模块。底层采用学习算法（ID3 决策树法），用以得出车辆的具体目标状态及目标动作。

这种层级处理的思想还衍生出各种具体的应用方法：

康奈尔大学的 Skynet 号无人车 [29] 通过结合交通规则和周围环境，建立了 3 层规划系统，划分驾驶行为、规划策略与底层操作控制，实现对车辆行为的决策处理；
清华大学的 THMR-V 无人车 [30] 采用分层式的体系结构，将系统分为协调级和执行级，通过协调级对环境和车辆状态进行局部规划，最高时速可达百公里；
佛罗里达大学的 Knight Rider 号无人车 [31] 包含人工智能模块，建立了层次结构驾驶员模型，将驾驶任务分为战略、战术和操作层级，通过战略层设定次级目标来生成序列最优战术，并经过操作层输出控制信号；
来自宾州大学的 Little Ben 号无人车研发团队 [32] 建立了简单的规则对比赛给定的任务文件进行驾驶行为的划分，结合路网信息确定车辆行为，以此作为车辆的上层决策系统。

4. 基于学习算法的无人车行为决策系统

近年来，人工智能技术迅猛发展，学习算法越来越多地运用于无人驾驶车辆环境感知与决策系统 [33]。

基于学习算法的无人车行为决策系统研究目前已取得显著成果，根据原理不同主要可分为深度学习相关的决策方法 [34-35] 与基于决策树等机器学习理论的决策方法。 NVIDIA 端到端卷积神经网络决策系统 [19] 与中国科学技术大学应用的 ID3决策树法 [11] 是其典型案例。

4.1 深度学习方法

深度学习方法因其在建模现实问题上极强的灵活性，近年来被许多专家、学者应用于无人车决策系统。 NVIDIA 研发的无人驾驶车辆系统架构是一种典型架构，其采用端到端卷积神经网络进行决策处理，使决策系统大幅简化。系统直接输入由相机获得的各帧图像，经由神经网络决策后直接输出车辆目标转向盘转角。

图 9 NVIDIA 无人车决策系统训练模型

该系统使用 NVIDIA DevBox 作处理器，用 Torch 7 作为系统框架进行训练，工作时每秒处理 30帧数据，其训练系统框架如图 9所示。 图像输入到卷积神经网络 （Convolutional Neural Networks，CNN） 计算转向控制命令，将预测的转向控制命令与理想的控制命令相比较，然后调整 CNN 模型的权值使得预测值尽可能接近理想值。 权值调整由机器学习库 Torch 7 的反向传播算法完成。 训练完成后，模型可以利用中心的单个摄像机数据生成转向控制命令。

图 10 NVIDIA 与 Mobileye 决策架构

其深度学习系统网络结构如图 10a 所示，共 9层，包括 1 个归一化层、5 个卷积层和 3 个全连接层。输入图像被映射到 YUV 颜色空间，然后传入网络。

仿真结果表明，其神经网络能完整地学习保持车道驾驶的任务，而不需要人工将任务分解为车道检测、语义识别、路径规划和车辆控制等。 CNN 模型可以从稀疏的训练信号（只有转向控制命令）中学到有意义的道路特征，100 h 以内的少量训练数据就足以完成在各种条件下操控车辆的训练。

百度端到端系统实现了对车辆的纵向和横向控制：

纵向控制采用堆叠卷积长短期记忆（Long Short Term Memory，LSTM）深度学习模型，提取帧序列图像中的时空特征信息，实现特征到纵向控制指令的映射；
横向控制采用 CNN 深度学习模型，从单幅前视相机的图像直接计算出横向控制的曲率。

模型主要关注视觉特征的提取、时序规律的发现、行为的映射等方面。

其中，纵向控制被看作时空序列预测问题，输入单元为最近 5 帧图像（图像采集频率是每秒 8帧），每帧图像均缩放为 80 像素 × 80 像素的 RGB 格式。LSTM 模型的第 1 层有 64 个通道，其内核大小为 5 像素 × 5像素，后续层拥有更多的通道和更小的内核，最后一个卷积层为 2 个完全连通的层。输出单元是线性单元，损失函数是 MSE，优化器是 rmsprop。横向控制由 1 个预处理层、5 个卷积层和 2 个全连接层组成。输入为 320 像素 × 320 像素的 RGB格式图像。

图 11 Intel 决策网络架构

Intel [20] 利用已有控制数据训练网络，完成端到端的自动驾驶，如图 11 所示。其在网络中考虑了方向性的控制指令（直行、左转、右转），使得网络可以在车道保持的同时完成转弯等操作。图 11 为 2 种不同的结合控制指令的结构：一种作为网络的输入，另一种将指令分为 3 个不同的输出层，根据控制指令选择不同的输出。

Comma.ai [21] 利用 CNN，并且几乎只用 CNN来构造决策系统。该系统将图像导入网络，通过网络输出命令调整转向盘和车速，从而使车辆保持在车道内。根据 Comma.ai 公布的数据，该公司目前已经累计行驶约1.35×10^6 km，累计行驶时间为 22000 h，累计用户 1909 人。

美国伍斯特理工学院 [36] 提出了一种自动驾驶汽车的端到端学习方法，能够直接从前视摄像机拍摄的图像帧中产生适当的转向盘转角 。主要使用卷积神经网络将特征级的图像数据作为输入，驾驶员的转向盘转角作为输出进行训练和学习，使用 Comma.ai 公布的数据集进行训练和评估。试验结果表明，该模型能够实现相对精确的转向控制，很好地完成了车道保持动作。

Mobileye [22] 把 增强学习 应用在高级驾驶策略的学习上，感知及控制等模块则被独立出来处理，其系统结构如图 10b 所示。 相对于端到端学习大大提高了决策过程的可解释性和可操作性，很好地适配了传统机器人学中感知-决策-控制的系统架构 。

Drive.ai 获准在美国加州公共道路上测试无人驾驶汽车，其在感知和决策上都使用深度学习，但避免整体系统的端到端，而是将系统按模块分解，再分别应用深度学习，同时结合规则、知识确保系统的安全性。

Waymo 通过模拟驾驶及道路测试获取了大量的数据对其行为决策系统进行训练 。该系统不仅能对物体进行探测，还能对障碍物进行语义理解。对不同道路参与者的行为方式建立准确的模型，判断它可能的行为方式以及对汽车自身的道路行为产生的影响，输入到决策系统，保证决策行为的安全性。

卡耐基梅隆大学 [37] 提出了一种基于预测和代价函数算法（Prediction and Cost function-Based algorithm，PCB）的离线学习机制，用于模拟人类驾驶员的行为决策。其决策系统针对交通场景预测与评估问题建立模型，使用学习算法，利用有限的训练数据进行优化。训练数据来源于人类驾驶员在实际道路的跟车场景，主要包含自车车速、前车车速以及两车之间的距离等。在 120 km 的低速跟车测试中，PCB 和人类跟车的车速差异仅为 5%，能够很好地完成跟车操作。

国防科技大学的刘春明教授等人 [38] 构建了 14 自由度的车辆模型，采用模型控制预测理论，利用基于增强学习理论的方法，基于仿真数据得到了无人车的决策模型。该方法利用多自由度车辆模型对车辆的实际动力学特性进行考量，有利于满足车辆行驶稳定与乘员舒适的要求。

麻省理工大学 [39] 在仿真器中模拟单向 7 车道工况，利用定义好的深度强化学习（Deep Q-Learning，DQN）模型调整网络结构，可在浏览器上进行训练工作，完善决策系统。

4.2 其他机器学习方法

除基于学习的决策方法外，还有很多机器学习方法在决策系统中加以应用。决策树法为机器学习理论中一种具有代表性的方法，中国科技大学的智能驾驶 Ⅱ 号将其用于决策系统。其应用的 ID3 决策树法适用于多种具体工况，如路口、U 形弯工况等，其先由顶层有限状态机决策出具体场景，再进入决策树进行相应的计算。

图 12 基于 ID3 算法的行为决策树

以十字路口工况为例，首先确定当前工况的条件属性（即系统输入，如自车车速、干扰车车速等）和决策属性（即系统输出，如加速直行、停车让行等）。选取若干样本数据进行基于灰关联熵的条件属性影响分析，获得如图 12 所示的基于 ID3 算法的行为决策树。

该行为决策树即机器通过学习后自主获得的行为规则库的一种表现形式。无人车运行时，将驾驶环境信息转化成条件属性，交由决策树进行计算，最终得出决策指令，指导无人车的行为操作。

ID3 决策树法具有知识自动获取、准确表达、结构清晰简明的优点，其缺点同样明显，即对于大量数据获取的难度较大，数据可靠性不足，数据离散化处理后精度不足。

德国宝马和慕尼黑工业大学[40] 提出了一种基于部分可观测马尔科夫决策过程（Partially Observable Markov Decision Processes，POMDP）的决策模型，主要解决动态和不确定驾驶环境下的决策问题，其不确定性主要来源于传感器噪声和交通参与者行驶意图的不确定性。

POMDP 将其他车辆的驾驶意图作为隐藏变量，建立贝叶斯概率模型，可求解出自车在规划路径上的最优加速度。在复杂交叉路口的仿真测试下，能够较好地根据其他车辆的驾驶行为调整自车的最优加速度，保证安全性与行车效率。

丰田公司的 Urtasun 等人 [41] 提出了一种基于概率的生成式模型，提取室外环境的语义信息作为输入，并输出行为决策。

5. 无人车行为决策系统发展趋势

5.1 现阶段研究水平

无人车行为决策系统研究水平的衡量标准主要体现在实车应用性、实现功能的复杂程度、应用场景的复杂程度、决策结果正确性与系统复杂性 。

实车应用是对决策系统的基本要求。现阶段，有限状态机法作为基于规则的代表方法，已经较为成熟并广泛应用于国内外诸多无人车上。基于学习算法的决策算法，如深度学习相关方法、决策树法、粗糙集理论等学习算法近年来发展迅速，亦具有很多相关应用实例并取得很好效果。截至 2017 年 11 月，谷歌自动驾驶汽车部门 Waymo 已在美国 6 个州开展了自动驾驶测试，宣称其测试用无人车已行驶 5.6×10^6 km并完成了 4×10^9 km 的模拟驾驶。特斯拉的量产车中安装了 Autopilot 硬件系统，可通过空中下载（Over-The-Air，OTA）技术进行从 L2 到 L4 的升级。2017 年上半年以来，陆续开启了车道偏离警告、自动转向（Autosteer）、召唤（Summon）以及自动车道变换等功能。

在功能复杂程度上，现阶段的有限状态机决策技术除实现简单的循线行驶、车道保持、紧急避障等功能外，也可实现较为复杂的组合功能 [42-43]，如路口处理、自主泊车，乃至一定工况范围内的长距离自主驾驶。状态机方法可并行遍历多个场景，且擅长在特定场景内对任务进行拆分决策。 而现阶段学习算法的功能应用依赖于训练集的丰富程度，一般在指定工况与任务下效果较好，多场景与多任务协调能力仍相对较 差。如北京理工大学的 BYD-Ray [44] 应用粗糙集理论主要解决换道决策的功能，智能驾驶 Ⅱ 号的 1 个决策树只能解决 1 个功能下的决策任务。 以谷歌为代表的端到端相关方法取得了较好效果，但其对于训练数据较为依赖，决策网络可解释性与可调整性较差。

在应用场景的复杂程度上，现阶段的有限状态机决策技术可以适应复杂的综合城市环境，其优势在于场景广度的遍历 。Boss、Junior、Odin 等在 DARPA 无人车挑战赛中于 6 h 内完成 96 km 的路测，其场景完全还原了真实城市道路环境，需要车辆与其他车辆交互、避让，同时遵守交通规则，具有很高的环境复杂度。而 学习算法更加着重于场景深度的遍历，对于同一场景下的各种细微变化更加应变自如 [45-46]。NVIDIA 无人车利用训练后的 CNN 模型，可以使车辆在同一类场景下在面对不同道路材质、车道线线型、各种天气状况等细微环境变化时做出正确反应。Drive.ai 共有 4 辆车在旧金山湾区进行路测，在夜路、雨天、有雾等复杂情况下也基本可以实现完全自动驾驶。

在决策结果的正确性上，学习算法与规则算法各有优势 ，在实现较高的功能复杂度和适应较高场景复杂度的基础上，两种算法均能够保证决策系统的正确性，完成相应的行驶任务。 但对于复杂工况，规则算法面临状态划分界限确定问题。学习算法需要遍历程度高的数据作为支持。

在系统复杂性上，基于学习的算法舍弃了规则算法的层级架构，更加简洁直接，大幅简化了决策系统结构 [47] 。规则算法面临复杂工况，不可避免因遍历工况、完善逻辑而导致算法规模庞大冗杂 。并且 对于复杂工况下算法性能的提高问题，规则算法因其逻辑结构问题，难以大幅提升，存在瓶颈。

根据美国汽车工程师学会（SAE）的自动驾驶分级，现阶段基于专家和学习算法的无人车基本可达到 L3 级有条件自动驾驶水平，部分可以达到 L4 级高度自动驾驶水平。通用汽车于 2018 年 1 月发布了新一代无人驾驶汽车——Cruise AV，这是世界首辆无需驾驶员、转向盘和踏板即可实现安全驾驶的可量产汽车，可以达到 L4 级别。百度于 2015 年 12 月完成了北京中关村软件园的百度大厦至奥林匹克森林公园并原路返回的道路测试，全程均无人驾驶，最高车速达 100 km/h。2018 年 2 月的春节联欢晚会中，百度 Apollo 无人车队在港珠澳大桥上以无人驾驶模式完成了 8 字交叉跑等高难度驾驶动作，标志着我国无人驾驶技术亦取得了长足进步。

5.2 技术难点

基于规则和基于学习算法的行为决策技术各自具备较为鲜明的优缺点。

基于专家规则的行为决策系统，

其优点是：算法逻辑清晰，可解释性强，稳定性强，便于建模；系统运行对处理器性能要求不高；模型可调整性强；可拓展性强，通过状态机的分层可以实现较为复杂的组合功能；在功能场景的广度遍历上存在优势。
其缺点是：由于状态切割划分条件导致车辆行为不连贯； 行为规则库触发条件易重叠从而造成系统失效；有限状态机难以完全覆盖车辆可能遇到的所有工况，通常会忽略可能导致决策错误的环境细节 ；场景深度遍历不足导致系统决策正确率难以提升，对复杂工况处理及算法性能的提升存在瓶颈。

基于学习算法的行为决策系统，

其优点是：具备场景遍历深度的优势，针对某一细分场景，通过大数据系统更容易覆盖全部工况；利用网络结构可简化决策算法规模；部分机器具备自学习性能，机器能够自行提炼环境特征和决策属性，便于系统优化迭代 [48-49]；不必遍历各种工况， 通过数据的训练完善模型，模型正确可率随数据的完备得以提升 。
其缺点是： 算法决策结果可解释性差，模型修正难度大；学习算法不具备场景遍历广度优势，不同场景所需采用的学习模型可能完全不同 ；机器学习需要大量试验数据作为学习样本； 决策效果依赖数据质量，样本不足、数据质量差、网络结构不合理等会导致过学习、欠学习等问题 。

根据上述决策系统的优缺点，提出现阶段决策系统需要解决的具体技术难点：

a. 基于有限状态机决策模型的状态划分问题 。有限状态机的状态划分需要依据明确的边界条件。但实际驾驶过程中，驾驶行为间存在某些「灰色地带」，即同一场景下可能有 1 个以上合理的行为选择，使驾驶状态存在冲突。 对于决策系统而言，一方面要避免冲突状态强行划分而造成的无人车行为不连贯，另一方面也要能够判断处于「灰色地带」的无人车不同行为的最优性 。通过在决策系统中引入其他决策理论，如 DS 证据理论（Dempster-Shafer Evidence Theory）等、决策仲裁机制、博弈论法、状态机与学习算法结合等方法可帮助解决该问题。

b. 基于有限状态机决策模型的复杂场景遍历问题 。有限状态机需要人工设定规则库以泛化无人车行驶状态，这种模式使得状态机具有广度遍历优势。但随着环境场景的增多与复杂，有限状态机的规模也不断庞大，使得算法臃肿；而 同一场景的深度遍历，即由于环境细节变化导致的决策结果变化，也很难通过状态遍历 。对于有限状态机决策系统而言，利用学习算法的优点，采用状态机与学习算法结合的方法，结合学习算法深度遍历的优势，有利于有效解决该问题。

c. 基于学习算法决策模型的正确性与稳定性问题 。学习算法的训练结果与样本数量、样本质量和网络结构有关。如果学习模型过于复杂，会造成无法区分数据本质和噪声的情况，泛化能力减弱；反之，如果学习模型过于简单，或者样本数量不足、对场景遍历不足，则会导致规则提炼不精准，出现欠学习问题。此外， 学习算法模型逻辑解释性较差，实际应用中调整与修正不很方便 。对于基于学习算法的决策系统而言，一方面要收集大量可靠、高质量的试验数据，另一方面要选择合理的学习算法，配置合理的试验参数，调整网络结构，以提高训练结果的正确性与稳定性。

5.3 技术发展趋势

随着计算机科学的迅猛发展，近年来掀起了机器学习技术的研究浪潮，学习算法越来越多地运用于无人车行为决策系统，计算机硬件平台的发展也为深度学习网络训练提供了强有力的支持。

基于规则的决策方法相对较为成熟，其在场景遍历广度上具备优势，逻辑可解释性强，易于根据场景分模块设计 ，国内外均有很多应用有限状态机的决策系统实例。然而其系统结构决定了其在场景遍历深度、决策正确率上存在一定的瓶颈，难以处理复杂工况 [50]。

基于学习算法的决策系统因具有场景遍历深度的优势，将被越来越多地用作决策系统的底层，即针对某一细分场景，采用学习算法增强算法的场景遍历深度，使其能够在环境细微变化中仍然保证较高的决策精度。然而其算法可解释性差、可调整性差、场景广度遍历不足等劣势导致了仅采用学习算法的决策系统仍存在应用局限，较难处理复杂的功能组合 [51]。

根据上述基于两种算法的优、劣势，现阶段无人车决策系统的发展趋势可归纳为：

a. 采用基于规则算法的行为决策算法仍会在决策系统中广泛应用，将作为决策系统的顶层架构与某些具体问题的细分解决方案 ，并将更多地采用混联结构，发挥规则算法基于场景划分模块处理及针对具体问题细分处理时逻辑清晰、调整性强的优势，可同时兼顾场景遍历的广度与深度。采用该方法的研究重点将在于解决状态划分“灰色地带”的合理决策问题，以及行为规则库触发条件重叠等问题。

b. 无人车决策系统将更多地采用规则算法与学习算法结合的方式。顶层采用有限状态机，根据场景进行层级遍历；底层采用学习算法，基于具体场景分模块应用，可发挥学习算法优势，简化算法结构、增强场景遍历的深度，并可减小数据依赖量，保证决策结果的鲁棒性与正确性。采用该方法的研究重点在于如何合理对接有限状态机与学习算法模型，以及学习算法的过学习、欠学习等问题。

c. 端到端方法将更多作为决策子模块的解决方案，而非将决策系统作为一个整体进行端到端处理 。通过这种方式可发挥学习算法的优势，将决策模块拆解也可提高系统的可解释性与可调节性。

d. 目前行为决策系统的设计准则主要考量安全与效率，对车辆特性与乘员舒适性考虑较少 。在保证安全与效率的基础上，可通过加入对车辆动力学特性的考量，筛取更合理的驾驶数据等方式，对行为决策系统进行优化。

编辑整理：厚势分析师拉里佩

转载请注明来自厚势和厚势公号：iHoushi

自动驾驶中的强化学习：从虚拟到现实 | 厚势汽车

同济智能汽车所厚势

1 前言

强化学习（Reinforcement Learning）是机器学习的一个热门研究方向。强化学习较多的研究情景主要在机器人、游戏与棋牌等方面，自动驾驶的强化学习研究中一大问题是很难在现实场景中进行实车训练。 因为强化学习模型需要成千上万次的试错来迭代训练，而真实车辆在路面上很难承受如此多的试错 。

所以目前主流的关于自动驾驶的强化学习研究都集中在使用虚拟驾驶模拟器来进行代理（Agent）的仿真训练，但这种仿真场景和真实场景有一定的差别，训练出来的模型不能很好地泛化到真实场景中，也不能满足实际的驾驶要求。

加州大学伯克利分校的 Xinlei Pan 等人提出了一种虚拟到现实（Virtual to Real）的翻译网络，可以将虚拟驾驶模拟器中生成的虚拟场景翻译成真实场景，来进行强化学习训练，取得了更好的泛化能力，并可以迁移学习应用到真实世界中的实际车辆，满足真实世界的自动驾驶要求。

下面为《 Virtual to Real Reinforcement Learning for Autonomous Driving 》一文的翻译，编者对文章有一定的概括与删改。

2 简介

强化学习被认为是推动策略学习的一个有前途的方向。然而,在实际环境中进行自动驾驶车辆的强化学习训练涉及到难以负担的试错。更可取的做法是先在虚拟环境中训练，然后再迁移到真实环境中。本文提出了一种新颖的现实翻译网络（Realistic Translation Network），使虚拟环境下训练的模型在真实世界中变得切实可行。提出的网络可以将非真实的虚拟图像输入转换到有相似场景结构的真实图像。以现实的框架为输入，通过强化学习训练的驾驶策略能够很好地适应真实世界的驾驶。实验表明，我们提出的虚拟到现实的强化学习效果很好。据我们所知，这是首次通过强化学习训练的驾驶策略可以适应真实世界驾驶数据的成功案例。

图 1 自动驾驶虚拟到现实强化学习的框架。由模拟器（环境）渲染的虚拟图像首先被分割成场景解析的表现形式，然后通过提出的图像翻译网络（VISRI）将其翻译为合成的真实图像。代理（Agent）观察合成的真实图像并执行动作。环境会给 Agent 奖励。由于 Agent 是使用可见的近似于真实世界的图像来训练，所以它可以很好地适应现实世界的驾驶。

自动驾驶的目标是使车辆感知它的环境和在没有人参与下的行驶。实现这个目标最重要的任务是学习根据观察到的环境自动输出方向盘、油门、刹车等控制信号的驾驶策略。最直接的想法是端到端的有监督学习，训练一个神经网络模型直接映射视觉输入到动作输出，训练数据被标记为图像-动作对。然而，有监督的方法通常需要大量的数据来训练一个可泛化到不同环境的模型。获得如此大量的数据非常耗费时间且需要大量的人工参与。相比之下，强化学习是通过一种反复试错的方式来学习的，不需要人工的明确监督。最近，由于其在动作规划方面的专门技术，强化学习被认为是一种有前途的学习驾驶策略的技术。

然而，强化学习需要代理（Agent）与环境的相互作用，不符规则的驾驶行为将会发生。在现实世界中训练自动驾驶汽车会对车辆和周围环境造成破坏。因此目前的自动驾驶强化学习研究大多集中于仿真，而不是在现实世界中的训练。一个受过强化学习训练的代理在虚拟世界中可以达到近人的驾驶性能，但它可能不适用于现实世界的驾驶环境，这是因为虚拟仿真环境的视觉外观不同于现实世界的驾驶场景。

虽然虚拟驾驶场景与真实驾驶场景相比具有不同的视觉外观，但它们具有相似的场景解析结构。例如虚拟和真实的驾驶场景可能都有道路、树木、建筑物等，尽管纹理可能有很大的不同。因此将虚拟图像翻译成现实图像是合理的，我们可以得到一个在场景解析结构与目标形象两方面都与真实世界非常相似的仿真环境。最近,生成对抗性网络（ GAN ）在图像生成方面引起了很多关注。[1] 等人的工作提出了一种可以用两个域的配对数据将图像从一个域翻译到另一个域的翻译网络的设想。然而，很难找到驾驶方向的虚拟现实世界配对图像。这使得我们很难将这种方法应用到将虚拟驾驶图像翻译成现实图像的案例中。

本文提出了一个现实翻译网络,帮助在虚拟世界中训练自动驾驶车辆使其完全适应现实世界的驾驶环境。我们提出的框架（如图 1 所示）将模拟器渲染的虚拟图像转换为真实图像，并用合成的真实图像训练强化学习代理。虽然虚拟和现实的图像有不同的视觉外观，但它们有一个共同的场景解析表现方式（道路、车辆等的分割图）。因此我们可以用将场景解析的表达作为过渡方法将虚拟图像转化为现实图像。这种见解类似于自然语言翻译，语义是不同语言之间的过渡。

具体来说，我们的现实翻译网络包括两个模块：

第一个是虚拟解析或虚拟分割模块，产生一个对输入虚拟的图像进行场景解析的表示方式。
第二个是将场景解析表达方式翻译为真实图像的解析到真实网络。通过现实翻译网络，在真实驾驶数据上学习得到的强化学习模型可以很好地适用于现实世界驾驶。

为了证明我们方法的有效性，我们通过使用现实翻译网络将虚拟图像转化成合成的真实图像并将这些真实图像作为状态输入来训练我们的强化学习模型。我们进一步比较了利用领域随机化（ Domain Randomization ）的有监督学习和其他强化学习方法。实验结果表明,用翻译的真实图像训练的强化学习模型比只用虚拟输入和使用领域随机化的强化学习模型效果都要更好。

3 自然环境下的强化学习

我们的目标是成功地将一个完全在虚拟环境中训练的驾驶模型应用于真实世界的驾驶挑战。其中一个主要的空白是，代理所观察到的是由模拟器渲染的帧，它们在外观上与真实世界帧不同。因此提出了一种将虚拟帧转换为现实帧的现实翻译网络。受图像-图像翻译网络工作的启发，我们的网络包括两个模块：即虚拟-解析和解析-现实网络。第一个模块将虚拟帧映射到场景解析图像。第二个模块将场景解析转换为与输入虚拟帧具有相似的场景结构的真实帧。这两个模块可以产生保持输入虚拟帧场景解析结构的真实帧。最后我们在通过现实翻译网络获得的真实帧上，运用强化学习的方法，训练了一个自动驾驶代理。我们所采用了[2]等人提出的方法，使用异步的 actor-critic 强化学习算法在赛车模拟器 TORCS[3]中训练了一辆自动驾驶汽车。在这部分，我们首先展现了现实翻译网络,然后讨论了如何在强化学习框架下对驾驶代理进行训练。

图2：虚拟世界图像（ 左1和左2 ）和真实世界图像（ 右1和右2 ）的图像分割实例

3.1 现实翻译网络

由于没有配对过的虚拟和真实世界图像，使用[1]的直接映射虚拟世界图像到真实世界图像将是尴尬的。然而由于这两种类型的图像都表达了驾驶场景，我们可以通过场景分析来翻译它们。受[1]的启发，我们的现实翻译网络由两个图像翻译网络组成，第一个图像翻译网络将虚拟图像转化为图像的分割。第二个图像翻译网络将分割后图像转化为现实世界中的对应图像。

由[1]等人提出的图像至图像的翻译网络基本上是一个有条件的生成对抗网络（GAN）。传统的 GAN 网络和有条件的 GAN 网络的区别在于，传统 GAN 网络是学习一种从随机噪声矢量z到输出图像 s 的映射：G：z → s，而有条件的 GAN 网络是同时吸收了图像 x 和噪声向量 z，生成另一个图像 s：G：{x, z} → s，且 s 通常与 x属于不同的领域（例如将图像翻译成其分割）。

有条件的GAN网络的任务目标可以表达为：

G 是试图最小化目标的生成器，D 是与 G 相违背的试图最大化目标的对抗判别器。换句话说，=argmima(G,D)，为了抑制模糊，添加了 L1 的损失正则化，可以表达为：

因此，图像-图像翻译网络的总体目标是：

λ 是正则化的权重。

我们的网络由两个图像-图像的转换网络组成，这两个网络使用公式（3）作为相同的损失函数。第一个网络将虚拟图像x翻译成它们的分割 s：G1：{x,} → S，第二个网络将分割的图像 s 转换成它们的现实对应的 y: G2:{ s,} → y，,是噪声,以避免确定性的输出。对于 GAN 神经网络的结构，我们使用的是与[1]相同的生成器和判别器结构。

3.2 训练自主驾驶汽车的强化学习

我们使用传统的强化学习解决方案异步优势 Actor-Arbitor（A3C）来训练自动驾驶汽车，这种方法在多种机器学习任务中表现的很出色。A3C 算法是将几种经典的强化学习算法与异步并行线程思想相结合的一种基本的行动 Actor-Critic。多个线程与环境的无关副本同时运行，生成它们自己的训练样本序列。这些 Actor-learners 继续运行,好像他们正在探索未知空间的不同部分。对于一个线程，参数在学习迭代之前同步,完成后更新。A3C 算法实现的细节见[2]。为了鼓励代理更快地驾驶和避免碰撞，我们定义了奖励函数为：

Vt 是在第 t 步时代理的速度（ m/s ），α 是代理的速度方向与轨迹切线之间的轮廓（红色部分），是代理中心和轨迹中点之间的距离，β、γ 是常数并在训练的一开始就被定义。我们在训练时设置 β=0.006，γ=-0.025。

我们做了两组实验来比较我们的方法和其他强化学习方法以及有监督学习方法的性能。第一组实验涉及真实世界驾驶数据的虚拟到现实的强化学习，第二组实验涉及不同虚拟驾驶环境下的迁移学习。我们实验中使用的虚拟模拟器是 TORCS。

图3：强化学习网络结构。该网络是一个端到端的将状态表示映射到动作概率输出的网络

图4：虚拟到真实图像翻译的例子。奇数列是从TORCS截取的虚拟图像。偶数列是根据左边的虚拟图像相对应合成的真实世界图像。

3.3 真实世界驾驶数据下的虚拟到现实强化学习

在本实验中，我们用现实翻译网络训练了我们所提出的强化学习模型。我们首先训练虚拟到真实的图像翻译网络然后利用受过训练的网络对模拟器中的虚拟图像进行滤波。这些真实的图像随后被输入 A3C 算法，以训练驾驶策略。最后经过训练的策略在真实世界驾驶数据上进行了测试，以评估其转向角度预测精度。

为便于比较，我们还训练了一个有监督学习模型来预测每个驾驶测试视频框架的转向角度。该模型是一种具有我们的强化学习模型中相同的策略网络设计结构的深度神经网络（DNN）。网络输入是四个连续框架的序列，网络输出的是动作概率向量，向量中的元素表示直行、左转、右转的概率。有监督学习模型的训练数据不同于用于评价模型性能的测试数据。另外,另一个基线强化学习模型（B-RL））也被训练。B-RL 和我们的方法的唯一区别是虚拟世界图像是由代理直接作为状态输入的。B-RL 模型也在相同的真实世界驾驶数据上被测试。

数据集 ：真实世界驾驶视频数据来自[4]，这是一个在晴天收集的每一帧都有详细的转角标注的数据集。这个数据集大概有 45000 张图片，其中 15000 张被用作训练有监督学习，另外 15000 张被选出来进行测试。为了训练我们的现实翻译网络，我们从TORCS 中的 Aalborg 环境收集了虚拟图像以及他们的分割。共收集了 1673 张涵盖了整个 Aalborg 环境的驾驶照片。

图5：不同环境间的迁移学习。Orcle 曾在 CGTrac2 中接受过训练和测试，所以它的性能是最好的。我们的模型比领域随机化 RL 方法更有效。领域随机化方法需要在多个虚拟环境中进行培训，这就需要大量的人工的工程工作。

场景分割 ：我们使用了[5]中的图像语义分割网络设计及其在 CityScape 图像分割数据集[6]上经过训练的分割网络，从[5]中分割 45000 张真实世界的驾驶图像。该网络在11 个类别的 CityScape 数据集上训练并迭代了 30000 次。

图像翻译网络训练 ：我们使用收集的虚拟-分割图像对和分割-真实图像对训练了虚拟-解析和解析-真实两个网络。如图 1 所示，翻译网络采用编码-解码器的方式。在图像翻译网络中，我们使用了可以从编码器到解码器跳跃连接两个独立分开层的 U-Net 体系结构，具有相同的输出特征图形状。生成器的输入尺寸是 256×256。每个卷积层有4×4 大小的卷积核，步长为 2。每一卷积层后都有一个 slope 为 0.2 的 LeakyReLU 层，每一个反卷积层后都应用一个 Relu 层。此外，在每一个卷积层与反卷积层后，都应用一个 BatchNormalization 层。编码器的最终输出与输出尺寸为 3×256×256 并接着 tanh 激活函数的卷积层连接。我们用了全部的 1673 个虚拟-分割图像对来训练一个虚拟-分割网络。因为 45000 张真实图像有所冗余，我们从 45000 张图像中选择了 1762 张图像和它们的分割来训练解析-真实的图像翻译网络。为了训练这个图像翻译模型，我们使用了 Adam 优化器，初始学习率为 0.0002，冲量设为 0.5，batchsize设为 16，训练了 200 次迭代直到收敛。

强化训练 ：我们训练中使用的RL网络结构类似于[2]中的 actor 网络，是有 4 个层并且每层间使用 Relu 激活函数的卷积神经网络（如图 3 所示）。该网络将 4 个连续 RGB帧作为状态输入并输出 9 个离散动作，这些动作对应于「直线加速」，「加速向左」、「加速向右」、「直走和刹车」、「向左和刹车」、「向右和刹车」、「向左走」和「向右走」。我们用 0.01 个异步线程和 RMSPop 优化器对强化学习代理进行了训练，初始学习率为 0.01，γ=0.9，ε=0.1。

评估：真实的驾驶数据集提供了每帧的转向角度注释。然而，在 TORCS 虚拟环境中执行的动作只包含「左转」，「向右走」，「直走」或它们与「加速」「刹车」的组合。因此我们定义了一个标签映射策略，将转向角度标签翻译成虚拟模拟器中的动作标签。我们把（ -10，10 ）中的转向角度与「直走」的动作联系起来。（由于小转向角度不能在短时间内导致明显的转弯），转向角度小于 -10 度映射到动作「向左」，转向角度超过 10 度映射到动作「向右」。通过将我们的方法产生的输出动作与地面真实情况相比较，我们可以获得驾驶动作预测的准确率。

虚拟驾驶环境下的迁移学习 ：我们进一步进行了另一组实验，并获得了不同虚拟驾驶环境之间的迁移学习的结果。在这个实验中，我们训练了三名强化学习代理。第一个代理在 TORCS 中的 Cg-Track2 环境中接受了标准的 A3C 算法训练，并频繁地在相同的环境中评估其性能。我们有理由认为这种代理的性能是最好，所以我们称之为「Oracle」。第二个代理用我们提出现实翻译网络的强化学习方法来训练。但是，它在 TORCS 的 E-track1 环境中接受训练，然后在 Cg-track2 中进行评估。需要注意的是，E-track1 的视觉外观不同于 Cg-Track2。第三个代理是用类似于[22]的领域随机化方法训练的，在 Cg-track2 中，该代理接受了 10 种不同的虚拟环境的训练，并进行了评估。为了使用我们的方法训练，我们得到了 15000 张分割图像给 E-track1 和Cg-track2 去训练虚拟-解析和解析-真实的图像翻译网络。图像翻译训练的细节和强化学习的细节与第 3.1 部分相同。

3.4 结果

图像分割结果 ：我们使用在 Cityscape 数据集上训练的图像分割模型来分割虚拟和真实的图像。例子如图 2 所示。图中表示，尽管原始的虚拟图像和真实的图像看起来很不一样，但它们的场景解析结果非常相似。因此将场景解析作为连接虚拟图像和真实图像的过渡过程是合理的。

现实翻译网络的定性结果 ：图 4 显示了我们的图像翻译网络的一些有代表性的结果。奇数列是 TORCS 中的虚拟图像，偶数列则被翻译成真实的图像。虚拟环境中的图像似乎比被翻译的图像更暗，因为训练翻译网络的真实图像是在晴天截取的。因此我们的模型成功地合成了与原始地面真实图像相类似的真实图像。

强化训练结果 ：在真实世界驾驶数据上学习到的虚拟-现实的强化学习结果见表 1。结果表明，我们提出的方法总体性能优于基线（ B-RL ）方法，强化学习代理在虚拟环境中接受训练，看不到任何现实的数据。有监督学习方法的整体性能最好。然而，需要用大量的有监督标记数据训练。

表1 三种方法的动作预测准确率

不同虚拟环境下的迁移学习结果见图 5。显然，标准 A3C（Oracle）在同一环境中训练和测试的性能最好。然而，我们的模型比需要在多个环境中进行训练才能进行泛化的域随机化方法更好。如[7]所述，领域随机化需要大量的工程工作来使其泛化。我们的模型成功地观察了从 E-track1 到 Cg-Track2 的翻译图像，这意味着，该模型已经在一个看起来与测试环境非常相似的环境中进行了训练，从而性能有所提高。

4 总结

我们通过实验证明， 利用合成图像作为强化学习的训练数据，代理在真实环境中的泛化能力比单纯的虚拟数据训练或领域随机化训练更好 。下一步将是设计一个更好的图像-图像翻译网络和一个更好的强化学习框架,以超越有监督学习的表现。

由于场景解析的桥梁,虚拟图像可以在保持图像结构的同时被翻译为真实的图像。在现实框架上学习的强化学习模型可以很容易地应用于现实环境中。我们同时注意到分割图的翻译结果不是唯一的。例如，分割图指示一辆汽车，但它不指定该汽车的颜色。因此，我们未来的工作之一是让解析-真实网络的输出呈现多种可能的外观（比如颜色，质地等）。这样，强化学习训练中的偏差会大幅度减少。

我们第一个提供了例子，通过与我们提出的图像-分割-图像框架合成的真实环境交互，训练驾驶汽车强化学习算法。通过使用强化学习训练方法，我们可以得到一辆能置身于现实世界中的自动驾驶车辆。

文章来源：同济智能汽车研究所

责任编辑：小阳

自动驾驶车辆避障路径规划研究综述 | 厚势汽车

周伟，李军厚势

厚势按 ：避障作为自动驾驶车辆在行驶过程中非常重要的部分，对发展自动驾驶车辆具有重要意义。文章介绍了车辆避障技术，概括了自动驾驶车辆避障所采用的传统算法和智能算法，分析了各种算法的优缺点以及改进方法。

本文来自 2018 年 5 月 25 日出版的《 汽车工程师 》，作者是 重庆交通大学 周伟和李军。

随着人工智能技术的兴起，以自动驾驶车辆为研究对象的运动路径规划问题越来越受到重视。而避障路径规划是自动驾驶车辆的关键部分，对自动驾驶车辆的研究具有重大意义。 在自动驾驶汽车行驶过程中，准确地避开障碍物是智能车辆的基本要求 。一个好的避障路径规划算法可以安全实时地避开障碍物，且具有较高的乘坐舒适性，从而提高出行效率。

【智能驾驶】智能驾驶车辆行为决策系统研究

正文

自动驾驶中的强化学习：从虚拟到现实 | 厚势汽车

自动驾驶车辆避障路径规划研究综述 | 厚势汽车

请到「今天看啥」查看全文