https://zhuanlan.zhihu.com/p/11652672895
有了planning,为什么还需要decision-making?
Geometric World(几何世界)--> Probabilistic World(概率世界),几何世界关注的是空间的静态性质,而概率世界关注的是动态的、不确定的过程。
在自动驾驶系统中,
planning
(规划)和
decision-making
(决策)虽然紧密相关,但它们各自扮演着不同的角色,都是确保自动驾驶车辆安全、高效运行的重要组成部分。
规划
通常指的是自动驾驶系统中的路径规划功能。它的核心任务是基于车辆的当前位置、目标位置以及周围环境信息,生成一条从起点到终点的最优路径。这包括:
-
全局路径规划:
在高层次上,规划出从起点到目标地点的最佳路径,这可能涉及跨越多个道路段、交叉口等。
-
局部路径规划:
在每个时刻,根据当前环境和交通状况,调整并优化行驶路径。
-
避障:
处理动态障碍物(如行人、其他车辆)和静态障碍物(如路障)的问题,确保路径的安全性和有效性。
决策涉及在复杂的交通环境中做出具体的驾驶决策。这包括:
-
交通规则遵循:
遵守交通信号灯、标志、限速等规则。
-
交互决策:
与其他交通参与者的互动,例如在复杂交叉口时如何选择合适的行驶策略,或者如何应对突发状况(如另一辆车突然变道)。
-
优先级处理:
决定在某些情况下的优先权问题,比如在遇到紧急车辆时的让行策略。
-
复杂性和动态性:
虽然路径规划可以为车辆提供一条理想的路线,但现实世界中情况复杂且不断变化。决策系统需要实时处理各种动态因素,如其他车辆的行为、交通信号的变化等。
-
安全性:
决策系统确保车辆在实际道路上安全行驶,通过对各种复杂情况的判断,调整规划结果以应对意外和突发事件。
-
交通规则和法规:
规划可能无法完全满足所有交通规则的要求,决策系统负责确保车辆在遵守交通法规的同时执行适当的行驶策略。
在运动规划和控制模块的基础上,为什么还需要决策过程?
对于下图的场景,自车实际可以采取不同的action,包括,让行、抢道等等。
每种方案实际上对应一种决策,每种决策实际上对应一簇规划。
智能驾驶决策的应用场景:路径规划、交通行为预测、避障决策、交叉路口处理、自主停车、道路选择等等。
-
所有的障碍物存在一定的概率分布,包括感知不确定、预测不确定等;
-
自车做出一定的action后,对手车也会做出相应的动作,并且状态转移过程为随机过程,不易建模;
MPDM:Multipolicy Decision-Making
-
论文链接:MPDM: Multipolicy decision-making in dynamic, uncertain environments for autonomous driving
-
其他资料参考:论文推土机:MPDM: Multipolicy Decision-Making in Dynamic, Uncertain Environments for Autonomous Driving
MPDM 主要工作:
-
将车辆行为建模为合理、安全的策略,减少不确定性;(desire policy:变道、保持、减速,每个交通参与者(包括自车和其他车辆)的策略从一个有限的策略集合Ⅱ中选择)
-
通过前向模拟考虑其他车对自身的影响;(forward simulation:基于当前状态和policy,推演出各个交通参与者未来一段时间的状态,模拟出未来可能的场景)
-
评估不同策略下的模拟结果,选择最优策略;
2.1 决策过程问题描述:
建模自车动作以及其他车的动作,关键:其他车如何建模?(如何预测出其他车的状态?)
-
-
-
:当前场景状态,包括自车位置、速度等信息,以及其他车辆的状态
-
:动作集合,包括自车和其他车辆的行为选择(如加速、减速、变道等)
-
:观测信息(可能是传感器感知结果,如车辆位置、速度等)
-
:奖励函数,衡量某一状态下的优劣(例如安全性、高效性)
-
联合概率密度
表示从当前状态到下一时间步的状态转移概率,定义为:
-
:描述在给定当前状态
和动作
后,状态如何转移到
。
-
-
-
这一步通过积分对所有可能的状态、动作和观测取平均,得到
的联合概率密度。
假设每辆车的瞬时行为相互独立,这使得联合概率密度可以表示为各车辆独立概率的乘积,自车和其他车辆的行为通过各自的状态转移模型
描述。
自车与他车按照一定的策略,去做前向传播,其他车是否可以建模为desire的policy?
给定一个policy,用trajectory optimization 的方式或者model-based (IDM方法)去模拟其他车辆的行为,然后对不同的策略进行打分评估,得到当前最优的策略选择。
-
:描述车辆的状态转移模型(即物理上的运动学模型),假设策略为闭环系统。
-
:描述车辆在当前观测
和当前状态
下,采取某种动作
的可能性。
-
-
通过对
、
、
积分,可以得到
车辆在下一时刻的状态分布
。
MPDM 通过假设每辆车由特定的策略(policy)来进行预测,即:从有限的离散集合中选择策略。策略用
表示,其对每辆车的动作分布起决定性作用。在引入策略后,概率公式修改为:
相较于之前的公式,动作的选择
由策略
控制,这使得 MPDM 可以更精确地模拟其他车辆的行为。
论文中,对这部分的公式有比较详细的推导。具体可参考原文。
2.3 策略选择流程
MPDM policy election procedure
-
-
调用 SIMULATEFORWARD,模拟在规划周期
内车辆按照策略
的行为。
-
调用 COMPUTESCORE,根据模拟结果计算该策略的评分。
-
2.4 实验测试
实验比较简单,并且只包含车道保持、左右变道、停车这几个有限的policy。
-
当前策略:保持车道(Lane nominal)。
-
得分:保持车道策略得分较高(3.10),而“左变道”和“右变道”不可用(得分为 N/A)。
-
遇到慢速车辆后,系统模拟“左变道”策略(得分为 10.01,远高于保持车道 2.10),选择变道。
-
在左车道中,保持车道策略重新成为最优策略(3.11),车辆完成变道并加速。
-
超车完成后,“保持车道”策略优先级更高(1.09),车辆返回右车道。
2.5 补充:MPDM 与 RL的区别:
MPDM:
MPDM假设自车和周围车辆都有一个策略集合(policies),并从这些有限的策略集中选择最优策略来实现决策。
-
自车决策中心化:MPDM直接从自车的角度出发,关注的是如何选择适合当前场景的策略以优化自车的驾驶行为。
-
通过假设其他交通参与者的策略(如超车、并道、停车等),以及基于这些假设预测周围车辆的状态,MPDM模拟整个交通环境的动态发展。
-
关注高层策略选择:MPDM重点在于从一个有限的策略集合中选择最佳策略,而不是通过持续交互学习最优行为。
-
在线决策为核心:MPDM是一种在线算法,不需要通过大量的训练来学习模型,而是基于当前状态和假设的策略,通过前向模拟和cost函数选择最佳策略。
RL(Reinforcement Learning):
RL通常将问题建模为一个全局的马尔可夫决策过程(Markov Decision Process, MDP),通过与环境的交互反复学习最优策略,属于全局优化视角。
-
policy的生命周期问题?
-
即使有先验分布,仍然是个组合爆炸的问题,如何提取出关键场景?
-
后验更新问题,随着闭环仿真,后验是变化的,决定性能上限,如何引入后验更新?
3.1 马尔科夫决策过程(Markov Decision Process,MDP)
马尔可夫决策过程(Markov Decision Process, MDP)是用于建模决策问题的一种数学框架,广泛应用于强化学习和最优决策的研究中。
1.状态集合 S:
描述系统可能的状态集合。例如,机器人在不同位置的状态。
2.动作集合 A:
描述在每个状态下可供选择的动作集合。例如,机器人可以向左、向右、向上或向下移动。
3.状态转移概率函数 T:
表示在当前状态 s 执行动作 a 后转移到下一状态
的概率:
, 马尔可夫性假设的核心,即下一个状态只依赖于当前状态和动作。
描述在状态
下执行动作
并转移到下一状态
时所获得的奖励:
𝑅
(
𝑠
,
𝑎
,
𝑠
′
)
=
reward for
(
𝑠
,
𝑎
,
𝑠
′
)
.奖励反映了当前动作的收益。
描述问题的时间跨度,可以是有限步数(H)或无限步(长期决策问题)。
MDP 的目标是找到一个策略
来最大化期望累计奖励:
其中,策略
是一个映射规则,描述了在每个状态 s 下选择哪种动作 a:
-
马尔可夫性:
-
下一时刻的状态
只依赖于当前状态
和当前动作
,与过去的历史无关。
-
-
累计奖励可以递归表示,便于通过动态规划方法求解最优策略。
3.2 部分观测的马尔科夫决策过程 (Partially Observable MDP, POMDP)
POMDP 是对 MDP 的扩展,解决了状态不可完全观测的问题,通过信念状态和概率模型,帮助智能体在复杂环境中制定最优策略。
1.状态集合 S:
描述系统可能处于的所有状态集合。
状态
是系统的真实状态,但对 Agent 来说通常是不可直接观测的。
表示在状态
下执行动作
后转移到状态
的条件概率。与 MDP 类似,满足马尔可夫性。
定义智能体可以感知的所有观测值的集合。观测值
是对真实状态
的部分信息反馈。