专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
成都发布  ·  @成都人,“民生红包”来了,快查收! ·  昨天  
成都发布  ·  早安,成都!新闻来了 ·  昨天  
成都发布  ·  成都账本,速看→ ·  昨天  
成都本地宝  ·  最新!成都租房/购房优惠政策汇总 ·  3 天前  
51好读  ›  专栏  ›  智能车情报局

自动驾驶决策规划---不确定性感知的决策过程

智能车情报局  · 公众号  ·  · 2025-01-27 20:23

正文

👀


导读

作者:胖胖橙,江苏大学,自动驾驶算法工程师。

原文来自知乎,地址:
https://zhuanlan.zhihu.com/p/11652672895

本文只做学术/技术分享,如有侵权,联系删文。


01

决策过程的引入

有了planning,为什么还需要decision-making?


key Point: 交互性、不确定性!

Geometric World(几何世界)--> Probabilistic World(概率世界),几何世界关注的是空间的静态性质,而概率世界关注的是动态的、不确定的过程。

在自动驾驶系统中, planning (规划)和 decision-making (决策)虽然紧密相关,但它们各自扮演着不同的角色,都是确保自动驾驶车辆安全、高效运行的重要组成部分。

a.Planning(规划)

规划 通常指的是自动驾驶系统中的路径规划功能。它的核心任务是基于车辆的当前位置、目标位置以及周围环境信息,生成一条从起点到终点的最优路径。这包括:

  1. 全局路径规划: 在高层次上,规划出从起点到目标地点的最佳路径,这可能涉及跨越多个道路段、交叉口等。

  2. 局部路径规划: 在每个时刻,根据当前环境和交通状况,调整并优化行驶路径。

  3. 避障: 处理动态障碍物(如行人、其他车辆)和静态障碍物(如路障)的问题,确保路径的安全性和有效性。

b.Decision-Making(决策)

决策涉及在复杂的交通环境中做出具体的驾驶决策。这包括:

  1. 交通规则遵循: 遵守交通信号灯、标志、限速等规则。

  2. 交互决策: 与其他交通参与者的互动,例如在复杂交叉口时如何选择合适的行驶策略,或者如何应对突发状况(如另一辆车突然变道)。

  3. 优先级处理: 决定在某些情况下的优先权问题,比如在遇到紧急车辆时的让行策略。

c.为什么都需要?

  1. 复杂性和动态性: 虽然路径规划可以为车辆提供一条理想的路线,但现实世界中情况复杂且不断变化。决策系统需要实时处理各种动态因素,如其他车辆的行为、交通信号的变化等。

  2. 安全性: 决策系统确保车辆在实际道路上安全行驶,通过对各种复杂情况的判断,调整规划结果以应对意外和突发事件。

  3. 交通规则和法规: 规划可能无法完全满足所有交通规则的要求,决策系统负责确保车辆在遵守交通法规的同时执行适当的行驶策略。

决策规划的一些思考

在运动规划和控制模块的基础上,为什么还需要决策过程?


对于下图的场景,自车实际可以采取不同的action,包括,让行、抢道等等。

每种方案实际上对应一种决策,每种决策实际上对应一簇规划。
不同的决策方案

智能驾驶决策的应用场景:路径规划、交通行为预测、避障决策、交叉路口处理、自主停车、道路选择等等。

关键问题:决策问题如何定义,决策空间如何求解?

  1. 所有的障碍物存在一定的概率分布,包括感知不确定、预测不确定等;

  2. 自车做出一定的action后,对手车也会做出相应的动作,并且状态转移过程为随机过程,不易建模;


02

MPDM:Multipolicy Decision-Making
多策略决策 (考虑与他车的交互)


  • 论文链接:MPDM: Multipolicy decision-making in dynamic, uncertain environments for autonomous driving

  • 其他资料参考:论文推土机:MPDM: Multipolicy Decision-Making in Dynamic, Uncertain Environments for Autonomous Driving


MPDM 主要工作:


  1. 将车辆行为建模为合理、安全的策略,减少不确定性;(desire policy:变道、保持、减速,每个交通参与者(包括自车和其他车辆)的策略从一个有限的策略集合Ⅱ中选择)
  2. 通过前向模拟考虑其他车对自身的影响;(forward simulation:基于当前状态和policy,推演出各个交通参与者未来一段时间的状态,模拟出未来可能的场景)
  3. 评估不同策略下的模拟结果,选择最优策略;

MPDM 摘要


2.1 决策过程问题描述:


决策过程问题描述

建模自车动作以及其他车的动作,关键:其他车如何建模?(如何预测出其他车的状态?)

目标:选择决策周期 中奖励期望最大的策略 ,即:
符号定义:

  • :代表交通参与者集合,其中包含自车和周围车辆
  • :决策策略(policy)
  • :当前场景状态,包括自车位置、速度等信息,以及其他车辆的状态
  • :动作集合,包括自车和其他车辆的行为选择(如加速、减速、变道等)
  • :观测信息(可能是传感器感知结果,如车辆位置、速度等)
  • :奖励函数,衡量某一状态下的优劣(例如安全性、高效性)
  • :折扣因子,

联合概率密度建模

联合概率密度 表示从当前状态到下一时间步的状态转移概率,定义为:
其中:

  • :描述在给定当前状态 和动作 后,状态如何转移到
  • :描述观测噪声对状态 的影响。
  • :动作的分布,描述可能采取的行为。
  • :当前状态的先验概率。

这一步通过积分对所有可能的状态、动作和观测取平均,得到 的联合概率密度。

假设每辆车的瞬时行为是独立

假设每辆车的瞬时行为相互独立,这使得联合概率密度可以表示为各车辆独立概率的乘积,自车和其他车辆的行为通过各自的状态转移模型 描述。

单辆车的状态转移概率建模为:
联合概率密度公式为:
2.2 决策过程的近似

自车与他车按照一定的策略,去做前向传播,其他车是否可以建模为desire的policy?

给定一个policy,用trajectory optimization 的方式或者model-based (IDM方法)去模拟其他车辆的行为,然后对不同的策略进行打分评估,得到当前最优的策略选择。

决策过程的近似

决策过程的近似

单车的联合概率表达

单车的联合概率密度可以表示为:
这一公式的意义为:

  1. :描述车辆的状态转移模型(即物理上的运动学模型),假设策略为闭环系统。
  2. :描述车辆在当前观测 和当前状态 下,采取某种动作 的可能性。
  3. :描述给定状态下的观测模型。
  4. :描述车辆在当前时刻 的状态分布。

通过对 积分,可以得到 车辆在下一时刻的状态分布

考虑策略的引入

MPDM 通过假设每辆车由特定的策略(policy)来进行预测,即:从有限的离散集合中选择策略。策略用 表示,其对每辆车的动作分布起决定性作用。在引入策略后,概率公式修改为:
这一公式引入了策略选择的影响:

  • :描述车辆在某一策略下的动作选择概率。
  • :描述车辆可能选择某一策略的概率。

相较于之前的公式,动作的选择 由策略 控制,这使得 MPDM 可以更精确地模拟其他车辆的行为。

论文中,对这部分的公式有比较详细的推导。具体可参考原文。


2.3 策略选择流程

MPDM policy election procedure

伪代码的核心步骤

1.输入输出:

  • 输入:

  • :包含所有车辆的候选策略集合,包括自车和其他车辆可能的策略。

  • :当前的状态概率分布,包括自车和其他车辆的状态信息。
  • :决策的规划周期。
  • 输出:选定的最优策略及该策略的得分。

2.初始化策略集合

  • 筛选可行的策略:

  • 遍历所有策略
  • 判断该策略是否对当前状态 可行。
  • 如果可行,则将该策略加入集合

3.前向模拟和得分计算:

  • 对于 中的每个策略
  • 调用 SIMULATEFORWARD,模拟在规划周期 内车辆按照策略 的行为。
  • 调用 COMPUTESCORE,根据模拟结果计算该策略的评分。
  • 将策略和评分的二元组 加入评分集合

4.策略选择:

  • 从评分集合 中选出评分最高的策略

策略设计

策略选择


2.4 实验测试


实验比较简单,并且只包含车道保持、左右变道、停车这几个有限的policy。
实验效果

变道过程:

(e) 初始状态:

  • 当前策略:保持车道(Lane nominal)。

  • 得分:保持车道策略得分较高(3.10),而“左变道”和“右变道”不可用(得分为 N/A)。

(f) 决策过程:

  • 遇到慢速车辆后,系统模拟“左变道”策略(得分为 10.01,远高于保持车道 2.10),选择变道。

(g) 执行超车:

  • 在左车道中,保持车道策略重新成为最优策略(3.11),车辆完成变道并加速。

(h) 回归原车道:

  • 超车完成后,“保持车道”策略优先级更高(1.09),车辆返回右车道。


2.5 补充:MPDM 与 RL的区别:


MPDM: MPDM假设自车和周围车辆都有一个策略集合(policies),并从这些有限的策略集中选择最优策略来实现决策。

  • 自车决策中心化:MPDM直接从自车的角度出发,关注的是如何选择适合当前场景的策略以优化自车的驾驶行为。

  • 通过假设其他交通参与者的策略(如超车、并道、停车等),以及基于这些假设预测周围车辆的状态,MPDM模拟整个交通环境的动态发展。

  • 关注高层策略选择:MPDM重点在于从一个有限的策略集合中选择最佳策略,而不是通过持续交互学习最优行为。

  • 在线决策为核心:MPDM是一种在线算法,不需要通过大量的训练来学习模型,而是基于当前状态和假设的策略,通过前向模拟和cost函数选择最佳策略。

RL(Reinforcement Learning): RL通常将问题建模为一个全局的马尔可夫决策过程(Markov Decision Process, MDP),通过与环境的交互反复学习最优策略,属于全局优化视角。

  • RL通过奖励函数和状态转移模型学习全局最优解,而不直接假设其他车辆的策略。

  • 关注连续动作和状态空间:RL常用于学习低层的具体动作(如加速、转向等),而不仅仅是高层策略。

  • RL算法通常需要通过大量的训练来学习策略,例如Q-learning或深度强化学习(DRL)。这种方法需要从环境中收集数据并持续优化。

MPDM存在的问题:

  1. policy的生命周期问题?

  2. 即使有先验分布,仍然是个组合爆炸的问题,如何提取出关键场景?

  3. 后验更新问题,随着闭环仿真,后验是变化的,决定性能上限,如何引入后验更新?


03

部分观测的马尔可夫决策过程


3.1 马尔科夫决策过程(Markov Decision Process,MDP)


MDP定义:

马尔可夫决策过程(Markov Decision Process, MDP)是用于建模决策问题的一种数学框架,广泛应用于强化学习和最优决策的研究中。

MDP决策问题要素

1.状态集合 S:

描述系统可能的状态集合。例如,机器人在不同位置的状态。

2.动作集合 A:

描述在每个状态下可供选择的动作集合。例如,机器人可以向左、向右、向上或向下移动。

3.状态转移概率函数 T:

表示在当前状态 s 执行动作 a 后转移到下一状态 的概率: , 马尔可夫性假设的核心,即下一个状态只依赖于当前状态和动作。
4.奖励函数 R:
描述在状态 下执行动作 并转移到下一状态 时所获得的奖励: 𝑅 ( 𝑠 , 𝑎 , 𝑠 ) = reward for ( 𝑠 , 𝑎 , 𝑠 ) .奖励反映了当前动作的收益。
5.时间范围 H:
描述问题的时间跨度,可以是有限步数(H)或无限步(长期决策问题)。

马尔科夫问题定义

MDP 的目标

MDP 的目标是找到一个策略 来最大化期望累计奖励:
其中,策略 是一个映射规则,描述了在每个状态 s 下选择哪种动作 a:

  • 短期目标: 最大化下一步奖励。

  • 长期目标: 最大化未来累计奖励的期望。

MDP 的关键性质

  • 马尔可夫性:

  • 下一时刻的状态 只依赖于当前状态 和当前动作 ,与过去的历史无关。
  • 递归性(贝尔曼方程):
  • 累计奖励可以递归表示,便于通过动态规划方法求解最优策略。


3.2 部分观测的马尔科夫决策过程 (Partially Observable MDP, POMDP)


POMDP 的定义

POMDP 是对 MDP 的扩展,解决了状态不可完全观测的问题,通过信念状态和概率模型,帮助智能体在复杂环境中制定最优策略。

POMDP问题要素

1.状态集合 S:

描述系统可能处于的所有状态集合。

状态 是系统的真实状态,但对 Agent 来说通常是不可直接观测的。
2.动作集合 A:
描述智能体在每个状态下可执行的动作集合。
智能体需要根据部分观测值来选择动作。
3.状态转移概率函数
表示在状态 下执行动作 后转移到状态 的条件概率。与 MDP 类似,满足马尔可夫性。
4.奖励函数
描述在状态 下执行动作 所获得的即时奖励。
5.观测集合
定义智能体可以感知的所有观测值的集合。观测值 是对真实状态 的部分信息反馈。
6.观测概率函数






请到「今天看啥」查看全文