专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

自动驾驶决策规划---不确定性感知的决策过程

智能车情报局 · 公众号 · · 2025-01-27 20:23

正文

👀

导读

作者：胖胖橙，江苏大学，自动驾驶算法工程师。

原文来自知乎，地址：

https://zhuanlan.zhihu.com/p/11652672895

本文只做学术/技术分享，如有侵权，联系删文。

决策过程的引入

有了planning，为什么还需要decision-making？

key Point： 交互性、不确定性！

Geometric World（几何世界）--> Probabilistic World（概率世界），几何世界关注的是空间的静态性质，而概率世界关注的是动态的、不确定的过程。

在自动驾驶系统中， planning （规划）和 decision-making （决策）虽然紧密相关，但它们各自扮演着不同的角色，都是确保自动驾驶车辆安全、高效运行的重要组成部分。

a.Planning（规划）

规划通常指的是自动驾驶系统中的路径规划功能。它的核心任务是基于车辆的当前位置、目标位置以及周围环境信息，生成一条从起点到终点的最优路径。这包括：

全局路径规划： 在高层次上，规划出从起点到目标地点的最佳路径，这可能涉及跨越多个道路段、交叉口等。
局部路径规划： 在每个时刻，根据当前环境和交通状况，调整并优化行驶路径。
避障： 处理动态障碍物（如行人、其他车辆）和静态障碍物（如路障）的问题，确保路径的安全性和有效性。

b.Decision-Making（决策）

决策涉及在复杂的交通环境中做出具体的驾驶决策。这包括：

交通规则遵循： 遵守交通信号灯、标志、限速等规则。
交互决策： 与其他交通参与者的互动，例如在复杂交叉口时如何选择合适的行驶策略，或者如何应对突发状况（如另一辆车突然变道）。
优先级处理： 决定在某些情况下的优先权问题，比如在遇到紧急车辆时的让行策略。

c.为什么都需要？

复杂性和动态性： 虽然路径规划可以为车辆提供一条理想的路线，但现实世界中情况复杂且不断变化。决策系统需要实时处理各种动态因素，如其他车辆的行为、交通信号的变化等。
安全性： 决策系统确保车辆在实际道路上安全行驶，通过对各种复杂情况的判断，调整规划结果以应对意外和突发事件。
交通规则和法规： 规划可能无法完全满足所有交通规则的要求，决策系统负责确保车辆在遵守交通法规的同时执行适当的行驶策略。

决策规划的一些思考

在运动规划和控制模块的基础上，为什么还需要决策过程？

对于下图的场景，自车实际可以采取不同的action，包括，让行、抢道等等。

每种方案实际上对应一种决策，每种决策实际上对应一簇规划。

不同的决策方案

智能驾驶决策的应用场景：路径规划、交通行为预测、避障决策、交叉路口处理、自主停车、道路选择等等。

关键问题：决策问题如何定义，决策空间如何求解？

所有的障碍物存在一定的概率分布，包括感知不确定、预测不确定等；
自车做出一定的action后，对手车也会做出相应的动作，并且状态转移过程为随机过程，不易建模；

MPDM：Multipolicy Decision-Making

多策略决策 (考虑与他车的交互)

论文链接：MPDM: Multipolicy decision-making in dynamic, uncertain environments for autonomous driving
其他资料参考：论文推土机：MPDM: Multipolicy Decision-Making in Dynamic, Uncertain Environments for Autonomous Driving

MPDM 主要工作：

将车辆行为建模为合理、安全的策略，减少不确定性；（desire policy：变道、保持、减速，每个交通参与者（包括自车和其他车辆）的策略从一个有限的策略集合Ⅱ中选择）
通过前向模拟考虑其他车对自身的影响；（forward simulation：基于当前状态和policy，推演出各个交通参与者未来一段时间的状态，模拟出未来可能的场景）
评估不同策略下的模拟结果，选择最优策略；

MPDM 摘要

2.1 决策过程问题描述：

建模自车动作以及其他车的动作，关键：其他车如何建模？（如何预测出其他车的状态？）

目标：选择决策周期

H

中奖励期望最大的策略

\pi ^{*}

，即：

\pi ^{*} =argmax_{\pi } {\textstyle \sum_{t=0}^{H}}\gamma ^{t} \int_{x_{t}}^{}R(x_{t})p(x_{t})dx_{t}

符号定义：

$\nu \in V$ ：代表交通参与者集合，其中包含自车和周围车辆
$\pi \in Ⅱ$ ：决策策略（policy）
$x_{t}$ ：当前场景状态，包括自车位置、速度等信息，以及其他车辆的状态
$a_{t}$ ：动作集合，包括自车和其他车辆的行为选择（如加速、减速、变道等）
$z_{t}$ ：观测信息（可能是传感器感知结果，如车辆位置、速度等）
$R(x_{t})$ ：奖励函数，衡量某一状态下的优劣（例如安全性、高效性）
$\gamma ^{t}$ ：折扣因子， $\gamma\in [0,1]$

联合概率密度建模 $p(x_{t+1})$

联合概率密度

p(x_{t+1})

表示从当前状态到下一时间步的状态转移概率，定义为：

p(x_{t+1})=\int_{x_{t}}^{} \int_{a_{t}}^{} \int_{z_{t}}^{} p(x_{t+1}|x_{t};a_{t})p(z_{t}|x_{t})p(a_{t})p(x_{t})da_{t}dz_{t}dx_{t}

其中：

$p(x_{t+1}|x_{t};a_{t})$ ：描述在给定当前状态 $x_{t}$ 和动作 $a_{t}$ 后，状态如何转移到 $x_{t+1}$ 。
$p(z_{t}|x_{t})$ ：描述观测噪声对状态 $x_{t}$ 的影响。
$p(a_{t})$ ：动作的分布，描述可能采取的行为。
$p(x_{t})$ ：当前状态的先验概率。

这一步通过积分对所有可能的状态、动作和观测取平均，得到

x_{t+1}

的联合概率密度。

假设每辆车的瞬时行为是独立

假设每辆车的瞬时行为相互独立，这使得联合概率密度可以表示为各车辆独立概率的乘积，自车和其他车辆的行为通过各自的状态转移模型

p(x_{t+1}^{v}|a_{t}^{v})

描述。

单辆车的状态转移概率建模为：

p^{v} (x_{t}^{v},x_{t+1}^{v},z_{t}^{v},a_{t}^{v})=p(x_{t+1}^{v}|x_{t}^{v},a_{t}^{v})p(a_{t}^{v}|z_{t}^{v})p(z_{t}^{v}|x_{t}^{v})p(x_{t}^{v})

联合概率密度公式为：

px(_{t+1} )=Ⅱ_{\nu\in V} \int \int \int p^{V} (x_{t+1}^{v}|x_{t}^{v},a_{t}^{v},z_{t}^{v})p(a_{t}^{v}|z_{t}^{v},x_{t}^{v})p(z_{t}^{v}|x_{t}^{v})p(x_{t}^{v})da_{t}^{v}dz_{t}^{v}dx_{t}^{v}

px(_{t+1} )=Ⅱ_{\nu\in V} \int \int \int p^{V} (x_{t}^{v},x_{t+1}^{v},z_{t}^{v},a_{t}^{v})da_{t}^{v}dz_{t}^{v}dx_{t}^{v}

2.2 决策过程的近似

自车与他车按照一定的策略，去做前向传播，其他车是否可以建模为desire的policy？

给定一个policy，用trajectory optimization 的方式或者model-based (IDM方法)去模拟其他车辆的行为，然后对不同的策略进行打分评估，得到当前最优的策略选择。

单车的联合概率表达

单车的联合概率密度可以表示为：

p^{v} (x_{t+1}^{v},x_{t}^{v},z_{t}^{v},a_{t}^{v})=p(x_{t+1}^{v}|x_{t}^{v},a_{t}^{v})p(a_{t}^{v}|z_{t}^{v})p(z_{t}^{v}|x_{t}^{v})p(x_{t}^{v})

这一公式的意义为：

$p(x_{t+1}^{v}|x_{t}^{v},a_{t}^{v})$ ：描述车辆的状态转移模型（即物理上的运动学模型），假设策略为闭环系统。
$p(a_{t}^{v}|z_{t}^{v},x_{t}^{v})$ ：描述车辆在当前观测 $z_{t}^{v}$ 和当前状态 $x_{t}^{v}$ 下，采取某种动作 $a_{t}^{v}$ 的可能性。
$p(z_{t}^{v},x_{t}^{v})$ ：描述给定状态下的观测模型。
$p(x_{t}^{v})$ ：描述车辆在当前时刻 $tt$ 的状态分布。

通过对

z_{t}^{v}

、

a_{t}^{v}

、

x_{t}^{v}

积分，可以得到

v

车辆在下一时刻的状态分布

p(x_{t+1}^{v})

。

考虑策略的引入

MPDM 通过假设每辆车由特定的策略（policy）来进行预测，即：从有限的离散集合中选择策略。策略用

\pi _{t}^{v}

表示，其对每辆车的动作分布起决定性作用。在引入策略后，概率公式修改为：

p^{v} (x_{t+1}^{v},x_{t}^{v},z_{t}^{v},a_{t}^{v},\pi _{t}^{v})=p(x_{t+1}^{v}|x_{t}^{v},a_{t}^{v})p(a_{t}^{v}|z_{t}^{v},x_{t}^{v},\pi _{t}^{v})p(\pi _{t}^{v}|x_{t}^{v})p(z_{t}^{v}|x_{t}^{v})p(x_{t}^{v})

这一公式引入了策略选择的影响：

$p (a_{t}^{v}|z_{t}^{v},x_{t}^{v},\pi _{t}^{v})$ ：描述车辆在某一策略下的动作选择概率。
$p (\pi _{t}^{v}|,x_{t}^{v})$ ：描述车辆可能选择某一策略的概率。

相较于之前的公式，动作的选择

p(a_{t}^{v})

由策略

\pi _{t}^{v}

控制，这使得 MPDM 可以更精确地模拟其他车辆的行为。

论文中，对这部分的公式有比较详细的推导。具体可参考原文。

2.3 策略选择流程

伪代码的核心步骤

1.输入输出：

输入：
$Ⅱ$ ：包含所有车辆的候选策略集合，包括自车和其他车辆可能的策略。
$p(x_{0})$ ：当前的状态概率分布，包括自车和其他车辆的状态信息。
$H$ ：决策的规划周期。
输出：选定的最优策略及该策略的得分。

2.初始化策略集合

Ⅱ_{\bigtriangleup }

：

筛选可行的策略：
遍历所有策略 $pi\in Ⅱ$ 。
判断该策略是否对当前状态 $x_{0}$ 可行。
如果可行，则将该策略加入集合 $Ⅱ_{\bigtriangleup }$ 。

3.前向模拟和得分计算：

对于 $Ⅱ_{\bigtriangleup }$ 中的每个策略 $\pi$ ：
调用 SIMULATEFORWARD，模拟在规划周期 $H$ 内车辆按照策略 $\pi$ 的行为。
调用 COMPUTESCORE，根据模拟结果计算该策略的评分。
将策略和评分的二元组 $(\pi ,c)$ 加入评分集合 $C$ 。

4.策略选择：

从评分集合 $C$ 中选出评分最高的策略 $\pi ^{*}$ 。

2.4 实验测试

实验比较简单，并且只包含车道保持、左右变道、停车这几个有限的policy。

实验效果

变道过程：

(e) 初始状态：

当前策略：保持车道（Lane nominal）。
得分：保持车道策略得分较高（3.10），而“左变道”和“右变道”不可用（得分为 N/A）。

(f) 决策过程：

遇到慢速车辆后，系统模拟“左变道”策略（得分为 10.01，远高于保持车道 2.10），选择变道。

(g) 执行超车：

在左车道中，保持车道策略重新成为最优策略（3.11），车辆完成变道并加速。

(h) 回归原车道：

超车完成后，“保持车道”策略优先级更高（1.09），车辆返回右车道。

2.5 补充：MPDM 与 RL的区别：

MPDM： MPDM假设自车和周围车辆都有一个策略集合（policies），并从这些有限的策略集中选择最优策略来实现决策。

自车决策中心化：MPDM直接从自车的角度出发，关注的是如何选择适合当前场景的策略以优化自车的驾驶行为。
通过假设其他交通参与者的策略（如超车、并道、停车等），以及基于这些假设预测周围车辆的状态，MPDM模拟整个交通环境的动态发展。
关注高层策略选择：MPDM重点在于从一个有限的策略集合中选择最佳策略，而不是通过持续交互学习最优行为。
在线决策为核心：MPDM是一种在线算法，不需要通过大量的训练来学习模型，而是基于当前状态和假设的策略，通过前向模拟和cost函数选择最佳策略。

RL（Reinforcement Learning）： RL通常将问题建模为一个全局的马尔可夫决策过程（Markov Decision Process, MDP），通过与环境的交互反复学习最优策略，属于全局优化视角。

RL通过奖励函数和状态转移模型学习全局最优解，而不直接假设其他车辆的策略。
关注连续动作和状态空间：RL常用于学习低层的具体动作（如加速、转向等），而不仅仅是高层策略。
RL算法通常需要通过大量的训练来学习策略，例如Q-learning或深度强化学习（DRL）。这种方法需要从环境中收集数据并持续优化。

MPDM存在的问题：

policy的生命周期问题？
即使有先验分布，仍然是个组合爆炸的问题，如何提取出关键场景？
后验更新问题，随着闭环仿真，后验是变化的，决定性能上限，如何引入后验更新？

部分观测的马尔可夫决策过程

3.1 马尔科夫决策过程（Markov Decision Process,MDP）

MDP定义:

马尔可夫决策过程（Markov Decision Process, MDP）是用于建模决策问题的一种数学框架，广泛应用于强化学习和最优决策的研究中。

MDP决策问题要素

1.状态集合 S：

描述系统可能的状态集合。例如，机器人在不同位置的状态。

2.动作集合 A：

描述在每个状态下可供选择的动作集合。例如，机器人可以向左、向右、向上或向下移动。

3.状态转移概率函数 T：

表示在当前状态 s 执行动作 a 后转移到下一状态

s^{'}

的概率：

T(s,a,s^{'})=P(s^{'}|s,a)

，马尔可夫性假设的核心，即下一个状态只依赖于当前状态和动作。

4.奖励函数 R：

描述在状态

s

下执行动作

a

并转移到下一状态

s^{'}

时所获得的奖励： 𝑅 ( 𝑠 , 𝑎 , 𝑠 ′ ) = reward for ( 𝑠 , 𝑎 , 𝑠 ′ ) .奖励反映了当前动作的收益。

5.时间范围 H：

描述问题的时间跨度，可以是有限步数（H）或无限步（长期决策问题）。

马尔科夫问题定义

MDP 的目标

MDP 的目标是找到一个策略

\pi

来最大化期望累计奖励：

\pi^{*}=argmax_{\pi }\mathbb{E} [ {\textstyle \sum_{t=0}^{}H}R(s_{t},a_{t},s_{t+1})|\pi ]

其中，策略

\pi

是一个映射规则，描述了在每个状态 s 下选择哪种动作 a：

\pi :S\longrightarrow A

短期目标： 最大化下一步奖励。
长期目标： 最大化未来累计奖励的期望。

MDP 的关键性质

马尔可夫性：
下一时刻的状态 $s_{t+1}$ 只依赖于当前状态 $s_{t}$ 和当前动作 $a_{t}$ ，与过去的历史无关。
递归性（贝尔曼方程）：
累计奖励可以递归表示，便于通过动态规划方法求解最优策略。

3.2 部分观测的马尔科夫决策过程（Partially Observable MDP， POMDP）

POMDP 的定义

POMDP 是对 MDP 的扩展，解决了状态不可完全观测的问题，通过信念状态和概率模型，帮助智能体在复杂环境中制定最优策略。

POMDP问题要素

1.状态集合 S：

描述系统可能处于的所有状态集合。

状态

s\in S

是系统的真实状态，但对 Agent 来说通常是不可直接观测的。

2.动作集合 A：

描述智能体在每个状态下可执行的动作集合。

智能体需要根据部分观测值来选择动作。

3.状态转移概率函数 $T(s,a,s_{'})$ ：

表示在状态

s

下执行动作

a

后转移到状态

s_{'}

的条件概率。与 MDP 类似，满足马尔可夫性。

4.奖励函数 $R(s,a)$ ：

描述在状态

s

下执行动作

a

所获得的即时奖励。

5.观测集合 $\Omega$ ：

定义智能体可以感知的所有观测值的集合。观测值

0\in \Omega

是对真实状态

s

的部分信息反馈。

6.观测概率函数 $O(0|s,a)$

自动驾驶决策规划---不确定性感知的决策过程

正文

有了planning，为什么还需要decision-making？

论文链接：MPDM: Multipolicy decision-making in dynamic, uncertain environments for autonomous driving

其他资料参考：论文推土机：MPDM: Multipolicy Decision-Making in Dynamic, Uncertain Environments for Autonomous Driving

2.1 决策过程问题描述：

2.3 策略选择流程

2.4 实验测试

2.5 补充：MPDM 与 RL的区别：

部分观测的马尔可夫决策过程

3.1 马尔科夫决策过程（Markov Decision Process,MDP）

3.2 部分观测的马尔科夫决策过程 （Partially Observable MDP， POMDP）

请到「今天看啥」查看全文

3.2 部分观测的马尔科夫决策过程（Partially Observable MDP， POMDP）