专栏名称: 人机与认知实验室
北京邮电大学人机交互与认知工程实验室 联系方式:[email protected]
目录
相关文章推荐
51好读  ›  专栏  ›  人机与认知实验室

策略函数/价值函数、态函数/势函数

人机与认知实验室  · 公众号  ·  · 2024-12-03 00:00

正文

请到「今天看啥」查看全文


类似策略函数与价值函数,态函数侧重局部,而势函数侧重全局。 策略函数 ”、“ 价值函数 ”、“ 态函数 ”与“ 势函数 ”是从 强化学习 或者 物理学 (例如场论)等领域的术语出发讨论的。根据上述的描述,可以从不同的角度来理解它们的侧重点。下面将尝试分别解释这几个概念,并探讨它们在局部与整体方面的区别。

1. 策略函数 价值函数


这两个概念常见于 强化学习 中,它们描述的是智能体在决策过程中的行为与评估方式。


策略函数 定义了在某一状态下,智能体应该采取什么样的动作,可以是一个 局部决策 的描述,因为它聚焦在 每个状态下 选择的动作。换句话说,策略函数告诉我们在某个特定的状态下,采取哪个动作能最大化长期回报(或期望回报)。 形式

π ( s ) = a ,即在状态 s 下选择动作 a 局部性 :它是对单一状态下的决策的映射,因此它侧重于局部优化。


价值函数 用来衡量在某一状态下,按照当前策略所能获得的预期回报。它不仅仅关注当前的动作选择,而是评估在该状态下的长期收益,因此相较于策略函数,价值函数具有一定的“全局性”,因为它考虑了未来的回报。 形式 V ( s ) 是在状态 s 下所能获得的预期回报。 全局性 :价值函数通常是基于整个状态空间的评估,关注全局的回报。


2. 态函数 势函数


这两个术语更多出现在 物理学 领域,尤其是 经典力学 量子力学 或者 场论 中,但在某些强化学习框架中也有相似的使用方式。


在物理学中, 态函数 描述的是一个系统的状态,如位置、动量等。在一个特定的时刻,系统的 状态函数 包含了关于系统的所有信息,因此它是 局部的 。在强化学习中,状态函数可以看作是系统(或环境)在某一时刻的状态描述,它侧重于局部信息。


势函数 通常描述的是系统中相互作用的整体影响,如重力场、电场等。它与系统的 整体状态 有关,而不仅仅是单一位置的属性,因此势函数具有 全局性 。在强化学习中,势函数有时被用来描述一个 全局的奖励结构 ,引导智能体朝着目标前进。例如,在某些情况下,势函数可以用来定义一个奖励信号的形式,指导智能体如何探索环境。


3. 局部与全局的关系


从上述概念中可以看出, 局部性 全局性 是这两个领域中的关键区别: 局部性 如策略函数、态函数,它们关注的是特定状态或特定局部区域的决策或描述。 全局性 如价值函数、势函数,它们通常反映的是系统的整体行为或状态,强调长期或整体的效果。


4. 综合对比


策略函数 侧重于每个状态下采取的行动,是一种局部的决策策略。 价值函数 则从全局的角度评估一个状态的长期收益,考虑的是所有后续可能的状态和回报。


态函数 在物理学中描述的是系统在特定时刻的状态,它也是局部的描述。 势函数 则描述系统中的一种 全局潜力 ,它影响系统的整体行为或状态,常常是通过全局场的影响来描述物体之间的相互作用。


可以理解为, 策略函数 态函数 侧重于局部的决策或状态描述,而 价值函数 势函数 则侧重于从整体或全局的角度来描述系统的长期或潜在行为。两者在应用中的互补关系使得在具体问题的求解过程中,局部信息和全局信息相结合,共同推动了系统的优化与演化。


为了更好地理解 策略函数 态函数 价值函数 势函数 在局部与全局角度上的差异,我们可以通过一些实际的例子来进行说明。这里我们结合 强化学习 物理学 中的场景进行类比。


1. 策略函数 态函数 —— 局部决策或状态描述


例子 1: 强化学习中的策略函数

在一个 迷宫导航 的任务中,智能体(例如机器人)被要求从迷宫的起点走到终点。智能体在迷宫中的每一个位置(状态)都会面临多个可能的动作(比如向上、向下、向左、向右)。在这个情境下, 策略函数 就是定义了智能体在每一个位置(状态)下,应该采取什么动作。 策略函数 描述的是在某一特定状态下(例如迷宫的某个房间或路径上),智能体应该选择哪个动作。例如:

  • 在状态 s 1 (迷宫中的某个位置),策略函数 π ( s 1 ) 可能告诉智能体向右走。
  • 在状态 s 2 ,策略函数 π ( s 2 ) 可能告诉智能体向上走。


局部性 :策略函数关注的是在每一个 单一状态 下的决策,这些决策是基于当前状态的局部信息做出的。智能体每做一次决策,都会根据当前所在的状态作出选择。


例子 2: 物理中的态函数

热力学 中, 态函数 (如内能、温度、压强)描述了系统在某一时刻的状态。假设我们有一个气体系统,状态函数可以告诉我们在某个特定时刻气体的温度和压强。 在某一时刻,如果我们测量气体的温度 T 和压强 P ,这些数据就构成了 态函数 的值。这些量直接反映了气体在该状态下的局部信息。

局部性 :态函数描述的是系统在特定时刻的状态,关注的是当前系统的局部性质。


2. 价值函数 势函数 —— 全局或长期潜在行为


例子 1: 强化学习中的价值函数

在强化学习中, 价值函数 用来评估在某一状态下,按照当前策略行动后能获得的 长期回报 。它考虑的是从某一状态开始,智能体将如何通过一系列的动作到达终点,并获得奖励。因此, 价值函数 不仅关心当前状态,还考虑了未来的所有状态。 假设在迷宫问题中,智能体当前处于状态 s 1 ,并且该状态的 价值函数 V ( s 1 ) 估计了从状态 s 1 开始,智能体能够获得的总回报(包括所有后续的奖励)。如果从状态 s 1 开始的回报较高,那么价值函数的值会较大。

  • 全局性 :价值函数通过评估整个状态空间的长期回报,反映了系统的 全局优化 ,并考虑了未来状态的潜在影响。


例子 2: 物理中的势函数

在物理学中, 势函数 (如重力势能、电势能)通常描述一个物理系统中各个部分之间的相互作用或影响。例如,在地球的引力场中,每个物体都有一个与其位置相关的 重力势能

  • 假设一个物体在地球表面,物体的重力势能 U ( x ) 由物体距离地球表面的高度 x 决定,势函数 U ( x ) 描述了物体从当前位置(如高度 x )到达地球中心的潜在能量。势能反映的是物体在整个引力场中的相对位置,它不仅依赖于当前状态,还影响着物体未来的运动轨迹。

全局性 :势函数考虑的是系统中整体的 潜在能量分布 ,它描述了各个部分之间的相互关系及未来可能的变化。它是对系统全局行为的描述,影响物体的整体运动和状态变化。


策略函数 态函数 局部的 策略函数 关心的是在某一特定状态下,智能体应该采取什么动作,是局部的决策问题。 态函数 描述的是系统在某一时刻的局部状态,例如气体的温度和压强。而 价值函数 势函数 全局的 价值函数 考虑的是从某一状态开始,智能体能够获得的长期回报,是全局的评估。 势函数 描述的是物理系统中各个位置之间的潜在能量分布,影响系统的整体行为。 通过这些例子,我们可以看到,局部决策和状态描述聚焦于单一时刻或单一位置,而全局行为和潜力描述则强调了整体的长期影响和相互关系。









请到「今天看啥」查看全文