专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

将门创投 · 公众号 · 科技创业 · 2024-10-16 08:22

正文

本文介绍来自北京航空航天大学彭浩老师团队发表在NeurlPS 2024上的一篇文章“Effective Exploration Based on the Structural Information Principles”。为了解决当前基于传统信息论的探索方法由于忽略状态-动作空间内在结构而导致效率低下的问题，作者提出了一种基于结构信息原理的探索框架，即SI2E。

SI2E通过定义结构互信息，提出一种新的状态动作表征原则，捕捉状态-动作对之间的动态关系，构建最优编码树。通过分析状态-动作对之间的价值差异，定义策略条件结构熵，构造内在奖励机制，实现对于状态-动作空间更为有效的覆盖。在MiniGrid、MetaWorld和DeepMind Control Suite等测试环境中，SI2E在最终性能与采样效率等方面的表现遥遥领先，最大提升幅度分别达到了37.63%和60.25%。 ‍ ‍ ‍

论文名称：

Effective Exploration Based on the Structural Information Principles

论文链接：

https://penghao-bdsc.github.io/papers/Effective%20Exploration%20Based%20on%20the%20Structural%20Information%20Principles.pdf

代码链接：

https://github.com/SELGroup/SI2E

一、引言

在强化学习（RL）领域，智能体探索和利用行为之间平衡至关重要，尤其在高维度观测和稀疏奖励的场景中。最近，基于传统信息论的探索方法在自监督设置中最大化对于状态空间与动作空间的覆盖，以优化智能体策略并减轻次优结果的风险。然而，上述方法存在两个挑战，目前尚未解决：

挑战1：传统最大熵策略容易受到价值分布影响，导致偏向于低值状态的不平衡探索

为减轻这一问题，该团队引入了以策略值为条件的高维结构熵。基于对状态-动作对的价值估计解析层次化社区结构，并依据智能体探索行为定义内在奖励，构建奖励塑形机制，在最大化整个状态-动作空间的覆盖的基础上，避免对于低值社区的无效覆盖。

挑战2：当前的结构信息研究存在单一变量限制，并未涉及对多变量之间的关系建模

在这项工作中，作者提出了结构互信息的概念，首次实现对于多变量之间结构相似性的度量，进一步提出对于状态-动作对的表征原则，在捕捉环境动态信息的同时，避免无效的观测干扰。

图1说明了一个简单的六状态马尔可夫决策过程 (MDP)，其中包含四个动作。如图例所示，蓝线和红线的不同密度代表不同的动作，导致状态转换，旨在返回初始状态。实线特别表示动作和。状态和之间的转换被视为冗余，因为它们不利于实现有效返回的主要目标。

因此，状态-动作对和具有较低的策略值。最大化状态-动作香农熵的策略将涵盖所有可能的转换（蓝色）。相反，整合固有状态-动作空间结构的最大熵策略会将这些冗余的状态-动作对划分为顶点子社区，并最小化该子社区的熵以避免不必要地访问它。同时，它最大化了状态-动作熵，从而最大限度地覆盖了更有可能在简化的五状态 MDP 中促成期望结果的转换（红色）。

结构互信息

该团队解决了现有结构信息原理中普遍存在的单变量约束，并引入了结构互信息的概念，以便在SI2E 框架内进行后续的状态-动作表示学习。

给定随机变量对 (X,Y) ， |X|=|Y|=n ，构造一个带权无向二分图来表示 X 和 Y 变量间的联合分布，同时限制该图上的编码树为二层近似二叉结构，并得到最优的近似二叉树：

最优近似二叉树中的每个中间节点对应一个包含单一顶点 x 与单一顶点 y 的子集，从而在变量 X 与 Y 之间建立一个一一匹配结构。对于中从左到右排序的第 i 个中间节点标记为，在对应的子集中 x 和 y 顶点分别被标记为和。

为了准确定义结构互信息，需要考虑不同划分结构下两个变量的联合熵。作者引入一个应用于的转换算子，以系统地遍历这些变量的所有潜在一对一匹配结构，从而提供对于结构相似性的全面度量。给定一个整数参数，该算子生成一个新的二层近似二叉树。

下图给出了一个对于上述过程的直观解释。

结构互信息定义：

结构互信息与传统互信息之间的关系：

二、SI2E框架设计

所提出SI2E框架的详细设计如下图所示，主要包含状态动作表征与智能体探索模块。

2.1 状态动作表征

2.1.1 结构互信息原理

为了有效地学习与环境动态信息相关的状态-动作表示，作者提出了一种创新的表征原则，该原则最大化了与后续状态的结构互信息，并最小化了与当前状态的结构互信息。

在该阶段，作者利用编码器和将当前观察值和表示为状态和，并生成对于元组的潜在表示。通过构建无向二部图和，作者分析与当前状态和随后状态的联合分布。

通过计算互信息和，作者基于信息瓶颈(IB)，提出了一种表征原则，旨在最小化同时最大化。当与之间的联合分布呈一一对应时，它们的互信息达到最大值，这表明每个值都有唯一值与之对应，反之亦然。因此，结构互信息可以被认为是获取动态相关状态-行为表示的理想学习目标。

2.1.2 表征学习目标

在研究中，由于直接最小化存在计算挑战，作者提出了一个变分上界

，将最小化转化为最小化和。通过利用一个可行的解码器来近似的边缘分布，得出了的一个上界。

同时，为了降低条件熵，作者引入了一个预测目标，通过解码器来近似条件概率。同时，为了有效优化，作者最大化其下界。通过使用一个替代解码器来近似条件概率，得到了的一个下界。

2.2 最大结构熵探索

作者设计了一个独特的内在奖励机制，以解决传统熵策略中对低价值状态的不平衡探索的挑战。具体来说，基于策略函数生成了状态-动作空间的层次化社区结构，并依据智能体访问概率定义价值条件结构熵，实现更为有效的最大化覆盖探索。

2.2.1 分层状态-动作结构

作者从智能体与环境的交互历史中提取状态-动作对，形成一个完整的图，其中反映了智能体策略引起的价值关系。在这个图中，任意两个顶点和通过一条无向边连接，其权重由状态-动作对和的策略值差异确定。通过最小化图的二维结构熵，生成了二层最优编码树。该树描述了状态-动作顶点之间的分层社区结构，根节点涵盖所有顶点，每个中间节点对应于一个子社区，其中的顶点共享相似的策略值。

2.2.2 值条件结构熵

为了衡量智能体探索在状态-动作空间中的覆盖程度，作者构建了一个额外的分布图，与原图共享相同的顶点集。对于所有状态-动作对，给定正的访问概率，作者证明了该加权、无向、连通图的存在性，其中每个顶点的度数与其访问概率成正比。

在图中，状态-动作顶点集合为，状态-动作子社区集合为。与这些集合的访问概率分布相关联的香农熵分别表示为和，其中