本文介绍来自北京航空航天大学彭浩老师团队发表在NeurlPS 2024上的一篇文章“Effective Exploration Based on the Structural Information Principles”。为了解决当前基于传统信息论的探索方法由于忽略状态-动作空间内在结构而导致效率低下的问题,作者提出了一种基于结构信息原理的探索框架,即SI2E。
SI2E通过定义结构互信息,提出一种新的状态动作表征原则,捕捉状态-动作对之间的动态关系,构建最优编码树。通过分析状态-动作对之间的价值差异,定义策略条件结构熵,构造内在奖励机制,实现对于状态-动作空间更为有效的覆盖。在MiniGrid、MetaWorld和DeepMind Control Suite等测试环境中,SI2E在最终性能与采样效率等方面的表现遥遥领先,最大提升幅度分别达到了37.63%和60.25%。
论文名称:
Effective Exploration Based on the Structural Information Principles
给定随机变量对 (X,Y) , |X|=|Y|=n ,构造一个带权无向二分图
来表示 X 和 Y 变量间的联合分布,同时限制该图上的编码树为二层近似二叉结构,并得到最优的近似二叉树
:
最优近似二叉树
中的每个中间节点
对应一个包含单一顶点 x 与单一顶点 y 的子集,从而在变量 X 与 Y 之间建立一个一一匹配结构。对于
中从左到右排序的第 i 个中间节点标记为
,在对应的子集中 x 和 y 顶点分别被标记为
和
。
为了准确定义结构互信息,需要考虑不同划分结构下两个变量的联合熵。作者引入一个应用于
的
转换算子,以系统地遍历这些变量的所有潜在一对一匹配结构,从而提供对于结构相似性的全面度量。给定一个整数参数
,该算子生成一个新的二层近似二叉树
。