【博士论文】价值导向强化学习基础探索

数据派THU · 公众号 · 大数据 · 2024-10-20 17:42

正文

来源：专知
本文约2500字，建议阅读5分钟
论文提出了一种修正方法，以更好地对齐这些目标，从而提供了更准确的预测目标。

价值导向强化学习是一种序列决策方法，通过对未来回报的长远预测来指导决策。本论文旨在理解价值导向方法所面临的问题，并提出算法思想以解决这些问题。论文详细介绍了改进价值导向方法的三个贡献领域。第一个贡献领域扩展了用于固定时域预测的时序差分方法。无论问题设置如何，使用固定时域的回报近似可以避免困扰基于函数近似的离策略时序差分方法的已知稳定性问题。第二个贡献领域提出了一个价值感知的重要性权重框架用于离策略学习，并推导出其最小方差实例。这一方法缓解了基于重要性采样的离策略修正中的方差问题。最后，第三个贡献领域指出在离散时间与连续时间回报之间存在不一致性，当其中一个被视为另一个的近似时，这一差异尤为明显。为此，论文提出了一种修正方法，以更好地对齐这些目标，从而提供了更准确的预测目标。在面对可变时间离散化时，这种方法在底层积分回报方面提高了控制性能。

现实世界广袤无垠，因此很难考虑到每一种可能的情况。在机器人等应用中，这种广袤性通常通过构建受控、人工的小世界来管理，从而精简所需考虑的情境空间。克服这一需求，即在具有严格操作条件的小世界中进行设计，是追求创造通用智能系统的重要一步。认识到无法涵盖所有情况，现实世界因此表现出非平稳性，这需要具备从自身的传感器和运动经验流中学习的能力，并适应新情境。

强化学习是一个框架，它形式化了代理与环境的交互界面，在该界面中，代理通过评估反馈来学习预测和控制。代理通过持续观察其情境、采取行动并观察行动结果，生成一系列交互经验。观察到的结果中包括一个奖励信号，该信号逐步评估代理的决策，并最终指定代理的目标，即在一段时间内最大化长期累积的奖励。

基于价值的方法是一种强化学习方法，它通过预测代理行为的长期后果来指导决策。具体而言，基于价值的代理学习预测每个行动可能带来的期望未来回报，若预测准确，代理可以选择最具前景的行动。时序差分学习是许多基于价值的强化学习方法的核心思想。时序差分方法的特点在于根据观察到的即时结果及其后续预测来调整当前预测。通过信任预测的后续结果，代理无需等待长期结果即可立即从每次决策中学习。

基于价值的代理对未来回报的预测可以理解为回答一个行为条件下的预测性问题：给定某种行为方式，从当前起在某个时间范围内预期可以获得多少奖励？一般化价值函数（GVF）框架扩展了这些语义，可用于预测任意感兴趣信号的行为条件下长期累积值。在该框架下，基于价值的代理能够通过其传感器和运动经验流中的反馈，逐步学习任何感兴趣信号的行为依赖长期累积值。值得注意的是，这些预测问题的所有答案都可以并行学习。

基于价值的方法在实践中取得了巨大的成功，无论是直接指导行为（Tesauro, 1995；Mnih et al., 2015），还是为较复杂系统的其他组件提供信息（Silver et al., 2016；Wurman et al., 2022）。尽管如此，当使用其他预测来更新预测（自举），试图预测如果采取不同行为会发生什么（离策略学习），以及使用函数逼近时，基于价值的方法可能会出现发散。在这三种因素同时存在的情况下的稳定性问题被称为“致命三角”。该问题在使用线性函数逼近时被广泛研究（Baird, 1995；Scherrer, 2010；Mahmood, 2017；Sutton 和 Barto, 2018），在使用非线性函数逼近时也有一些实证研究（van Hasselt et al., 2018）。为了应对“致命三角”，已提出多种算法（Sutton et al., 2009；Maei, 2011；Baird, 1995；Sutton et al., 2016；Mahmood, 2017），但在高方差和相对较慢的收敛速度方面仍有实际考量（Baird, 1995；Hackman, 2012；Ghiassian et al., 2018；Ni, 2020）。

在本论文中，我们旨在从实践问题出发，理解基于价值的方法在序列决策中所面临的挑战以及其在评估性反馈中的应用潜力。在此基础上，我们进一步提出算法思想，以改进或补充现有的基于价值的技术。我们的贡献主要包括以下几个方面：

我们的第一组贡献提出了基于固定时域回报的稳定强化学习方法，适用于各种问题设置。具体而言：

我们展示了在使用非递归自举的组合GVF时，通过预测固定时域可以避免“致命三角”。
我们从灵活的预测能力角度刻画了组合GVF，并展示了n步自举、时序抽象和并行化如何应对计算挑战。
我们在经典反例上进行了实证评估，展示了固定时域方法的收敛性，并分析了预测时域硬截断的影响，并在控制问题上展示了相较于无限时域算法的改进。
我们提出了一种方法，使行为可以明确地考虑大量的固定时域GVF，提供了一种隐式的逐步加深直觉，并与仅考虑最远时域的方法进行了比较。

我们的第二个贡献围绕使用基于价值的重要性权重进行离策略修正。具体而言：

我们引入了基于价值的重要性权重框架，这是一类更广泛的乘性重要性权重，考虑了随机变量的样本空间。
我们推导出最小方差实例的闭式表达式，并通过实证描述可以预期的方差降低效果。
我们推导出多步逐决策估计器，以扩展这些权重用于序列修正，并使用该估计器扩展现有离策略算法。
我们实证评估了含基于价值的权重的离策略算法，展示了相较于传统重要性权重在价值估计方面的改进。

我们的第三组贡献识别了在将离散时间算法直接应用于离散化连续时间环境时产生的时间离散化依赖问题。在该研究中：

我们将离散时间强化学习目标视为其连续时间对应物的近似，指出其计算了不典型的黎曼和。
我们认为这一不典型的黎曼和相比于常规的右端点黎曼和在积分近似上较差，并以实验证明支持这一观点。
我们提出了一个简单的修改，将离散时间目标改为右端点黎曼和，以在积分近似误差上改善预测目标而不影响通用性。
我们展示了该修改在存在可变时间离散化时的控制性能提升，从而最大化连续时间目标。

论文组织如下：第2章提供了本论文贡献的相关背景信息。第3、4和5章分别对应并详细介绍了上述的三个贡献领域。值得注意的是，贡献领域相互独立，因此相应章节可以按任何顺序阅读。第6章总结了论文内容，并提出了总结性评论。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU