专栏名称: AI科技评论

「AI科技评论」是国内顶尖人工智能媒体和产业服务平台，专注全球 AI 业界、学术和开发三大方向的深度报道。

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论 · 公众号 · AI · 2020-02-27 13:16

正文

作者 | Wang 王

编辑 | 杨晓凡

本文介绍了一种新的元-Q学习（Meta-Q-Learning，MQL）算法，这是一种新的用于元强化学习的离线策略算法。元-Q学习主要基于以下3个朴素思想：

首先，作者证明如果允许访问表示过去轨迹的上下文变量，Q学习可与最新的元强化学习算法相媲美；

第二，利用多任务目标最大化跨训练任务的平均回报，是对强化学习策略进行元训练的有效方法；

第三，更新离线策略以不断调整新任务的策略，可循环利用来自元训练重放缓冲区的历史数据。

元-Q学习借鉴了倾向性估计的思想，从而扩充了用于自适应的可用数据量。在标准连续控制基准上的实验表明，与最新的元强化学习算法相比，元-Q学习更具有优势。

论文链接：https://openreview.net/forum?id=SJeD3CEFPH

一．研究背景与研究目标

强化学习（RL）算法在模拟数据上表现出良好的性能。然而，将这种性能赋予真实机器人面临两个主要挑战：（1）机器人的复杂性和脆弱性阻碍了广泛的数据收集；（2）机器人面临的真实环境可能不同于它被训练的模拟环境。这推动了元强化学习的研究，在大量不同环境（如模拟环境）中开发“元训练”算法，旨在适应数据量少的新环境。

图1 元强化学习性能分析

图1显示了两种典型的元强化学习算法在4个标准连续控制基准测试中的性能。将两种典型的元强化学习算法MAML（Finn等人于2017年提出）和PEARL（Rakelly等人于2019年提出）与一种称为TD3（Fujimoto等人在2018年提出）的一般Q学习算法的验证任务平均回报率进行了比较。其中TD3被修改为包含一个上下文变量（TD3-context），该变量表示任务的轨迹。即使没有任何元训练和对新任务的适应性，TD3-context也能与这些复杂算法竞争。这是论文的第一个贡献：证明没有必要为了在现有的基准测试中表现良好而使用元训练策略。

第二个贡献是建立在上述结果基础上，提出一种称为“元-Q学习”的离线策略元强化学习算法。元强化学习使用简单的元训练步骤：经过离线策略更新，最大限度地利用所有元训练任务的平均回报。

其中是对从任务获得的转换进行评估的目标。例如，单步时序差分（TD）误差将设置为。这个目标称之为多任务目标，是最简单的元训练形式。

为了使策略适应新任务，MQL从元训练重放缓冲区中采样与新任务中类似的转换。这会扩充可用于自适应的数据量，但由于潜在的较大偏差，很难做到这一点。使用倾向性估计文献中的技术来执行此调整，而MQL的离线策略更新对执行此调整至关重要。MQL解决了自适应阶段问题。

其中

是元训练回放缓冲区，倾向性得分

是属于

对

的转换

的几率，

是

和

D_{meta}之间的有效样本大小，这是新任务与元训练任务相似性的度量。第一项计算新任务的离线策略更新，第二项对旧数据执行

加权的离线策略更新，而第三项是自动适应近端项，以防止策略在适配期间恶化。

二．基本理论知识介绍

本节介绍符号并形式化元强化学习问题。在第2.2节中，讨论了估计两个概率分布之间重要性比的技术，考虑下式所示的马尔可夫决策过程（MDP）。

其中

表示状态，

表示动作，动态

由

参数化，其中每个k对应于不同的任务，分布

表示初始状态分布，

表示动态噪声。给定一个确定的策略

，在无限时间范围内

折扣的未来奖励

的动作-价值函数如下式所示。

假设不同的任务具有相同的状态和动作空间，并且它们的动态

和奖励函数

可能不同。给定一个任务

，标准强化学习形式化解决了以下问题。

用以下公式表示与任务

和策略

有关的所有状态、动作和奖励的数据集。

通常将

称为“任务”。用于求解（5）的确定性策略梯度（DPG）算法（Silver 等人，2014）通过最小化贝尔曼误差和通过求解耦合优化问题使该近似最大化的最优策略

，学习一个

参数化逼近

到最优价值函数

。

单步时序差分误差按下式定义。

这里保持

对

的完全依赖性。DPG或其基于深度网络的变体DDPG（Lillicrap等人，2015）是一种离线策略算法，这意味着（6）中的期望值是使用不需要由正在优化的策略（

）生成的数据来计算的，该数据可以来自其他一些策略。

2.1 元强化学习（META-RL）

Meta-RL是一种学习归纳偏差的技术，它通过加大训练任务量加速新任务的学习。形式上，元训练集

中任务的元训练涉及学习策略。

其中

是取决于特定方法的元训练损失。基于梯度的元强化学习，以Finn等人的MAML（2017）为例，将下式中的步长

设为

；

是式（5）非Meta-RL的目标。在这种情况下，

是任务

在对任务的策略进行一次（或通常是多次）更新之后获得的目标。这背后的想法是，即使策略

不能在

中的所有任务上都很好地执行，它也可以在新任务

上快速更新，以获得性能良好的策略。可以使用与元训练时间相同的过程来完成此操作，即通过使用策略

作为初始化来最大化

或通过其他某种适应过程来完成。Meta-RL中的元训练方法和适应方法与一般的元学习可以互不相同。

2.2 LOGISTIC回归估计倾向得分

考虑标准监督学习：给定两个分布

（比如，train）和

（比如，test），估计一个模型的预测

如何变化。这是通过重要性抽样正式完成的：

其中

是数据的真实标签，

是模型的预测，

是每个数据(x,y)的损失。重要性比

，也称为倾向得分，是两个数据密度的Radon-Nikodym导数，用于度量来自分布p对分布q的样本x的概率。实际上不知道密度q(x)和p(x)，因此需要使用从q得出一些有限数据

和p得出的一些有限数据来

估计

。对于k≤m，将

设置为

中数据的标签，将

设置为

中的数据标签，并通过求解下式将逻辑分类器拟合到合并的2m个样本上。

标准化有效样本量（）

与

相关的量是归一化有效样本量（

），将其定义为从目标分布p(x)获得样本的相对数量，该样本所需的性能估计量（例如方差）等于重要性抽样估计量（10）。不知道密度q(x)和p(x)就无法计算

，但是有很多方法可以估计

。蒙特卡洛文献中的一个流行方法如下式所示。

其中

是一些有限的批量数据。观察如果两个分布q和p接近，则

接近1；如果它们相距很远，则

接近0。

三．元强化学习

本节描述了MQL算法，首先描述了MQL的元训练过程，包括第3.1节中关于多任务训练的讨论。第3.2节描述了自适应过程。

3.1 元训练

MQL使用多任务目标进行元训练。如果在（8）式中做如下设置，令

则参数

使得它们在元训练集的所有任务上最大化平均回报。使用称为TD3的离线策略算法作为构建块，并求解下式问题。

其中TD（·）在（7）中已定义。正如TD3中的标准做法，使用由

和

参数化的两个动作值函数，并取它们的最小值来计算（7）中的目标。这种被称为“双Q学习”的技巧减少了过度估计的偏差。强调一下，（14）式是（8）式所述步骤的一个特例。以下注释说明了为什么MQL使用多任务目标，而不是例如在现有的基于梯度的Meta-RL算法中使用的元训练目标。

注释1 比较m步MAML目标（9）和使用（14）的多任务目标的临界点。可以在参数0周围执行泰勒级数展开，以获得下式。

注意所有临界点有

又有

。特别地，策略

既是多任务目标（15）的局部极大值，也是MAML的局部极大值。此外，注意（16）中的

也是梯度损失。

这提供了一种新的解释，即MAML被损失领域中无法满足单个任务的区域所吸引：

大的参数将远离

的局部最大值。参数

和

控制欠拟合，梯度阶数越大，拟合效果越差。这说明基于梯度的元学习的适应速度是以对任务的欠拟合为代价的。

3.1.1设计背景

Meta-RL中任务的标识可以看作是底层部分可观测MDP的隐藏变量。关于状态、动作和奖励的整个轨迹的最优策略。因此设计了一个依赖于

的递归上下文变量

。将zt设置为门循环单元（GRU by Choet al.（2014））模型的时间t处的隐藏状态。MQL中的所有策略

和价值函数

都受上下文的约束，实现为

和

。任何其他递归模型都可以用来设计上下文；使用GRU是因为它在丰富的表示和计算复杂性之间提供了很好的折衷。

注释2（MQL使用确定性上下文，而非不变置换）。目标是在设计上下文时简化。MQL中的上下文变量是使用现成的模型（如GRU）构建的，并且不是置换不变的。事实上，时间的方向为智能体提供了关于任务动态的关键信息，例如，在Half-Cheetah环境中向前跑和向后跑可以说是相同的状态轨迹，但顺序不同。此外，Meta-RL中的上下文变量是轨迹的确定函数。RL算法非常复杂，而且很难复现。当前基于它们的元强化技术进一步加剧了这种复杂性。作者证明一个简单的上下文变量已足够，这是一个重要的贡献。

3.2 适应新任务

接下来讨论了将元训练策略

应用于一个新的数据较少的任务Dnew的自适应过程。MQL将（2）中引入的自适应目标优化为两个步骤。

1、普通的离线策略适应：第一步是使用新数据更新策略；

二次惩罚

使参数接近

。在这一步骤中，离线策略学习至关重要，因为它具有样本效率，在求解（18）时将0初始化为

。

2、修正了策略更新的重要性比率：MQL的第二步利用元训练重放缓冲区。

元训练任务

与

是不相交的，但由于它们预计来自相同的任务分布，元训练期间收集的转换可能会被利用来适应策略。这在两个方面是很难做到的。首先，元训练转换不是来自

。第二，即使对于来自同一任务的转换，由于额外的极化误差而更新策略也是非常重要的，价值函数在以前从未选择的状态上错误率高。使用倾向得分来重新衡量转换是Fujimoto等人（2018a）在此背景下使用的条件生成模型的一个简单版本。

元强化学习迎来一盆冷水：不比元Q学习好多少

正文

一．研究背景与研究目标

请到「今天看啥」查看全文