伯克利提出时序差分模型TDM：让深度强化学习更像人类_AI前线的专栏文章_微信文章

译者 | Liu Zhiyong

编辑 | Natalie

AI 前线导读： 从经验中学习的智能体通常基于强化学习。强化学习算法一般可分为两类：学习策略或价值函数的无模型，以及学习一种动态模型的基于模型。虽然无模型的深度强化学习算法能够学习大量的机器人技能，但它们会有非常高的样本复杂度，通常需要数百万个样本才能获得良好的性能，而且通常只能一次学习一项任务。这些算法的高复杂性和不灵活性阻碍了它们在现实世界中被广泛用于学习移动技能。而基于模型的强化学习算法通常被认为是更有效率的。

然而为了实现好的效率样本，这些传统的基于模型的算法使用相对简单的函数近似器，不能很好地概括复杂任务，或概率性的动力学模型。这个难题究竟如何解决？让我们来看看加州大学伯克利分校的博士生 Vitchyr Pong 在伯克利人工智能研究院官博发布的博文《TDM: From Model-Free to Model-Based Deep Reinforcement Learning》，或许你会有一种醍醐灌顶的感觉。

更多优质内容请关注微信公众号“AI 前线”，（ID：ai-front）

你决定骑自行车从加州大学伯克利分校的住处到金门大桥。这是一段 20 英里的美妙旅程，但是有个问题：你从来没有骑过自行车！更糟糕的是，你是湾区的新人，而你只有一张地图，那要如何开始呢？

让我们先搞清楚大家都是如何学会骑自行车的。

有一种策略是进行大量的学习和规划：阅读如何骑自行车的书籍、研究物理学和解剖学。计划出你为了应对每个扰动做出的所有肌肉运动。这种方法看起来高大上，但是对于任何学过骑自行车的人来说，都知道这种策略注定要失败。学骑自行车的方法只有一种：试错。有些任务，像骑自行车这样的任务，真的太复杂了，以至于根本无法在脑子里预先计划好。

AI 前线注：试错（trial and error）是一种用来解决问题、获取知识的常见方法。此种方法可视为简易解决问题的方法中的一种，与使用洞察力和理论推导的方法正好相反。在试错的过程中，选择一个可能的解法应用在待解问题上，经过验证后如果失败，选择另一个可能的解法再接着尝试下去。整个过程在其中一个尝试解法产生出正确结果时结束。

一旦你学会了骑自行车，你将如何到达金门大桥呢？你可以重复使用试错策略。随便转几圈，看看你是否在金门大桥上。但不幸的是，这种策略需要耗费很长的时间。对于这类问题，计划是一个更快的策略，并且只需相当少的实际经验及更少的试错。用强化学习的术语来讲，它更具有样本效率（sample-efficient）。

左：一些可通过试错学到的技能。右：其他时候，提前计划比较好。

虽然简单，但这个思维实验突出了人类智能的一些重要方面。对于某些任务，我们采用试错法；而对于其他任务我们则使用规划的方法。在强化学习中也出现了类似的现象。按照强化学习的说法，实证结果表明，一些任务更适合无模型（试错）方法，而另一些则更适合基于模型的（规划）方法。

上面这个骑自行车的比喻，也强调这两个系统并非完全独立。特别是，说学骑自行车只是试错法的过分简单化。事实上，当你通过试错法来学骑车的时候，你也会运用一些计划。也许你最初的计划是“不要跌倒”。随着你的进步，你就会做出更加雄心勃勃的计划，如“往前骑两米而不会跌倒”。最终，你骑车技巧炉火纯青，这时你可以开始以非常抽象的方式进行规划（如“骑车到这条路的尽头。”），剩下所有的事就是规划，而无须再担心骑车的细节了。我们目睹了从无模型（试错）策略逐步过渡到基于模型的（规划）策略。如果我们可以开发出人工智能算法（特别是强化学习算法）来模拟这种行为，它可能会产生一种这样的算法：既能很好地执行（通过在早期使用试错法），并且能够提高样本效率。（稍后切换到规划方法来实现更为抽象的目标）。

本文介绍了时序差分模型（temporal difference model，TDM），这是强化学习算法的一种，它可以捕获无模型和基于模型的强化学习之间的平滑过渡。在讲述 TDM 之前，我们首先阐述典型的基于模型的强化学习算法是如何工作的。

AI 前线注：时序差分学习（Temporal-Difference Learning）结合了动态规划和蒙特卡洛方法，是强化学习的核心思想。蒙特卡洛的方法是模拟（或者经历）一段序列，在序列结束后，根据序列上各个状态的价值，来估计状态价值。时序差分学习是模拟（或者经历）一段序列，每行动一步（或者几步），根据新状态的价值，然后估计执行前的状态价值。可以认为蒙特卡洛的方法是最大步数的时序差分学习。

基于模型的强化学习

在强化学习中，我们有一些状态空间和动作空间。如果在时刻我们处于状态采取行动，我们根据动态模型过渡到一个新的状态。我们的目标是最大化访问状态的奖励总和。基于模型的强化学习算法假定给出（或学习）动态模型。给定这个动态模型，有多种基于模型的算法。对于本文而言，我们考虑执行以下优化的方法来选择一系列操作和状态以最大化奖励：

优化方法建议选择一系列状态和行动，即可最大化奖励，同时确保轨迹是可行的。

在这里，可行的意思是每一种状态下的状态转换都是有效的。例如，如下图所示，如果你从状态开始并采取行动，则只有最上面的才能实现一个可行的转换。

如果你能挑战物理学的话，那么去金门大桥的旅行计划就会容易得多。但是，基于模型的优化问题中的约束确保只有像第一行这样的轨迹才能被输出。底部的两条轨迹可能有很高的回报，但它们并不可行。

在我们的自行车问题中，优化可能会制定从伯克利（图右上）到金门大桥（图左中）的骑行计划，看起来如下图所示：

一个计划（状态和行动）的示例输出了优化问题。

虽然从理论概念来看还不错，但是这个计划不太现实。基于模型的方法使用一个模型来预测下一个时间步的状态，在机器人技术中，时间步通常相当于十分之一秒或百分之一秒。因此，对最终计划可能会有一个更现实的描述，如下图所示：

一个更现实的计划。

如果我们想想在日常生活中的计划，就会意识到我们的计划在时序上更为抽象。我们不会去预测自行车在接下来的十分之一秒将处于什么位置，而是制定了更为长远的计划，比如“我将走到这条路的尽头”。此外，一旦我们学会了如何骑车，我们就只能做出这些时序抽象规划。如前所述，我们需要一些方法：（1）使用试错法来是学习，（2）提供一种机制来逐步提高我们用于计划的抽象级别。为此，我们引入了时序差分模型。

时序差分模型

一个时序差分模型 (TDM)，我们将它写成，它是一个函数，给定一个状态，动作，和目标状态，预测智能体在时间步内达到目标的程度。直观地说，TDM 回答了这样的问题:“如果我在 30 分钟内骑车到旧金山，我将会有多接近?”对于机器人技术来说，一种测量贴近度的自然方法是使用欧氏距离（Euclidean distance）。

AI 前线注：欧氏距离，亦称为欧几里得距离，在数据上，是欧几里得空间中两点间“普通”（即直线）距离。使用这个距离，欧氏空间成为度量空间。相关联的范数称为欧几里得范数。较早的文献称之为毕达哥拉斯度量。

TDM 预测在一段固定的时间之后，你距离目标（金门大桥）有多近。骑车 30 分钟后，也许你只能到达上图中灰色骑行人的位置。在这种情况下，灰色线段表示 TDM 应该预测的距离。

对于那些熟悉强化学习的人来说，事实证明 TDM 可以被看作是有限视域 MDP 中的目标条件 Q 函数。因为 TDM 只是另一个 Q 函数，因此我们可以使用无模型（试错）算法对其进行训练。我们使用深度确定性策略梯度（deep deterministic policy gradient，DDPG）来训练 TDM，并对目标和时间层进行追溯，以提高学习算法的样本效率。理论上来讲，任何 Q 学习算法都可以用来训练 TDM，但我们发现这个是有效的，欢迎读者查阅相关论文了解更多的细节。

AI 前线注：深度确定性策略梯度（Deep Deterministic Policy Gradient， DDPG）算法是 Lillicrap 等人利用 DQN 扩展 Q 学习算法的思路对确定性策略梯度（Deterministic Policy Gradient， DPG）方法进行改造，提出的一种基于行动者 - 评论家（Actor-Critic，AC）框架的算法，该算法可用于解决连续动作空间上的 DRL 问题。

参见论文《Continuous control with deep reinforcement learning》

https://arxiv.org/abs/1509.02971

使用 TDM 进行规划

一旦我们训练 TDM，我们如何使用它来进行规划？事实证明，我们可以通过以下优化方法来规划：

这种直觉与基于模型的公式类似。选择一连串的行动和状态来最大化回报是可行的。一个关键的区别是我们只计划每个时间步，而不是每个时间步。的约束强制了轨迹的可行性。形象化地说，而不是明确规划步骤和类似的动作：

我们可以直接计划时间步，如下图所示：

伯克利提出时序差分模型TDM：让深度强化学习更像人类

正文

伯克利提出时序差分模型TDM：让深度强化学习更像人类

请到「今天看啥」查看全文