专栏名称: Dance with GenAI

关于生成式人工智能AIGC的一切

Ilya Sutskever关于强化学习、元学习、自我对弈的演讲

Dance with GenAI · 公众号 · · 2024-09-23 19:43

正文

这篇文章是关于Ilya Sutskever在OpenAI任职时的演讲，主要讨论了强化学习、元学习、和自我对弈（self-play）的概念和进展。全部演讲的概要：

深度学习的效率：Ilya Sutskever探讨了深度学习为何有效，他提出理论上最佳的泛化方法是找到能够解释数据的最佳短程序。然而，实际上找到这样的程序是困难的，因此人们使用神经网络这样的小电路来近似。
强化学习：他讨论了强化学习作为描述代理行为的框架，强调了强化学习算法的重要性，这些算法可以帮助代理通过与环境互动来学习。
元学习：Sutskever提到元学习（Meta-Learning）的概念，即训练一个系统来快速学习新任务。他提到了一些成功的元学习案例，如在字符识别任务中取得超人表现的模型。
自我对弈：他探讨了自我对弈的概念，这是一种通过代理与自己对弈来训练代理的方法，这种方法在围棋等游戏中取得了显著的成功。
Hindsight Experience Replay：这是一种算法，它通过将失败的目标转化为学习新技能的机会来提高学习效率。
模拟到现实的转移：讨论了如何通过在模拟环境中训练策略，并确保策略能够适应多种环境变化，从而实现从模拟到现实世界的转移。
分层强化学习：提出了通过学习一系列低级策略来加速学习过程的想法。
自我对弈的潜力：Sutskever认为自我对弈有可能创造出能够展现出无限复杂性和智能行为的代理。
计算与智能的关系：他提出了一个观点，即随着计算能力的增加，代理的认知能力可能会迅速提高，甚至达到超人水平。
未来展望：Sutskever对自我对弈和元学习的未来持乐观态度，认为这些领域将继续推动人工智能的发展。

下面是演讲原文：

关于我们在OpenAI过去一年所做的一些工作。这就像是一个箭袋，我的演讲将是那项工作的子集，重点关注元学习和自我对弈，这是两个我非常喜欢的话题。但我被告知这是一个稍微更广泛，更普遍感兴趣的演讲。所以我想从谈论为什么深度学习实际上有效开始。我认为这不是一个不言自明的问题。为什么深度学习有效？这不是一个不言自明的问题，它应该有效。我想给出一个我认为并不完全明显的观点。

实际上，你可以数学上证明的最好的方式来泛化，它是完全无法改进的，就是找到解释你数据的最好的短程序，然后用它来做预测。你可以证明你不能做得比这更好。

想想机器学习。你需要考虑概念类。在给定数据的情况下，你在寻找什么？如果你在寻找最好的短程序，那么你就无法泛化得比这更好，这可以被证明，而且证明并不复杂。它的直觉基本上是，任何可能存在的规律都可以表达为一个短程序（short program）。如果你有一些数据，不能用稍微短一点的程序来压缩，那么这些数据就是完全随机的。所以你可以相信我，因此，短程序是泛化（generalize）的最佳方式，如果我们能够使用它们的话。

问题是，至少根据今天的知识，找到描述数据的最佳短程序是不可能的。在实践中，找到最佳短程序的计算问题是不可解的，在理论上是不可判定的，所以我们没有短程序，但是小电路（small circuits）呢？

小电路单元是短程序之后最好的东西，因为小电路也可以执行不明显的计算。如果你有一个非常深、非常宽的电路，可能有成千上万层，数百万个神经元宽，你可以在里面运行很多不同的算法。所以它接近于短程序，而且非常幸运的是，给定数据找到最佳小电路的问题可以通过反向传播（backdrop）来解决。所以基本上归结为我们可以用它来找到解释数据的最佳小电路。小电路有点像程序，但并不完全是。就像找到最好的并行程序，运行50步或更少，解决你的问题。这就是泛化的来源。

现在，我们不知道为什么。我们不知道为什么反向传播在找到最佳小电路方面是成功的。给你的数据，这是一个谜，这是一个非常幸运的谜。它为我们在过去六年中在人工智能领域所取得的所有进展提供了动力。所以我认为这里有一点运气。我们很幸运它有效。

当我思考泛化时，我喜欢做一个有用的类比，即在某些方面具有更大计算能力的深度学习模型泛化得更好。所以你可以说你的神经网络越深，它就越接近最终的最佳短程序。所以它将更好地泛化。所以这试图触及泛化来自哪里的问题。我认为完整的答案将是一个相当长的时间未知，因为它也与我们碰巧想要解决的具体数据有关。非常好的是，我们想要解决的问题恰好可以用这些类别的模型来解决。

我想做的另一件事是，我认为反向传播算法将与我们一直在一起，直到最后，因为它解决的问题是如此基本，即：给定数据，找到最适合它的小电路。似乎不太可能我们将来不会想要解决这个问题。因此，出于这个原因，我觉得背景非常重要。

现在我想花一点时间谈论强化学习。所以强化学习是一个描述代理行为的框架。你有一个代理，它采取行动，与环境互动，并在成功时获得奖励。很清楚，这是一个非常通用的框架。但强化学习有趣的是，存在有用的强化学习算法。换句话说，强化学习的算法使框架变得有趣，尽管这些算法仍然有很大的改进空间，但它们已经可以在很多非对象任务中取得成功。因此，值得推动这些算法。

如果你做得非常好的强化学习算法，也许我们会建立非常聪明的代理。所以强化学习问题的公式如下：你有一些策略类别，策略只是一个函数，它接受输入并产生行动。对于任何给定的策略，你可以运行它，你可以计算它的性能，它的成本。你的目标只是找到最佳策略，以最小化成本，最大化奖励。现在，这个框架公式与现实不同的地方在于，在现实中，代理自己产生奖励。唯一存在的真正成本函数是生存。

所以如果你想建立任何强化学习算法，你需要以某种方式表示策略。那么你将如何表示任何东西？答案总是使用神经网络。神经网络将采取行动并采取观察，并产生行动，然后对于参数的给定设置，你可以计算它们有多好。然后你可以计算如何改变这些参数来改进模型。所以如果你多次改变模型的参数并进行许多小的改进，那么你可能会取得很大的改进。在实践中，改进通常足够大，足以解决问题。

所以我想谈谈强化学习算法是如何工作的。现代的无模型算法，今天每个人都在使用的算法。

你采取你的策略，你以某种方式给你的行动增加一点随机性。所以你偏离了你的通常行为。然后你简单地检查产生的成本是否比预期的好。如果是的话，你就更有可能这样做。但关键是，你随机做一些事情，看看它是否比通常更好。如果是的话，就多做一点，然后重复很多次。

所以在强化学习中，有两种算法类别。其中一个叫做策略梯度，我刚刚描述的就是这个。上面有一个漂亮的公式，它说如果你只是采取你的成本函数的导数并做一些数学运算，你就得到了刚刚描述的东西，你只是随机采取一些行动，带一点随机性。如果结果比预期的好，那么在未来增加采取这些行动的概率。

还有一种叫做Q学习的算法，它不太稳定，但更具有样本效率，我不会详细解释它是如何工作的，但它有一个属性，它是离策略的，这意味着它不仅可以从自己的行动中学习。我想解释一下什么是离策略意味着你可以从任何人的行动中学习。不仅仅是你自己的。所以它看起来更有用，尽管有趣的是，更稳定的算法往往是基于策略梯度的，一个策略的，Q学习，它是离策略的，也不太稳定，至少到目前为止是这样。事情变化很快。

现在我想花一点时间来说明Q学习是如何工作的，尽管我认为这可能对很多人来说可能很熟悉，基本上是这个Q函数，它试图估计对于给定的状态和给定的行动，未来会有多好或多坏，你有这个状态的轨迹，因为你的代理在世界上采取了很多行动，不懈地追求目标。好吧，Q函数就是这种递归属性，或者说Q函数的Sa。它基本上只是Sa的Q函数加上你之前得到的奖励。所以你有这种递归性，你可以用这个递归性来估计Q函数，这就给了你Q线性算法。

现在潜力是什么？为什么这很令人兴奋？所以是的，现有的强化学习算法，它们非常简单，效率低下，它们真的非常糟糕，尽管正在取得进展。但你可以看到，如果你有一个非常好的强化学习算法，那将是非常数据高效的，并且探索得非常好，并且能够很好地利用大量的信息来源，那么我们在建立智能代理方面就会处于良好状态。但我们仍然有工作要做。我们仍然会是数据效率低下的。

所以现在我想谈谈元学习，这将是这次演讲的一个重要部分。

我想解释一下它是什么。所以有一个抽象的，元学习的梦想，元学习的想法是你可以在某种程度上学习学习，就像生物进化已经学会了大脑的学习算法一样。精神上，你将如何解决这个问题是通过训练一个系统，不是在一个任务上，而是在许多任务上。如果你这样做，那么你突然训练了你的系统，可以非常快地解决新任务。所以如果你能做到这一点，那将是好事。如果你能学会学习，那将是伟大的。我们不需要自己设计算法，使用你现在拥有的学习算法，为我们做其余的思考。你还没有完全到达那里，但元学习已经取得了相当大的成功。

我只是想展示一下，解释一下最常见的元学习方式。最常见的元学习方式或最吸引人的方式，你基本上说你想把元学习问题归结为传统的深度学习，你基本上采取你熟悉的监督学习框架，你用你的训练任务集的任务替换每个数据点。所以你要做的就是所有这些算法都有相同的高层次形状，你有一个模型，它接收关于任务的信息加上任务实例，它需要做出预测。而且很容易看出，如果你这样做，那么你将训练一个模型，它可以接收新的任务描述并做出好的预测。

而且有一些非常成功，引人注目的成功案例。我在伯克利也做了很多元学习工作，但我会说一些视觉上的，早期的，我认为值得注意的案例。你看到这个任务了吗？我从一个由Brandon Lake等人撰写的论文中拿出了这个图，但我认为数据集来得更早，所以这不是正确的引用，但是对神经网络的批评之一是它们学得不快，这是真的。乔治·特南鲍姆实验室的一个团队开发了这个数据集，它有大量的不同字符，每个字符只有很少的例子，特别是作为神经网络的挑战。结果发现，简单的元学习方法，你只是说我想训练一个神经网络，可以非常快地识别任何字符，这种方法非常有效。它已经能够获得超人的表现。据我所知，最好的表现是由Mish等人实现的。我相信这是与彼得一起完成的工作，它基本上是超人的，它只是一个神经网络。所以元学习有时非常有效。

还有对元学习的一种非常不同的理解，它更接近于进化的方法，而不是学习大型模型的参数，让我们学习一些紧凑和小巧的东西，比如架构甚至算法，这就是进化所做的。这里你只是说，为什么不在架构空间中搜索，找到最好的架构呢？这也是元学习的一种形式，也泛化得非常好。因为这项工作，如果你在一个小图像数据集上学习一个架构，它在一个大图像数据集中也会非常好。它泛化得好的原因是架构中的信息量很小。这是谷歌的zop和Li的工作。所以元学习是有效的。

有时有生命迹象。承诺是非常强烈的，它是如此引人注目，设定了一切正确，然后你现有的学习算法，你将学习未来的学习算法。那将是好事。所以现在我想深入到一个算法的详细描述中，它叫做hindsight Experience for Play，这是与许多人的大量合作，主要由Rico vicheal推动。这并不完全是元学习。这几乎是元学习。

基本上，思考这个算法的方式是，你试图通过使它更难来解决一个难题，结果它变得更容易。所以你将一个问题框架化为许多问题。你同时学习解决很多问题，这使得它变得容易。这里的问题是基本上是探索的结合。

在强化学习中，我们需要采取正确的行动。如果你不采取正确的行动，我们就不会学习。如果你没有得到奖励，你怎么能改进你所有的努力，那不会带来奖励，那将是浪费。如果那样就好了。所以如果我奖励稀疏，如果你试图实现一个目标并失败，模型就不会学习。那么我们如何修复它呢？

所以这是一个非常简单的想法，它非常直观。你基本上说你有起点，你试图达到状态A，但你达到了状态B。那么我们能从中学到什么吗？我们有数据。我们有一条轨迹，说明如何达到状态B，所以也许我们可以用这个有缺陷的尝试来达到A，作为学习状态B的机会，所以这是非常正确的方向。意味着你不会浪费经验，但你确实需要足够的策略算法来学习。这就是为什么我之前强调策略的东西，因为你的政策试图达到A，但你将使用这些数据来教一个不同的政策，达到B，所以你有这个大参数化函数。你只是简单地告诉它你达到了哪个状态。

这非常简单直观，而且它工作得非常好。Hindsight经验重放。所以我要给你看视频。这很酷。所以在这种情况下，奖励非常稀疏和二元。所以我应该只是说，因为奖励在二元中非常稀疏，这使得传统的强化学习算法非常不利，因为你从来没有看到过奖励。

如果你塑造你的奖励，也许你可以更好地解决这些问题。尽管如此，当你试图塑造奖励时，你会发现，塑造奖励有时很容易，但有时非常具有挑战性。这里是同样的事情在真实的物理块上工作。好吧，这基本上总结了hindsight经验重放的结果。你告诉我们什么缩写代表了hindsight经验重放。你可以看到，所有这些结果的一个限制是，状态是非常低维的。如果你有一个通用环境，有这些非常高维的输入和很长的历史，你如何表示你的目标？这意味着表示学习将非常重要。

我认为无监督学习可能还不行，但我认为它非常接近。我们应该继续思考如何真正将无监督学习与强化学习结合起来。我认为这是未来的一个富有成果的领域。

现在我想谈谈一个不同的项目，关于使用元学习从看似真实的转移。这项工作是由Berkeley的penal和多人完成的。不幸的是，我没有完整的名单在这里，所以如果你能在模拟中训练我们的机器人，然后在物理机器人上部署它们，那将是非常好的。模拟很容易处理。但也非常清楚，你不能模拟大多数事情。那么这里能做些什么呢？我只是想解释一个非常简单的想法，你怎么能这样做。答案基本上是训练一个策略，不仅仅是在一个模拟环境中解决任务，而是在一个模拟环境家族中解决任务。我要随机化摩擦系数和重力。你可以想到的几乎所有东西，你的机器人肢体的长度和它们的质量，摩擦的大小，你的策略没有告诉你你做了什么。你只需要通过与环境的互动来弄清楚。好吧，如果你这样做，那么你就会发展出一个健壮的策略，它非常擅长弄清楚发生了什么，至少在这些模拟中。如果这样做了，那么结果系统将更有可能。

将其知识从模拟转移到现实世界。这是一个元学习的例子，因为你实际上正在学习一个策略，它非常快速地识别你正在使用的精确物理。所以我想说这有点，我的意思是，称它为元学习有点牵强。它更像是一种健壮的，适应性的动态事物，但它也有元学习过滤器。

我想展示这个基线的录像。所以这就是当你不这样做时会发生什么。这是当你不这样做时会发生什么，你试图让曲棍球包进入红色，它只是非常戏剧性地失败了。如果你添加这些健壮性，那么结果就会比它好得多，就像你，即使它推动它，它超调了，它也不是问题。

所以看起来相当不错。所以我认为这个玩具示例说明了在模拟中训练策略的方法，然后确保策略不仅仅解决一个模拟实例，而是许多不同的模拟实例，并弄清楚它是哪一个。

然后它可能会成功地推广到真实的物理机器人。所以这是令人鼓舞的。现在我想谈谈Fran等人的另一个项目。它是关于做分层强化学习的。所以分层强化学习是那些如果我们能让它们工作，那将是非常好的主意之一。

因为今天做的强化学习的问题之一是，你有很长的视野。你很难处理，你很难处理探索不是很有方向性。所以它不像你希望的那样快。信用分配也是一个挑战。所以我们可以做一种非常简单的元学习方法，其中你基本上说你想要学习低级行动，这使得学习变得快速。所以你有一个任务分布，你想要找到一组低级政策，这样如果你在强化学习算法中使用它们，你就能尽可能快地学习。所以如果你这样做，你可以学到相当合理的运动策略，它们朝着一个持续的方向前进。

所以这里有三个政策，高层次的，系统已经学会了找到将解决这类问题的政策。有一个特定于这些类型问题的问题分布，它尽可能快地解决了它。

现在，我想在这里提到的一个重要限制是高容量元学习的一个重要限制。所以有两种元学习的方式。一种是通过学习一个可以快速解决任务分布的大神经网络。另一种是通过学习一个架构或算法。所以你学习一个小对象。所以如果你学习一个架构，如果你在元学习设置中学习一个算法，它可能会泛化到许多其他任务。但这不是这种情况，或者至少它不是那么多的情况，对于高容量元学习，或者如果你只是想要，例如，训练一个非常大的递归神经网络。

你想要学习一个非常大的递归神经网络，它可以解决许多任务。它将非常致力于你训练它的任务分布。如果你给它一个任务，这个任务在意义上明显超出了训练分布，它将不会成功。所以作为一个稍微的例子，我的想法是，好吧，假设你带你的系统，你训练它做一些数学，你用一点编程教它如何阅读。它能做化学吗？好吧，根据这个范式，至少不是明显的，因为它真的需要有任务来自与训练相同的分布，并且在测试时也是如此。所以我认为为了这个工作，我们真的需要进一步提高我们算法的泛化能力。

现在我想以谈论自我对弈来结束。所以自我对弈是一个非常酷的话题。它已经存在很长时间了。我认为它非常有趣和神秘。我想从我知道的最早的自我对弈工作开始，那就是TD Gammon。这是在1992年完成的。这是byte soo的单一作者工作，在这个工作中他们使用了Q学习与自我对弈来训练一个神经网络，击败了世界背gammon冠军。

所以我认为这可能听起来很熟悉，在2017年和2018年，但那是在1992年。那是在你的CPU是像，我不知道，33 MHz或类似的东西的时候。如果你看这个图表，你会看到它显示了不同数量的隐藏神经元的性能随时间的变化。好吧，你有10个隐藏单元，那是红色的曲线，20个隐藏单元是绿色的曲线，一直到紫色的曲线。是的，基本上在过去25年里什么都没有改变，只是隐藏单元中的零的数量。事实上，他们甚至发现了非传统的策略，这让Bache的专家们感到惊讶。所以这很了不起，这项工作是如此久远，它对未来的展望如此之多。

这种方法基本上一直处于休眠状态。人们尝试了一点，但它真的是由其他结果定义的。

而且你知道，我们也在AlphaGo Zero中取得了非常引人注目的自我对弈结果，他们可以从零开始训练一个非常强大的围棋选手，击败所有人类。同样的情况也发生在我们的女儿身上，从0开始，只是做了很多比赛。我想谈谈为什么我认为自我对弈非常令人兴奋，因为你得到了这样的东西。

自我对弈使得创建非常简单的环境成为可能，这些环境支持潜在的无限复杂性，无限老练的代理，无限的阴谋和社会技能。

似乎与构建智能代理相关，Carl Sims在94年的人工生命工作中已经看到了这一点。你可以看到，已经有很熟悉的东西了。小进化生物，它们的形态也进化了。在这里，它们为了争夺一个小绿立方体的所有权而竞争。再一次，这是在1994年在小电脑上完成的。就像许多其他有前景的想法一样，没有足够的计算能力真正推动它们前进。但我认为这是我们可以通过大规模自我对弈得到的东西。我想展示一些我们所做的工作，只是试图稍微复兴这个概念。

我要展示这个视频。这是Ben Salad的工作。Al是一个富有成效的暑期实习。这里有一点音乐，让我把它关掉。实际上，也许我们可以保留它。

不，我不能，但关键是，你有一个超级简单的环境，在这个例子中，你只是告诉代理，当另一个代理被赶出圆圈时，你会得到+1。你可以看到，如果让你的想象力狂奔，那么这个自我对弈就不是对称的。而且这些类人生物有点不自然，因为它们不觉得疼痛，它们不会疲倦，它们没有太多能量限制。

哦，它阻止了它。那很好。所以这是一个很好的例子。所以一件好事是，如果你能把这些自我对弈环境，训练我们的代理做一些自我对弈的任务，然后把代理拿出来，让它为我们做一些有用的事情，我认为如果那可能的话，那将是惊人的。

这里有一个小小的测试，我们把sumo re-stage拿出来，我们把它孤立地放在圆圈里。它没有朋友，我们只是对它施加很大的力，看看它是否能保持平衡。当然，它可以保持平衡，因为它已经被训练了，因为它已经被训练来对抗试图推它的对手。所以它非常擅长抵抗一般的力量。

所以这里的精神图像是，想象你带一个忍者，然后你要求他学会成为一个厨师，因为忍者已经如此灵巧，他应该很容易成为一个非常好的厨师。这是这里的高级想法。还没有发生，但我想提出的一个问题是，所以我认为这条线工作中的一个关键问题是，你如何设置一种自我对弈类型，一旦你成功，它可以为我们解决有用的任务，这些任务与环境本身不同。这是游戏的一个很大的区别。在游戏中，目标实际上是赢得环境，但这不是我们想要的。我们只是希望它在一般情况下都很聪明，然后解决我们的问题。

做我的家庭作业类型的代理。现在我想，是的，我想展示幻灯片，我认为这很有趣。所以如果你，我想让你让你的想象力狂奔，想象所有的网络硬件设计师已经建造了巨大的巨型计算机。这个自我对弈已经被大规模地扩展了。

我们对生物进化的一个值得注意的是，社会物种往往拥有更大的大脑。他们往往更聪明。每当你有两种相关物种，但一个是社会性的，另一个不是，那么社会性的那个往往是更聪明的。

我们知道人类生物学进化在过去几百万年里真的加速了，可能是因为在那个时候，好吧，这有点投机，但我的理论至少是，人类变得对他们的环境足够有能力。所以你不再害怕狮子。最大的担忧变成了另一个人类，其他人类对你的看法，他们在谈论你什么，你在打包顺序中的地位如何？所以我认为这种环境创造了一个更大的大脑的激励。而且我能够，正如在科学中经常发生的那样，很容易找到一些科学支持你的假设，我们确实做到了。所以有一篇在科学上的论文。支持声称社会环境刺激了更大，更聪明的大脑的发展，他们在那里提出的具体证据是智能社会猿和智能鸟类的趋同进化，就像乌鸦一样，显然它们具有类似的认知功能，尽管它们的大脑结构非常不同。现在我对这个说法只有75%的信心，但我非常确定鸟类没有和我们一样的皮层，因为进化分裂发生在很久以前。

我认为这很有趣。我认为这至少是令人着迷的，你可以创造一个代理社会，你不断地扩大它，也许你会得到。代理会变得非常聪明。

现在，我想以一个观察结束，关于用自我对弈训练的环境。这是，这是从我们的数据船的力量来看的一个图表，从4月一直到8月。基本上，你只是修复了错误，你扩展了你的自我对弈环境，你扩展了你的计算量，你得到了系统的强度非常快速的增长。这很有意义。在自我对弈环境中，计算就是数据，所以你可以生成更多的数据。所以我想以一个挑衅性的问题结束，如果你有一个足够开放的自我对弈环境，你会得到你的代理的认知能力的非常快速的增长，一直到超人吗？在这一点上，我将结束演讲。非常感谢你的关注。

在我开始问答环节之前，我想说的一个重要的事情是，许多这些工作是与许多人合作完成的，特别是来自伯克利的Peter Abbi，我想强调这一点。

好的，很好，我想知道你是否能展示最后一张幻灯片，因为看起来这是一个非常重要的结论，但你很快就过去了。这是一个非常。这是一个有点投机的问题。这里真正的陈述是，如果你相信你会因为某种大规模的自我对弈而得到真正聪明的人类水平的代理，你也会经历我们在Delta中看到的同样的能力快速增长吗？

因为你可以把计算转换成数据。所以你投入更多的计算，这个东西会变得更好。是的，我的意思是，这有点像一般性的评论。显然，你计算得更多，你就会得到更好的结果。但我没有完全理解这两个面板之间的区别。

所以它真的归结为这一点。它真的是一个问题，我们领域进步的极限在哪里？能力的限制是什么，这些限制来自哪里？换句话说，如果你有正确的算法，这些算法目前还不存在，一旦你有了它们，系统的实际能力的增长会是什么样子？我认为确实有可能它就像右边的那样，一旦你弄清楚了你的Oracle强化学习，你弄清楚了概念学习，你的监督学习处于良好状态，然后大规模的神经网络硬件到来了，你有一个比人脑大得多的巨大的神经网络。这将会发生。

随着时间的推移，这个图表会是什么样子？所以你认为我们只看到了开始，好吗？

问答环节：

谢谢你的演讲，你提到了层次结构，我想知道如果你有一个层次结构的自我对弈的例子，这会增加这条曲线的斜率。是的，我们没有尝试过层次结构的自我对弈。这是更多基于我们的经验与我们的Dota机器人，你从基本上输掉了每个人开始，你的真技能度量，就像一个Elo评分，只是一路上扬，一直到最好的人类。所以，我认为这似乎是自我对弈系统的一个普遍属性。哪个游戏是这个theta？我有一个关于环境的问题。你有没有想过超越像相扑摔跤这样的环境？什么样的环境适合研究？好吧，这是一个好问题，什么是一个好的环境？

我认为有两种方法可以获得好的环境。其中之一是尝试解决我们关心的问题，它们自然会产生环境。我认为另一个是思考开放式的环境，你可以在其中构建。所以我认为我们今天拥有的大多数环境的一个稍微令人不满意的特征是它们有点不开放。你在一个小领域里有一个非常狭窄的领域，你想要在这个狭窄的领域里执行一个任务。但是有一些非常有趣的环境可以思考，其中一个是没有限制的深度。这些例子包括编程，数学，甚至Minecraft。

在Minecraft中，你可以建造越来越复杂的结构。首先，人们在Minecraft中建造小房子，然后他们建造大城堡，现在你可以找到建造整个城市甚至计算机的人。现在显然Minecraft没有挑战，这是一个问题，我们希望代理在那里做什么？所以这需要被解决的方向。

这将是一个很好的环境来思考更多。有人在这里吗？

Ilya Sutskever关于强化学习、元学习、自我对弈的演讲

正文

请到「今天看啥」查看全文