专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

获得图灵奖后，强化学习之父最新访谈：AI研究的正确方向！

Datawhale · 公众号 · · 2025-03-08 20:34

正文

Datawhale分享

访谈： Richard S. Sutton ， 编译：数字开物

3月5日，现代计算强化学习的奠基人之一，加拿大计算机科学家 Richard S. Sutton 荣获2025年度图灵奖。 Richard S. Sutton 在最新的对话中谈论了强化学习的本质和重要性，其在AI研究领域的长期坚持以及AI发展的速度和未来走向。

Richard S. Sutton 强调， 强化学习是关于从经验中学习 ， 强化学习 关键是 从评估性反馈中学习。 从经验中学习是 AI研究的 正确的方向 。 AI是一场马拉松，而非短跑 ， Sutton不认同“现在一切发展得太快了”的观点，他表示， AI最具影响力的那些方面尚未到来。

以下是对话实录，经翻译编辑：

主持人： 非常感谢你能来，Rich。热烈祝贺。能跟我们分享一下你是如何得知获奖的吗？

Richard S. Sutton： 是ManuelVeloso打来的电话。只是一个奇怪的会议邀请，我完全不知道是关于什么的。总之，我当时毫无头绪。我本应该有所预感的，但我没有。实际上，我错过了那次视频通话，因为我把这事给忘了，他们不得不再打电话给我。当我最终加入会议时，看到了一群我不认识的人。但后来我开始觉得，这些名字有点眼熟。我后来才意识到，他们都是之前的图灵奖得主。

Richard S. Sutton： 是的。他们告诉我们，我们获奖了，在接下来的通话中我们都震惊不已。大家都对你寄予厚望，你必须不辜负这份荣誉。我希望能不辜负大家的期望。

主持人： 你打算如何实现这一目标呢？

Richard S. Sutton： 我真的想更深入地理解大脑是如何工作的。我已经67岁了。但是，我仍然想尝试做出一些惊人的成就。

主持人： 考虑到你所了解的一切，强化学习（RL）最近因为DeepSeek而更多地出现在新闻中，DeepSeek被称为美国人工智能的“斯普特尼克时刻”，而八年前，AlphaGo则被称为中国人工智能的“斯普特尼克时刻”。创造了两个“斯普特尼克时刻”时刻，这非常令人兴奋。但是你认为，在深度学习领域的前辈们获得图灵奖之后，业界显然会更加关注深度学习。你对强化学习受到更多关注感到兴奋吗？或者说，你觉得这种关注意味着什么？

Richard S. Sutton： 我们将尝试利用这一点。我们有一个图灵讲座，还有一篇图灵论文。从与Andy和其他人的交流来看，我认为其中会有很多历史性的内容。但我们也会尝试解释，什么是强化学习？它到底是什么？

Richard S. Sutton： 一种解释是，它是关于从经验中学习。 很多事情都不是从经验中学习。我是说从人类那里学习，显然大语言模型、是从人类那里学习的，因为它们模仿人类。甚至人类反馈的强化学习（RHLF）也高度依赖人类的指导。而强化学习是关于从经验中学习，经验是显而易见的学习方式。所以我真的认为这是显而易见的事情。 强化学习是理所应当的 。

AlanTuring谈到了从经验中学习。他是第一个将这个概念用于能从经验中学习的机器的人。当然，动物一直都在从经验中学习。但他在1947年给伦敦数学学会的演讲中提到， “ 我们想要的是一台能从经验中学习的机器。 ” 这可以说是关于AI的第一次公开演讲。

主持人： 这太不可思议了。

Richard S. Sutton： 他谈到了经验，谈到了奖励和惩罚，谈到了所有这些。并且他在随后的几年里做了一些相关的工作。所以，这与图灵奖息息相关，因为它与Turing本人有关。

Richard S. Sutton： 强化学习的第一个关键点是我们从奖励和惩罚中学习，从评估性反馈中学习。 为什么我们要从评估性反馈中学习？因为指导性反馈在正常生活中不会自然产生。仅仅与世界互动并不能给你指导性的反馈。你必须处理评估性反馈。你可以处理评估性反馈，因为赢得比赛、获得食物或者将死对方就是一种评估。然后第二步是所有那些并非直接奖励的经验，就像日常发生的事情一样，告诉你世界运作的方式，换句话说，就是基于模型的强化学习。

Richard S. Sutton： 所以从经验中学习，这是我们必须实现的关键思想。

主持人： 从AlanTuring最初的演讲到现在，这是一条非常酷的传承之路。这个领域经历了很多不同的流行方向。你是如何始终专注于你认为最重要和最正确的事情的？你是怎么一直坚持下来的？

Richard S. Sutton： Andy和我就像是在所有变革中的一个坚固支点。从一开始，我们就坚信：" 从经验中学习是正确的方向。

获得图灵奖后，强化学习之父最新访谈：AI研究的正确方向！

正文

请到「今天看啥」查看全文