专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
51好读  ›  专栏  ›  Datawhale

获得图灵奖后,强化学习之父最新访谈:AI研究的正确方向!

Datawhale  · 公众号  ·  · 2025-03-08 20:34

正文

Datawhale分享
访谈: Richard S. Sutton 编译:数字开物

3月5日,现代计算强化学习的奠基人之一,加拿大计算机科学家 Richard S. Sutton 荣获2025年度图灵奖。 Richard S. Sutton 在最新的对话中谈论了 强化学习的本质和重要性,其在AI研究领域的长期坚持以及AI发展的速度和未来走向。

Richard S. Sutton 强调, 强化学习是关于从经验中学习 强化学习 关键是 从评估性反馈中学习。 从经验中学习是 AI研究的 正确的方向 AI是一场马拉松,而非短跑 Sutton不认同“现在一切发展得太快了”的观点,他表示, AI最具影响力的那些方面尚未到来。

以下是对话实录,经翻译编辑:

主持人: 非常感谢你能来,Rich。热烈祝贺。能跟我们分享一下你是如何得知获奖的吗?

Richard S. Sutton: 是ManuelVeloso打来的电话。只是一个奇怪的会议邀请,我完全不知道是关于什么的。总之,我当时毫无头绪。我本应该有所预感的,但我没有。实际上,我错过了那次视频通话,因为我把这事给忘了,他们不得不再打电话给我。当我最终加入会议时,看到了一群我不认识的人。但后来我开始觉得,这些名字有点眼熟。我后来才意识到,他们都是之前的图灵奖得主。

Richard S. Sutton: 是的。他们告诉我们,我们获奖了,在接下来的通话中我们都震惊不已。大家都对你寄予厚望,你必须不辜负这份荣誉。我希望能不辜负大家的期望。

主持人: 你打算如何实现这一目标呢?

Richard S. Sutton: 我真的想更深入地理解大脑是如何工作的。我已经67岁了。但是,我仍然想尝试做出一些惊人的成就。

主持人: 考虑到你所了解的一切,强化学习(RL)最近因为DeepSeek而更多地出现在新闻中,DeepSeek被称为美国人工智能的“斯普特尼克时刻”,而八年前,AlphaGo则被称为中国人工智能的“斯普特尼克时刻”。创造了两个“斯普特尼克时刻”时刻,这非常令人兴奋。但是你认为,在深度学习领域的前辈们获得图灵奖之后,业界显然会更加关注深度学习。你对强化学习受到更多关注感到兴奋吗?或者说,你觉得这种关注意味着什么?

Richard S. Sutton: 我们将尝试利用这一点。我们有一个图灵讲座,还有一篇图灵论文。从与Andy和其他人的交流来看,我认为其中会有很多历史性的内容。但我们也会尝试解释,什么是强化学习?它到底是什么?

Richard S. Sutton: 一种解释是,它是关于从经验中学习。 很多事情都不是从经验中学习。我是说从人类那里学习,显然大语言模型、是从人类那里学习的,因为它们模仿人类。甚至人类反馈的强化学习(RHLF)也高度依赖人类的指导。而强化学习是关于从经验中学习,经验是显而易见的学习方式。所以我真的认为这是显而易见的事情。 强化学习是理所应当的

AlanTuring谈到了从经验中学习。他是第一个将这个概念用于能从经验中学习的机器的人。当然,动物一直都在从经验中学习。但他在1947年给伦敦数学学会的演讲中提到, 我们想要的是一台能从经验中学习的机器。 这可以说是关于AI的第一次公开演讲。

主持人: 这太不可思议了。

Richard S. Sutton: 他谈到了经验,谈到了奖励和惩罚,谈到了所有这些。并且他在随后的几年里做了一些相关的工作。所以, 这与图灵奖息息相关,因为它与Turing本人有关。

Richard S. Sutton: 强化学习的第一个关键点是我们从奖励和惩罚中学习,从评估性反馈中学习。 为什么我们要从评估性反馈中学习?因为指导性反馈在正常生活中不会自然产生。仅仅与世界互动并不能给你指导性的反馈。你必须处理评估性反馈。你可以处理评估性反馈,因为赢得比赛、获得食物或者将死对方就是一种评估。然后第二步是所有那些并非直接奖励的经验,就像日常发生的事情一样,告诉你世界运作的方式,换句话说,就是基于模型的强化学习。

Richard S. Sutton: 所以从经验中学习,这是我们必须实现的关键思想。

主持人: 从AlanTuring最初的演讲到现在,这是一条非常酷的传承之路。这个领域经历了很多不同的流行方向。你是如何始终专注于你认为最重要和最正确的事情的?你是怎么一直坚持下来的?

Richard S. Sutton: Andy和我就像是在所有变革中的一个坚固支点。从一开始,我们就坚信:" 从经验中学习是正确的方向。







请到「今天看啥」查看全文