3月5日,现代计算强化学习的奠基人之一,加拿大计算机科学家
Richard S. Sutton
荣获2025年度图灵奖。
Richard S. Sutton
在最新的对话中谈论了
强化学习的本质和重要性,其在AI研究领域的长期坚持以及AI发展的速度和未来走向。
Richard S. Sutton
强调,
强化学习是关于从经验中学习
,
强化学习
关键是
从评估性反馈中学习。
从经验中学习是
AI研究的
正确的方向
。
AI是一场马拉松,而非短跑
,
Sutton不认同“现在一切发展得太快了”的观点,他表示,
AI最具影响力的那些方面尚未到来。
以下是对话实录,经翻译编辑:
主持人:
非常感谢你能来,Rich。热烈祝贺。能跟我们分享一下你是如何得知获奖的吗?
Richard S. Sutton:
是ManuelVeloso打来的电话。只是一个奇怪的会议邀请,我完全不知道是关于什么的。总之,我当时毫无头绪。我本应该有所预感的,但我没有。实际上,我错过了那次视频通话,因为我把这事给忘了,他们不得不再打电话给我。当我最终加入会议时,看到了一群我不认识的人。但后来我开始觉得,这些名字有点眼熟。我后来才意识到,他们都是之前的图灵奖得主。
Richard S. Sutton:
是的。他们告诉我们,我们获奖了,在接下来的通话中我们都震惊不已。大家都对你寄予厚望,你必须不辜负这份荣誉。我希望能不辜负大家的期望。
主持人:
你打算如何实现这一目标呢?
Richard S. Sutton:
我真的想更深入地理解大脑是如何工作的。我已经67岁了。但是,我仍然想尝试做出一些惊人的成就。
主持人:
考虑到你所了解的一切,强化学习(RL)最近因为DeepSeek而更多地出现在新闻中,DeepSeek被称为美国人工智能的“斯普特尼克时刻”,而八年前,AlphaGo则被称为中国人工智能的“斯普特尼克时刻”。创造了两个“斯普特尼克时刻”时刻,这非常令人兴奋。但是你认为,在深度学习领域的前辈们获得图灵奖之后,业界显然会更加关注深度学习。你对强化学习受到更多关注感到兴奋吗?或者说,你觉得这种关注意味着什么?
Richard S. Sutton:
我们将尝试利用这一点。我们有一个图灵讲座,还有一篇图灵论文。从与Andy和其他人的交流来看,我认为其中会有很多历史性的内容。但我们也会尝试解释,什么是强化学习?它到底是什么?
Richard S. Sutton:
一种解释是,它是关于从经验中学习。
很多事情都不是从经验中学习。我是说从人类那里学习,显然大语言模型、是从人类那里学习的,因为它们模仿人类。甚至人类反馈的强化学习(RHLF)也高度依赖人类的指导。而强化学习是关于从经验中学习,经验是显而易见的学习方式。所以我真的认为这是显而易见的事情。
强化学习是理所应当的
。
AlanTuring谈到了从经验中学习。他是第一个将这个概念用于能从经验中学习的机器的人。当然,动物一直都在从经验中学习。但他在1947年给伦敦数学学会的演讲中提到,
“
我们想要的是一台能从经验中学习的机器。
”
这可以说是关于AI的第一次公开演讲。
主持人:
这太不可思议了。
Richard S. Sutton:
他谈到了经验,谈到了奖励和惩罚,谈到了所有这些。并且他在随后的几年里做了一些相关的工作。所以,
这与图灵奖息息相关,因为它与Turing本人有关。
Richard S. Sutton:
强化学习的第一个关键点是我们从奖励和惩罚中学习,从评估性反馈中学习。
为什么我们要从评估性反馈中学习?因为指导性反馈在正常生活中不会自然产生。仅仅与世界互动并不能给你指导性的反馈。你必须处理评估性反馈。你可以处理评估性反馈,因为赢得比赛、获得食物或者将死对方就是一种评估。然后第二步是所有那些并非直接奖励的经验,就像日常发生的事情一样,告诉你世界运作的方式,换句话说,就是基于模型的强化学习。
Richard S. Sutton:
所以从经验中学习,这是我们必须实现的关键思想。
主持人:
从AlanTuring最初的演讲到现在,这是一条非常酷的传承之路。这个领域经历了很多不同的流行方向。你是如何始终专注于你认为最重要和最正确的事情的?你是怎么一直坚持下来的?
Richard S. Sutton:
Andy和我就像是在所有变革中的一个坚固支点。从一开始,我们就坚信:"
从经验中学习是正确的方向。