专栏名称: 深度学习基础与进阶
一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
目录
相关文章推荐
51好读  ›  专栏  ›  深度学习基础与进阶

“强化学习之父”最新完整实录:AI研究的正确方向

深度学习基础与进阶  · 公众号  ·  · 2025-03-13 12:00

正文



3月5日,现代计算强化学习的奠基人之一,加拿大计算机科学家 Richard S. Sutton 荣获2025年度图灵奖。 Richard S. Sutton 在最新的对话中谈论了 强化学习的本质和重要性,其在AI研究领域的长期坚持以及AI发展的速度和未来走向。

Richard S. Sutton 强调, 强化学习是关于从经验中学习 强化学习 关键是 从评估性反馈中学习。 从经验中学习是 AI研究的 正确的方向 AI是一场马拉松,而非短跑 Sutton不认同“现在一切发展得太快了”的观点,他表示, AI最具影响力的那些方面尚未到来。

以下是对话实录,经翻译编辑:

主持人: 非常感谢你能来,Rich。热烈祝贺。能跟我们分享一下你是如何得知获奖的吗?

Richard S. Sutton: 是ManuelVeloso打来的电话。只是一个奇怪的会议邀请,我完全不知道是关于什么的。总之,我当时毫无头绪。我本应该有所预感的,但我没有。实际上,我错过了那次视频通话,因为我把这事给忘了,他们不得不再打电话给我。当我最终加入会议时,看到了一群我不认识的人。但后来我开始觉得,这些名字有点眼熟。我后来才意识到,他们都是之前的图灵奖得主。

Richard S. Sutton: 是的。他们告诉我们,我们获奖了,在接下来的通话中我们都震惊不已。大家都对你寄予厚望,你必须不辜负这份荣誉。我希望能不辜负大家的期望。

主持人: 你打算如何实现这一目标呢?

Richard S. Sutton: 我真的想更深入地理解大脑是如何工作的。我已经67岁了。但是,我仍然想尝试做出一些惊人的成就。

主持人: 考虑到你所了解的一切,强化学习(RL)最近因为DeepSeek而更多地出现在新闻中,DeepSeek被称为美国人工智能的“斯普特尼克时刻”,而八年前,AlphaGo则被称为中国人工智能的“斯普特尼克时刻”。创造了两个“斯普特尼克时刻”时刻,这非常令人兴奋。但是你认为,在深度学习领域的前辈们获得图灵奖之后,业界显然会更加关注深度学习。你对强化学习受到更多关注感到兴奋吗?或者说,你觉得这种关注意味着什么?

Richard S. Sutton: 我们将尝试利用这一点。我们有一个图灵讲座,还有一篇图灵论文。从与Andy和其他人的交流来看,我认为其中会有很多历史性的内容。但我们也会尝试解释,什么是强化学习?它到底是什么?

Richard S. Sutton: 一种解释是,它是关于从经验中学习。 很多事情都不是从经验中学习。我是说从人类那里学习,显然大语言模型、是从人类那里学习的,因为它们模仿人类。甚至人类反馈的强化学习(RHLF)也高度依赖人类的指导。而强化学习是关于从经验中学习,经验是显而易见的学习方式。所以我真的认为这是显而易见的事情。 强化学习是理所应当的

AlanTuring谈到了从经验中学习。他是第一个将这个概念用于能从经验中学习的机器的人。当然,动物一直都在从经验中学习。但他在1947年给伦敦数学学会的演讲中提到, 我们想要的是一台能从经验中学习的机器。 这可以说是关于AI的第一次公开演讲。

主持人: 这太不可思议了。

Richard S. Sutton: 他谈到了经验,谈到了奖励和惩罚,谈到了所有这些。并且他在随后的几年里做了一些相关的工作。所以, 这与图灵奖息息相关,因为它与Turing本人有关。

Richard S. Sutton: 强化学习的第一个关键点是我们从奖励和惩罚中学习,从评估性反馈中学习。 为什么我们要从评估性反馈中学习?因为指导性反馈在正常生活中不会自然产生。仅仅与世界互动并不能给你指导性的反馈。你必须处理评估性反馈。你可以处理评估性反馈,因为赢得比赛、获得食物或者将死对方就是一种评估。然后第二步是所有那些并非直接奖励的经验,就像日常发生的事情一样,告诉你世界运作的方式,换句话说,就是基于模型的强化学习。

Richard S. Sutton: 所以从经验中学习,这是我们必须实现的关键思想。

主持人: 从AlanTuring最初的演讲到现在,这是一条非常酷的传承之路。这个领域经历了很多不同的流行方向。你是如何始终专注于你认为最重要和最正确的事情的?你是怎么一直坚持下来的?

Richard S. Sutton: Andy和我就像是在所有变革中的一个坚固支点。从一开始,我们就坚信:" 从经验中学习是正确的方向。 奖励与惩罚这一机制非常合理。让我们深入研究这个领域。"随后,我们投入大量研究,试图寻找其他领域是否有人进行过类似探索,结果发现相关工作寥寥无几。于是我们决定:"虽然几乎无人涉足,但这个方向值得被开拓。这应该成为一个独立的研究领域,我们愿意先行一步。让我们编写一本这方面的教科书,使它成为一个真正的学术领域。让我们努力提高人们对此的关注度。"这既不是专家系统,也不是监督学习,但我们一直认为它具有重要价值,并始终以一种不夸大其词、直截了当的方式表达这一观点。如今,人们开始关注这一领域,并逐渐意识到AI时代即将到来,大家也因此倍感振奋。







请到「今天看啥」查看全文