//
@-马小虎-
:大哥,不,财神爷!您老挪挪,容小弟给您跪下
#模型时代#
图灵奖得主、强化学习之父Richard S. Sutton访谈:科学中没有权威,大家都是智力上的同龄人。
Richard S. Sutton和Andy Barto共同获得图灵奖后,Amii(阿尔伯塔机器智能研究所)首席执行官Cam Linke马上和Sutton做了一场独家对话。Sutton教授也是Amii的首席科学顾问。
Sutton说了他获知获奖消息的那一刻的情况:"一个奇怪的电话,只是想安排一个会议,我完全不知道是关于什么的。"当他和Andy Barto最终意识到他们获得了图灵奖时,两人都感到震惊。"图灵奖,哇。这是计算机科学家能获得的最高奖项,"Sutton说,"人们对你寄予厚望,你必须不辜负这一期望。"
他说科学领域没有权威,但是谈到强化学习,他又将他创造发明的技术谦逊的在灵感上归功于图灵。当时图灵在1947年对伦敦数学学会的演讲中,说了一句话,'我们想要的是...一台从经验中学习的机器。'那是有史以来第一次关于人工智能的公开演讲。"。现在看来,也是强化学习的哲学体系。
大模型出现之后,强化学习曾经略显沉寂,但现在因为推理模型等思路的兴起,大家普遍把目光重新聚焦到强化学习,比如之前发过的一篇:强化学习的Imagenet时刻即将到来 : 网页链接 。如果对强化学习不熟悉,则可以看这个小的科普:十分钟了解强化学习: 网页链接 。
***
访谈概要:
一、从经验中学习:强化学习的本质
在谈到强化学习的核心理念时,Sutton教授阐明了它与其他机器学习方法的本质区别。"强化学习是关于从经验中学习,"他解释道,"很多东西不是从经验中学习,而是从人那里学习。显然,大型语言模型是从人那里学习的,因为它们模仿人类。甚至RLHF(基于人类反馈的强化学习)也非常依赖于人类的指导。相比之下,强化学习是关于从经验中学习。"
Sutton进一步指出,强化学习的关键在于处理评估性反馈而非指导性反馈:"我们学习评估性反馈的原因是因为在正常生活中,从经验中获得的不是指导性反馈。仅仅与世界互动不会给你指导性反馈,你必须处理评估。"他举例说明,赢得游戏、获取食物或赢得伴侣都是评估的形式,这正是强化学习的工作方式。
二、人工智能的历史根源
在对话中,Sutton教授揭示了强化学习与图灵本人工作之间的深刻联系。"Alan Turing谈到过从经验中学习。他是第一个为从经验中学习的机器这样做的人,"Sutton解释道,"在他1947年对伦敦数学学会的演讲中,他有一句话,'我们想要的是...一台从经验中学习的机器。'那是有史以来第一次关于人工智能的公开演讲。"
Sutton指出,图灵不仅谈到了经验,还谈到了奖励和惩罚——正是这些概念构成了今天强化学习的基础。他认为,从经验中学习的关键思想是强化学习必须发扬光大的核心理念,这一点从图灵的原始演讲一直延续到今天。
三、保持坚守:强化学习研究的长跑
当被问及如何在领域内不断变化的潮流中保持对强化学习的专注时,Sutton教授将他和Andy Barto比作"所有发生的事情中的一个不动点"。他回忆道:"我们在一开始就说,哦,从经验中学习,那是正确的事情。奖励和惩罚,是的,这说得通。让我们弄清楚这一点。"
尽管时代变迁,研究热点不断转移,但Sutton和Barto始终坚持这一核心理念。他们进行了广泛的研究,与其他领域建立联系,并通过教科书的编写促进了强化学习作为一个独立领域的发展。Sutton解释道:"这不是专家系统,也不是监督学习。这看起来很重要,我们一直这么说,希望以一种不夸张的方式,只是以一种直接的方式。"这种坚持最终在AlphaGo和DeepZeek等突破性成就中得到了回报。
四、科学研究中的平衡:雄心与谦逊
Sutton教授向年轻研究者提供的建议集中在一个关键平衡上:"做研究要雄心勃勃,但不要傲慢。"他认为雄心对于追求重大突破至关重要,但同时警告说,一旦决定要有雄心,就容易变得傲慢,这是需要避免的。
Richard S. Sutton和Andy Barto共同获得图灵奖后,Amii(阿尔伯塔机器智能研究所)首席执行官Cam Linke马上和Sutton做了一场独家对话。Sutton教授也是Amii的首席科学顾问。
Sutton说了他获知获奖消息的那一刻的情况:"一个奇怪的电话,只是想安排一个会议,我完全不知道是关于什么的。"当他和Andy Barto最终意识到他们获得了图灵奖时,两人都感到震惊。"图灵奖,哇。这是计算机科学家能获得的最高奖项,"Sutton说,"人们对你寄予厚望,你必须不辜负这一期望。"
他说科学领域没有权威,但是谈到强化学习,他又将他创造发明的技术谦逊的在灵感上归功于图灵。当时图灵在1947年对伦敦数学学会的演讲中,说了一句话,'我们想要的是...一台从经验中学习的机器。'那是有史以来第一次关于人工智能的公开演讲。"。现在看来,也是强化学习的哲学体系。
大模型出现之后,强化学习曾经略显沉寂,但现在因为推理模型等思路的兴起,大家普遍把目光重新聚焦到强化学习,比如之前发过的一篇:强化学习的Imagenet时刻即将到来 : 网页链接 。如果对强化学习不熟悉,则可以看这个小的科普:十分钟了解强化学习: 网页链接 。
***
访谈概要:
一、从经验中学习:强化学习的本质
在谈到强化学习的核心理念时,Sutton教授阐明了它与其他机器学习方法的本质区别。"强化学习是关于从经验中学习,"他解释道,"很多东西不是从经验中学习,而是从人那里学习。显然,大型语言模型是从人那里学习的,因为它们模仿人类。甚至RLHF(基于人类反馈的强化学习)也非常依赖于人类的指导。相比之下,强化学习是关于从经验中学习。"
Sutton进一步指出,强化学习的关键在于处理评估性反馈而非指导性反馈:"我们学习评估性反馈的原因是因为在正常生活中,从经验中获得的不是指导性反馈。仅仅与世界互动不会给你指导性反馈,你必须处理评估。"他举例说明,赢得游戏、获取食物或赢得伴侣都是评估的形式,这正是强化学习的工作方式。
二、人工智能的历史根源
在对话中,Sutton教授揭示了强化学习与图灵本人工作之间的深刻联系。"Alan Turing谈到过从经验中学习。他是第一个为从经验中学习的机器这样做的人,"Sutton解释道,"在他1947年对伦敦数学学会的演讲中,他有一句话,'我们想要的是...一台从经验中学习的机器。'那是有史以来第一次关于人工智能的公开演讲。"
Sutton指出,图灵不仅谈到了经验,还谈到了奖励和惩罚——正是这些概念构成了今天强化学习的基础。他认为,从经验中学习的关键思想是强化学习必须发扬光大的核心理念,这一点从图灵的原始演讲一直延续到今天。
三、保持坚守:强化学习研究的长跑
当被问及如何在领域内不断变化的潮流中保持对强化学习的专注时,Sutton教授将他和Andy Barto比作"所有发生的事情中的一个不动点"。他回忆道:"我们在一开始就说,哦,从经验中学习,那是正确的事情。奖励和惩罚,是的,这说得通。让我们弄清楚这一点。"
尽管时代变迁,研究热点不断转移,但Sutton和Barto始终坚持这一核心理念。他们进行了广泛的研究,与其他领域建立联系,并通过教科书的编写促进了强化学习作为一个独立领域的发展。Sutton解释道:"这不是专家系统,也不是监督学习。这看起来很重要,我们一直这么说,希望以一种不夸张的方式,只是以一种直接的方式。"这种坚持最终在AlphaGo和DeepZeek等突破性成就中得到了回报。
四、科学研究中的平衡:雄心与谦逊
Sutton教授向年轻研究者提供的建议集中在一个关键平衡上:"做研究要雄心勃勃,但不要傲慢。"他认为雄心对于追求重大突破至关重要,但同时警告说,一旦决定要有雄心,就容易变得傲慢,这是需要避免的。