//@-马小虎-:大哥，不，财神爷！您老挪挪，容小弟给您跪下-20250306105515_宝玉xp的专栏文章_微信文章

// @-马小虎- :大哥，不，财神爷！您老挪挪，容小弟给您跪下

#模型时代# 图灵奖得主、强化学习之父Richard S. Sutton访谈：科学中没有权威，大家都是智力上的同龄人。

Richard S. Sutton和Andy Barto共同获得图灵奖后，Amii（阿尔伯塔机器智能研究所）首席执行官Cam Linke马上和Sutton做了一场独家对话。Sutton教授也是Amii的首席科学顾问。

Sutton说了他获知获奖消息的那一刻的情况："一个奇怪的电话，只是想安排一个会议，我完全不知道是关于什么的。"当他和Andy Barto最终意识到他们获得了图灵奖时，两人都感到震惊。"图灵奖，哇。这是计算机科学家能获得的最高奖项，"Sutton说，"人们对你寄予厚望，你必须不辜负这一期望。"

他说科学领域没有权威，但是谈到强化学习，他又将他创造发明的技术谦逊的在灵感上归功于图灵。当时图灵在1947年对伦敦数学学会的演讲中，说了一句话，'我们想要的是...一台从经验中学习的机器。'那是有史以来第一次关于人工智能的公开演讲。"。现在看来，也是强化学习的哲学体系。

大模型出现之后，强化学习曾经略显沉寂，但现在因为推理模型等思路的兴起，大家普遍把目光重新聚焦到强化学习，比如之前发过的一篇：强化学习的Imagenet时刻即将到来：

网页链接。如果对强化学习不熟悉，则可以看这个小的科普：十分钟了解强化学习：

网页链接。

***
访谈概要：

一、从经验中学习：强化学习的本质
在谈到强化学习的核心理念时，Sutton教授阐明了它与其他机器学习方法的本质区别。"强化学习是关于从经验中学习，"他解释道，"很多东西不是从经验中学习，而是从人那里学习。显然，大型语言模型是从人那里学习的，因为它们模仿人类。甚至RLHF(基于人类反馈的强化学习)也非常依赖于人类的指导。相比之下，强化学习是关于从经验中学习。"

Sutton进一步指出，强化学习的关键在于处理评估性反馈而非指导性反馈："我们学习评估性反馈的原因是因为在正常生活中，从经验中获得的不是指导性反馈。仅仅与世界互动不会给你指导性反馈，你必须处理评估。"他举例说明，赢得游戏、获取食物或赢得伴侣都是评估的形式，这正是强化学习的工作方式。

二、人工智能的历史根源
在对话中，Sutton教授揭示了强化学习与图灵本人工作之间的深刻联系。"Alan Turing谈到过从经验中学习。他是第一个为从经验中学习的机器这样做的人，"Sutton解释道，"在他1947年对伦敦数学学会的演讲中，他有一句话，'我们想要的是...一台从经验中学习的机器。'那是有史以来第一次关于人工智能的公开演讲。"

Sutton指出，图灵不仅谈到了经验，还谈到了奖励和惩罚——正是这些概念构成了今天强化学习的基础。他认为，从经验中学习的关键思想是强化学习必须发扬光大的核心理念，这一点从图灵的原始演讲一直延续到今天。

三、保持坚守：强化学习研究的长跑
当被问及如何在领域内不断变化的潮流中保持对强化学习的专注时，Sutton教授将他和Andy Barto比作"所有发生的事情中的一个不动点"。他回忆道："我们在一开始就说，哦，从经验中学习，那是正确的事情。奖励和惩罚，是的，这说得通。让我们弄清楚这一点。"

尽管时代变迁，研究热点不断转移，但Sutton和Barto始终坚持这一核心理念。他们进行了广泛的研究，与其他领域建立联系，并通过教科书的编写促进了强化学习作为一个独立领域的发展。Sutton解释道："这不是专家系统，也不是监督学习。这看起来很重要，我们一直这么说，希望以一种不夸张的方式，只是以一种直接的方式。"这种坚持最终在AlphaGo和DeepZeek等突破性成就中得到了回报。

四、科学研究中的平衡：雄心与谦逊
Sutton教授向年轻研究者提供的建议集中在一个关键平衡上："做研究要雄心勃勃，但不要傲慢。"他认为雄心对于追求重大突破至关重要，但同时警告说，一旦决定要有雄心，就容易变得傲慢，这是需要避免的。

//@-马小虎-:大哥，不，财神爷！您老挪挪，容小弟给您跪下-20250306105515

正文

2025-03-06 10:55
本条微博链接

请到「今天看啥」查看全文