专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  【[18星]MPO:用Meta Plan ... ·  昨天  
网信湖北  ·  大爆发!全网一码难求!他来自华科大 ·  昨天  
网信湖北  ·  大爆发!全网一码难求!他来自华科大 ·  昨天  
黄建同学  ·  腾讯HunyuanVideo-I2V的Dem ... ·  2 天前  
机器之心  ·  360智脑开源Light-R1!1000美元 ... ·  3 天前  
黄建同学  ·  AI ... ·  3 天前  
51好读  ›  专栏  ›  宝玉xp

//@-马小虎-:大哥,不,财神爷!您老挪挪,容小弟给您跪下-20250306105515

宝玉xp  · 微博  · AI  · 2025-03-06 10:55

正文

2025-03-06 10:55

// @-马小虎- :大哥,不,财神爷!您老挪挪,容小弟给您跪下 [笑cry]
#模型时代# 图灵奖得主、强化学习之父Richard S. Sutton访谈:科学中没有权威,大家都是智力上的同龄人。

Richard S. Sutton和Andy Barto共同获得图灵奖后,Amii(阿尔伯塔机器智能研究所)首席执行官Cam Linke马上和Sutton做了一场独家对话。Sutton教授也是Amii的首席科学顾问。

Sutton说了他获知获奖消息的那一刻的情况:"一个奇怪的电话,只是想安排一个会议,我完全不知道是关于什么的。"当他和Andy Barto最终意识到他们获得了图灵奖时,两人都感到震惊。"图灵奖,哇。这是计算机科学家能获得的最高奖项,"Sutton说,"人们对你寄予厚望,你必须不辜负这一期望。"

他说科学领域没有权威,但是谈到强化学习,他又将他创造发明的技术谦逊的在灵感上归功于图灵。当时图灵在1947年对伦敦数学学会的演讲中,说了一句话,'我们想要的是...一台从经验中学习的机器。'那是有史以来第一次关于人工智能的公开演讲。"。现在看来,也是强化学习的哲学体系。

大模型出现之后,强化学习曾经略显沉寂,但现在因为推理模型等思路的兴起,大家普遍把目光重新聚焦到强化学习,比如之前发过的一篇:强化学习的Imagenet时刻即将到来 : 网页链接 。如果对强化学习不熟悉,则可以看这个小的科普:十分钟了解强化学习: 网页链接

***
访谈概要:

一、从经验中学习:强化学习的本质
在谈到强化学习的核心理念时,Sutton教授阐明了它与其他机器学习方法的本质区别。"强化学习是关于从经验中学习,"他解释道,"很多东西不是从经验中学习,而是从人那里学习。显然,大型语言模型是从人那里学习的,因为它们模仿人类。甚至RLHF(基于人类反馈的强化学习)也非常依赖于人类的指导。相比之下,强化学习是关于从经验中学习。"

Sutton进一步指出,强化学习的关键在于处理评估性反馈而非指导性反馈:"我们学习评估性反馈的原因是因为在正常生活中,从经验中获得的不是指导性反馈。仅仅与世界互动不会给你指导性反馈,你必须处理评估。"他举例说明,赢得游戏、获取食物或赢得伴侣都是评估的形式,这正是强化学习的工作方式。

二、人工智能的历史根源
在对话中,Sutton教授揭示了强化学习与图灵本人工作之间的深刻联系。"Alan Turing谈到过从经验中学习。他是第一个为从经验中学习的机器这样做的人,"Sutton解释道,"在他1947年对伦敦数学学会的演讲中,他有一句话,'我们想要的是...一台从经验中学习的机器。'那是有史以来第一次关于人工智能的公开演讲。"

Sutton指出,图灵不仅谈到了经验,还谈到了奖励和惩罚——正是这些概念构成了今天强化学习的基础。他认为,从经验中学习的关键思想是强化学习必须发扬光大的核心理念,这一点从图灵的原始演讲一直延续到今天。

三、保持坚守:强化学习研究的长跑
当被问及如何在领域内不断变化的潮流中保持对强化学习的专注时,Sutton教授将他和Andy Barto比作"所有发生的事情中的一个不动点"。他回忆道:"我们在一开始就说,哦,从经验中学习,那是正确的事情。奖励和惩罚,是的,这说得通。让我们弄清楚这一点。"

尽管时代变迁,研究热点不断转移,但Sutton和Barto始终坚持这一核心理念。他们进行了广泛的研究,与其他领域建立联系,并通过教科书的编写促进了强化学习作为一个独立领域的发展。Sutton解释道:"这不是专家系统,也不是监督学习。这看起来很重要,我们一直这么说,希望以一种不夸张的方式,只是以一种直接的方式。"这种坚持最终在AlphaGo和DeepZeek等突破性成就中得到了回报。

四、科学研究中的平衡:雄心与谦逊
Sutton教授向年轻研究者提供的建议集中在一个关键平衡上:"做研究要雄心勃勃,但不要傲慢。"他认为雄心对于追求重大突破至关重要,但同时警告说,一旦决定要有雄心,就容易变得傲慢,这是需要避免的。






请到「今天看啥」查看全文