专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
黄建同学  ·  Huggingface的The Ultra ... ·  11 小时前  
量子位  ·  阿里推理模型一战封神!32B硬刚671B ... ·  16 小时前  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与!//@爱可可 ... ·  昨天  
爱可可-爱生活  ·  今日推介(第1700期):扩展基于流的蛋白质 ... ·  昨天  
51好读  ›  专栏  ›  宝玉xp

人工智能的最高奖项——图灵奖,近日颁给了强化学习领域的两位先驱:-20250306004257

宝玉xp  · 微博  · AI  · 2025-03-06 00:42

正文

2025-03-06 00:42

人工智能的最高奖项——图灵奖,近日颁给了强化学习领域的两位先驱:安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)。他们提出的强化学习理论,如今已成为ChatGPT等热门AI系统背后的核心技术。

故事的起点是1977年,当时巴托在美国麻省大学阿默斯特分校做研究。他提出了一个有趣的想法:大脑里的神经细胞就像一个个追求享乐、躲避痛苦的小生命。也就是说,人类智慧其实源自无数个细胞为了最大化快乐、减少痛苦而不断摸索。

一年后,萨顿加入了巴托的研究。他们将这个简单但巧妙的理论应用到了人工智能上,形成了我们今天熟悉的「强化学习」。通俗点讲,强化学习就是让机器通过类似人类的“奖惩机制”来学习做事。表现好就给“奖励”(机器感觉到的“快乐”),表现不好就给予“惩罚”(机器感受到的“痛苦”)。这样不断尝试、不断反馈,机器就能逐渐掌握如何做出更好的决定。

2025年3月5日,全球最大的计算机协会——计算机协会(Association for Computing Machinery)宣布,巴托和萨顿获得了今年的图灵奖。这一奖项创立于1966年,被誉为“计算机界的诺贝尔奖”,他们也将分享100万美元的奖金。

强化学习最近十年里在人工智能领域爆发式增长,影响深远。谷歌的AlphaGo围棋机器人,还有OpenAI开发的ChatGPT聊天机器人背后的技术,都是强化学习的直接成果。

正如华盛顿大学的计算机科学家奥伦·埃齐奥尼(Oren Etzioni)所说:“他们俩是强化学习领域毫无争议的开创者,他们创造了核心理论,还写了这领域的权威教材。”

他们在1998年出版的教材《强化学习导论》至今仍是强化学习最经典的教科书之一。

心理学家早就观察到,人和动物都会从经验中学习。早在1940年代,著名计算机科学家艾伦·图灵就提出,机器也许可以通过类似的方法来学习。但真正把这一想法数学化、系统化的,是巴托和萨顿。他们的研究最初只是学术理论,直到2016年AlphaGo打败了世界顶级围棋选手李世石,这项技术才震惊了全世界。

AlphaGo之所以强大,是因为它在背后进行了数百万场对局,每一步都靠试错的方式学习,找到了哪些走法会赢,哪些走法会输。这背后的技术团队负责人之一大卫·席尔弗(David Silver)正是在加拿大阿尔伯塔大学跟随萨顿学习强化学习的。

当然,很多专家曾怀疑强化学习是否能应用到游戏之外的场景。毕竟游戏胜负清晰,而现实生活中成功和失败却并不总那么简单。

但强化学习的应用早已突破游戏领域,比如如今大热的聊天机器人。像ChatGPT在发布前,OpenAI聘请了数百人跟它进行对话,并给出具体的反馈意见。ChatGPT就根据这些“奖惩反馈”不断优化自己,逐渐学会了更接近人类的对话方式。

这种技术就被称作“人类反馈强化学习”(RLHF)。最近,OpenAI和中国的创业公司DeepSeek更进一步,开发出了一种新型强化学习,让机器人不需要人为干预,就能通过不断自我尝试解决数学题,逐步学会更复杂的推理过程。这些新型AI被称作“推理系统”,比如OpenAI的o1以及DeepSeek的R1。






请到「今天看啥」查看全文