专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
51好读  ›  专栏  ›  CDCC

图灵奖授予强化学习之父Richard Sutton与导师Andrew Barto

CDCC  · 公众号  ·  · 2025-03-06 11:55

正文

请到「今天看啥」查看全文


2025年3月5日,计算机领域的诺贝尔奖-图灵奖颁给了强化学习领域的两位先驱:安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)。这两位学者的研究成果极大的推动了人工智能的发展。

ACM 图灵奖常被称为“计算机领域的诺贝尔奖 ,奖金为100万美元,由谷歌公司提供资金支持。该奖项以提出计算数学基础的英国数学家艾伦・图灵命名。

此次获奖的两位学者都是对强化学习做出奠基性贡献的著名研究者,Richard Sutton更是有“强化学习之父 的美誉。Andrew Barto则是Sutton的博士导师。自1980年代起,两位学者在一系列论文中提出了强化学习的主要思想,还构建了强化学习的数学基础,并开发了强化学习的重要算法。两人合著的《Reinforcement Learning: An Introduction》一直是强化学习领域最经典的教材之一。

ACM主席Yannis Ioannidis 表示:“Barto和Sutton的工作展示了应用多学科方法应对我们领域长期挑战的巨大潜力。从认知科学、心理学到神经科学的研究领域激发了强化学习的发展,这为AI的一些最重要的进展奠定了基础,并让我们更深入地了解到大脑的工作原理。Barto和Sutton的工作并不是我们已经跨越的垫脚石。强化学习仍在不断发展,并为计算和许多其他学科的进一步发展提供了巨大的潜力。这个领域最有声望的奖项对于他们而言,实至名归。”

谷歌高级副总裁Jeff Dean说道:“艾伦·图灵在1947年的一次演讲中提到‘我们想要的是一台能够从经验中学习的机器’。由Barto和Sutton开创的强化学习直接回答了图灵的问题。他们的工作是过去几十年AI进步的关键。他们开发的工具仍然是AI繁荣的核心支柱,并取得了重大进展,吸引了大批年轻研究人员,并带动了数十亿美元的投资。RL的影响将延续到未来。谷歌很荣幸赞助ACM A.M.图灵奖,并向那些塑造了改善我们生活的技术的个人致敬。”

强化学习:人工智能的核心驱动力

究竟什么是强化学习呢? 人工智能领域通常会比较关注智能体的构建 —— 即可以感知和行动的实体。更智能的智能体能够选择更好的行动方案。因此,想出比其他方案更好行动方案概念,对AI非常关键。借用自心理学和神经科学的「奖励」— 词,表示向智能体提供的与其行为质量相关的信号。强化学习(RL)是在这种信号下学习更成功行为的过程。

简单来说,强化学习是机器学习中的一个领域,强调智能体(agent)如何在环境中采取一系列行动,以最大化累积奖励。智能体通过与环境进行交互,从环境反馈的奖励信号中学习到最优的行为策略。与传统机器学习依赖大量有标记数据不同,强化学习中的智能体就像是一个勇敢的探索者,在未知的环境中不断尝试,通过 “试错” 来积累经验,从而找到最佳的行动方案 。

以我们熟悉的Google AlphaGo为例,它就是强化学习的一个典型应用。它通过自我对弈数百万次,在每一次落子决策中,根据当前棋盘状态选择行动(落子位置),并在对弈结束后,根据胜负结果获得奖励(赢棋获得正奖励,输棋获得负奖励。通过不断地尝试和学习,AlphaGo逐渐找到了在各种棋盘状态下的最优落子策略,从而拥有了超越人类的围棋水平。

再看OpenAI的ChatGPT,虽然它主要是基于自然语言处理技术,但强化学习在其中也发挥了重要作用。在ChatGPT的训练过程中,研究人员采用了 “基于人类反馈的强化学习”(RLHF)技术。简单来讲,在ChatGPT生成回答后,人类评估者会对这些回答进行打分和排序,模型根据这些反馈信号来调整自己的策略,使得生成的回答更符合人类的期望和偏好,从而能够以更自然、更准确的方式与用户进行对话。

再说到最近引爆全球AI技术爆发的DeepSeek R1,其中的强化学习算法GRPO赋予了大模型极强的推理能力,且不需要大量监督微调,是AI性能突破的核心。
由此可见,最近的几次AI突破,背后总有强化学习的身影。
先驱的探索之路:从理论到实践
通过奖励学习的理念对动物训练师来说已有数千年历史。后来,艾伦・图灵 1950 年的论文《计算机械与智能》提出了「机器能思考吗?」的问题,并提出了基于奖励和惩罚的机器学习方法。
图灵报告说他进行了一些初步实验,Arthur Samuel也在1950年代后期开发了一个能通过自我对弈学习的跳棋程序。但在接下来的几十年里,AI的这一方向进展甚微。
直至1980年代初,受心理学观察的启发,Andrew Barto和他的博士生Richard Sutton开始将强化学习作为一个通用问题框架进行构建。
他们借鉴了马尔可夫决策过程(MDP)提供的数学基础,在这个框架中,智能体在随机环境中做出决策,每次转换后收到奖励信号,并最大化其长期累积奖励。
与标准 MDP 理论假设智能体知道一切不同,RL框架允许环境和奖励是未知的。RL的最小信息需求,结合MDP框架的通用性,使RL算法可以应用于广泛的问题。
Andrew Barto和Richard Sutton联手或者协同他人,都开发了许多RL基本算法。其中包括他们最重要的贡献 —— 时间差分学习(该算法为解决奖励预测问题取得了重要进展),以及策略梯度方法和使用神经网络作为表示学习函数的工具。他们还提出了结合学习和规划的智能体设计,展示了获取环境知识作为规划基础的价值。
同样有影响力的是他们的教科书《Reinforcement Learning: An Introduction》(1998),它仍然是该领域的标准参考,被引用超过79,000次。这本书让数千名研究人员理解并为这一新兴领域做出贡献,至今仍激发着计算机科学领域的许多重要研究活动。
尽管Barto和Sutton的算法是数十年前开发的,但通过将强化学习与深度学习(由2018年图灵奖获得者Bengio、Hinton、LeCun开创)相结合,强化学习的实际应用已在过去十五年中取得重大进展。于是,深度强化学习技术应运而生。

强化学习的广泛应用与未来展望

强化学习在许多其他领域也取得了成功,其中之一是机器人运动技能学习。通过强化学习,机器手可以学会操作物体和解决物理问题;并且这种学习过程可在模拟中完成,然后再迁移到现实世界。一个备受瞩目的研究案例是手持机器人操纵和解决物理问题(鲁比克魔方)过程中的机器人运动技能学习,这表明有可能在模拟中进行所有强化学习,但最终在截然不同的现实世界中取得成功。
强化学习适用的领域还包括网络拥堵控制、芯片设计、互联网广告、优化、全球供应链优化、改进聊天机器人的行为和推理能力,甚至改进矩阵乘法算法 —— 这是计算机科学中最古老的问题之一。
最后,强化学习还反过来助力了神经科学的发展 —— 强化学习正是受到了该学科的启发。最近的研究,包括Barto的研究成果,已经表明AI领域开发的某些强化学习算法可为涉及人类大脑中多巴胺系统的广泛发现提供最佳解释。

展望未来,强化学习有着更加广阔的应用前景 。随着技术的不断进步,我们有理由相信,强化学习将在更多领域得到应用,并带来更多的创新和突破。

个人背景

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。他于1977年作为博士后研究助理在马萨诸塞大学阿默斯特分校开始职业生涯,此后担任过多个职位,包括副教授、教授和系主任。Barto在密歇根大学获得数学学士学位(优等),并在那里获得了计算机与通信科学的硕士和博士学位。
Barto的荣誉包括马萨诸塞大学神经科学终身成就奖、IJCAI 研究卓越奖(Research Excellence Award)和IEEE神经网络学会先驱奖。他是电气和电子工程师协会(IEEE)会士和美国科学促进会(AAAS)会士。
Richard S. Sutton是阿尔伯塔大学计算机科学教授、Keen Technologies(一家总部位于德克萨斯州达拉斯的通用人工智能公司)的研究科学家,以及阿尔伯塔机器智能研究所(Amii)的首席科学顾问。Sutton从2017年到2023年是DeepMind的杰出研究科学家。在加入阿尔伯塔大学之前,他曾于1998年至2002年在新泽西州 Florham Park的AT&T香农实验室人工智能部门担任首席技术人员。
Sutton与Andrew Barto的合作始于1978年,当时在马萨诸塞大学阿默斯特分校,Barto是Sutton的博士和博士后导师。Sutton在斯坦福大学获得心理学学士学位,在马萨诸塞大学阿默斯特分校获得计算机与信息科学的硕士和博士学位。
Sutton的荣誉包括获得IJCAI研究卓越奖、加拿大人工智能协会终身成就奖和马萨诸塞大学阿默斯特分校的杰出研究成就奖。Sutton是伦敦皇家学会会士、人工智能促进协会会士和加拿大皇家学会会士。
参考链接
https://x.com/TheOfficialACM/status/1897225672935735579
https://amturing.acm.org/

第三届数据中心液冷大会”将于2025年3月27日在杭州召开 ,这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇,助力行业蓬勃发展。


关键词: 液冷、全栈、最佳实践、芯片、服务器、基础设施

嘉宾规模:500+专业人士

会议形式: 展览展示+主旨演讲+技术分享+应用案例参观

关注我们获取更多精彩内容


往期推荐

● 深入探究:英伟达GB300 GPU芯片液冷技术方案

● 2025年数据中心专家技术组第二批专家公示

● 聚焦创新力量,液冷技术大会首度落地杭州

● 数据中心建设热潮持续扩张,2025年欧洲将新增1GW托管容量







请到「今天看啥」查看全文