专栏名称: 知社学术圈
海归学者发起的公益学术交流平台,旨在分享学术信息,整合学术资源,加强学术交流,促进学术进步
目录
相关文章推荐
中国企业家杂志  ·  加盟咖啡店,还是一门好生意吗?|图说 ·  15 小时前  
清华经管学院职业发展中心  ·  活动 | Optiver ... ·  昨天  
清华经管学院职业发展中心  ·  招聘 | ... ·  2 天前  
人力资源管理  ·  Deepseek提出了打工人在职场中的20个 ... ·  2 天前  
51好读  ›  专栏  ›  知社学术圈

2024年度图灵奖揭晓,又是两位AI先驱!

知社学术圈  · 公众号  ·  · 2025-03-07 09:08

正文

海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月

美国计算机协会(ACM)近日宣布,安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)荣获2024年ACM AM 图灵奖,以表彰他们在强化学习领域奠定的概念与算法基础。自20世纪80年代起,巴托和萨顿通过一系列论文,提出了强化学习的核心思想,构建了其数学框架,并开发了关键算法。强化学习作为构建智能系统的重要方法之一,如今已成为人工智能领域的基石。


什么是强化学习?

人工智能(AI)的核心在于构建能够感知并行动的智能体(agent)。智能体的优劣取决于其选择行动方案的能力,而奖励机制则是评估行动质量的关键。强化学习(Reinforcement Learning, RL)正是通过奖励信号,帮助智能体学习如何更有效地行动。

强化学习的理念可以追溯到数千年前的动物训练方法。1950年,艾伦·图灵在其论文《计算机器与智能》中提出了“机器能否思考”的问题,并建议通过奖励与惩罚来实现机器学习。尽管图灵和亚瑟·塞缪尔(Arthur Samuel)在20世纪50年代末开发了通过自我对弈学习的跳棋程序,但强化学习在随后的几十年中进展缓慢。

直到20世纪80年代初,巴托和他的博士生萨顿受到心理学研究的启发,将强化学习构建为一个通用问题框架。他们借鉴了马尔可夫决策过程(MDP)的数学基础,提出了一种在未知环境中通过奖励信号最大化长期累积收益的学习方法。这一框架使得强化学习算法能够广泛应用于各种复杂问题。

巴托和萨顿还开发了强化学习的核心算法,包括时间差分学习、策略梯度方法以及利用神经网络作为函数表示的工具。他们的工作不仅推动了算法的发展,还提出了将学习与规划相结合的智能体设计理念,为后续研究奠定了基础。

尽管巴托和萨顿的算法诞生于几十年前,但强化学习的实际应用突破主要发生在过去十五年。通过与深度学习相结合(由2018年图灵奖得主Bengio、Hinton和LeCun推动),深度强化学习技术应运而生。 强化学习的标志性成果包括AlphaGo在2016年和2017年战胜世界顶级围棋选手,以及近期ChatGPT的开发。 ChatGPT作为一种大型语言模型,其训练的第二阶段采用了“从人类反馈中强化学习”(RLHF)技术,以更好地捕捉人类期望。

此外,强化学习还在机器人操控、网络拥塞控制、芯片设计、互联网广告优化、全球供应链管理等领域取得了显著成果。甚至在计算机科学中最古老的矩阵乘法算法优化中,强化学习也发挥了重要作用。 值得一提的是,强化学习的研究还反哺了神经科学。 巴托等人的研究表明,某些强化学习算法为人类大脑多巴胺系统的功能提供了最佳解释。


获奖者简介


安德鲁·巴托(Andrew Barto)
马萨诸塞大学阿默斯特分校信息与计算机科学系荣退教授





安德鲁·巴托(Andrew Barto)







请到「今天看啥」查看全文


推荐文章
中国企业家杂志  ·  加盟咖啡店,还是一门好生意吗?|图说
15 小时前
清华经管学院职业发展中心  ·  活动 | Optiver FutureFocus: 开启你的量化交易探索之旅!
昨天
清华经管学院职业发展中心  ·  招聘 | 招贤纳士,多维资本2025年实习生招聘(有留用机会)
2 天前
诗词天地  ·  绝美中国风,惊艳世界!
7 年前