在 2015 年 10 月,AlphaGo 以 5:0 的比分全胜欧洲围棋大赛冠军,就此成为战胜人类职业围棋选手的第一个计算机程序。不久,在 2016 年 3 月,AlphaGo 又以 4:1 的比分打败了拿过 18 次世界冠军的李世石,一时震惊世界。这是人工智能发展史上的里程碑。解决围棋问题,不仅难在其高达 250,150 的巨型搜索空间,也难在位置评估上,尽管这一技术已经成功应用在解决其它战略游戏上,如双陆棋和国际象棋。
AlphaGo 的内部技术包括了深度 CNN,监督式学习,强化学习,以及蒙特卡洛搜索树 (MCTS) 等。AlphaGo 由两个阶段组成:神经网络训练通道,以及蒙特卡洛搜索。前者包括一个用专家棋谱进行训练的监督学习策略网络、一个快速走子策略、一个深度学习策略网络、以及一个深度学习价值网络。
其中,监督学习策略网络使用了多个卷积层、ReLU 非线性函数、以及一个输出 softmax 函数层来表示落子的概率分布。而训练 CNN 使用的输入数据为 19 × 19 × 48 的图像栈,其中 19 是围棋棋盘的宽度,48 是特征总数。状态-行动对则是从专家棋谱中采样,并通过随机梯度上升训练网络,以最大化给定状态下一个落子点的概率。快速走姿策略则使用了含有小型模式特征的线性 softmax。
在同样的网络结构和初始权重值下,通过策略梯度训练,RL 策略网络能够大幅优化监督学习策略网络。在终止状态,奖励函数对「赢」+1,「输」-1,否则为 0。实战在现有的策略网络和一个对网络的随机重复中进行,以稳定学习过程,并防止过度拟合。
新采用的 RL 价值网络,与原有的监督学习策略网络的结构还是一样的,除了它的输出改为了单个标量,作为对特定落子点的预测。价值网络是通过蒙特卡洛策略评估方法进行学习的。因为连续的几个落子点的位置高度相关,过度拟合成为一个需要解决的问题。因此,数据都是通过 RL 策略网络自我对战而得到的。权重则是从状态-输出变量对中回归训练得到的,其中使用了随机梯度下降来最小化预测值与对应输出的均方误差。在蒙特卡洛搜索树阶段,AlphaGo 通过前瞻式搜索进行选子。它会构建一个从当前状态开始的不完整树,其中包括这几个阶段:1)选择一个节点进行下一步探索,2)根据 SL 策略网络和统计结果扩展树叶节点,3)混合使用 RL 价值网络和走子策略对树叶节点进行评估,4)储存评估结果,并更新行动参数。至此,下一步棋就选出来了。
其它阅读材料
Sutton, R. S. and Barto, A. G. (2017). *Reinforcement Learning: An Introduction (2nd Edition, in preparation)*. Section 16.7. http://incompleteideas.net/sutton/book/the-book-2nd.html
推荐者介绍:
本期研习材料由 Yuxi Li 博士推荐。Yuxi Li 博士是加拿大阿尔伯塔大学(University of Alberta)计算机系博士、博士后。致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。2017 年 1 月在 arXiv 上发表 Deep Reinforcement Learning: An Overview 深度强化学习综述论文,https://arxiv.org/abs/1701.07274.
机器之心曾经发表过的介绍强化学习的文章:
深度学习漫游指南:强化学习概览
ACM 最新月刊文章:强化学习的复兴
论文|用于对话生成的深度强化学习
重磅 | 详解DeepMind深度强化学习,搭建DQN详细指南(附论文)
专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)
本期线上活动 :围观乌镇比赛
去年,来自 DeepMind 的 AlphaGo 与李世石的围棋大战让人印象深刻。而今年 5 月 23 日至 27 日,AlphaGo 将在「中国乌镇·围棋峰会」上与以柯洁为代表的顶尖棋手进行对弈。
此次峰会特别设计了 AlphaGo 与中国顶尖棋手的多种比赛形式,包括人机配对赛和团队赛。具体如下:
人机配对赛:中国职业棋手将与另一名职业棋手对弈——只不过每一方棋手都将有 AlphaGo 作为自己的队友与他们交替落子。
团队赛 :由五位中国顶尖棋手组队与 AlphaGo 进行对弈,共同测试 AlphaGo 在面对组合风格时所展现的创造力和适应性。
柯洁对阵 AlphaGo:AlphaGo 与世界排名第一的棋手柯洁进行三番棋对弈。
去年的 AlphaGo 版本被认为还不是很完善,当时 AlphaGo 主要是依靠大量学习人类棋手的棋谱来提高棋艺。随后 AlphaGo 进入到完全的自我深度学习阶段,也就是完全摒弃人类棋手的思维方式,按照自己(左右互搏)的方式研究围棋。去年年底,AlphaGo 化名 Master,在网络上与人类顶尖棋手下了 60 盘测试棋,取得 60 局全胜的骄人战绩。通过那次测试,谷歌旗下的 DeepMind 又发现了 AlphaGo 不少需要完善的地方,5 月中下旬即将与柯洁进行正式人机大战的,将是 AlphaGo2.0 版本。
除此之外,此次比赛还有其它值得关注的方面:
在快棋对弈中所向披靡的 AlphaGo,是否会在慢棋对弈中给人类机会?
AlphaGo1.0 曾在李世石比赛中被击中「命门」,进阶升级后的 AlphaGo 是否还会存在弱项?
AlphaGo 所需要的计算资源上,是采用远程支持的形式,还是会搬服务器到现场?AlphaGo 的单机版本推出还有多远?
在挑战柯洁之后,AlphaGo 是否会宣布实际商业应用或核心进军的领域?AlphaGo 往何处去?也是外界对人工智能具体商用的期待之一。
入群方式:
添加机器之心小助手微信,并注明:加入强化学习组
完成小助手发送的入群测试(题目会根据每期内容变化),并提交答案,以及其他相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)
小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」
进群后会收到当周的学习材料和学习进度安排,根据指导进行有针对性的学习和讨论 (群内会有单独的文件进行推送)
入群测试 QUIZ
1. 请比较 Q-learning 和 policy gradient 两种算法
2. AlphaGo 中用了哪些人工智能技术?它们如何协同工作?
3. AlphaGo 核心技术有哪些应用?
点击阅读原文,报名参与机器之心 GMIS 2017 ↓↓↓