研学· 强化学习 | 围观乌镇比赛，学习AlphaGo核心技术

机器之心 · 公众号 · AI · 2017-05-07 16:25

正文

请到「今天看啥」查看全文

机器之心原创

人工智能研学社

在 2015 年 10 月，AlphaGo 以 5:0 的比分全胜欧洲围棋大赛冠军，就此成为战胜人类职业围棋选手的第一个计算机程序。不久，在 2016 年 3 月，AlphaGo 又以 4:1 的比分打败了拿过 18 次世界冠军的李世石，一时震惊世界。这是人工智能发展史上的里程碑。解决围棋问题，不仅难在其高达 250,150 的巨型搜索空间，也难在位置评估上，尽管这一技术已经成功应用在解决其它战略游戏上，如双陆棋和国际象棋。

AlphaGo 的内部技术包括了深度 CNN，监督式学习，强化学习，以及蒙特卡洛搜索树 (MCTS) 等。AlphaGo 由两个阶段组成：神经网络训练通道，以及蒙特卡洛搜索。前者包括一个用专家棋谱进行训练的监督学习策略网络、一个快速走子策略、一个深度学习策略网络、以及一个深度学习价值网络。

其中，监督学习策略网络使用了多个卷积层、ReLU 非线性函数、以及一个输出 softmax 函数层来表示落子的概率分布。而训练 CNN 使用的输入数据为 19 × 19 × 48 的图像栈，其中 19 是围棋棋盘的宽度，48 是特征总数。状态-行动对则是从专家棋谱中采样，并通过随机梯度上升训练网络，以最大化给定状态下一个落子点的概率。快速走姿策略则使用了含有小型模式特征的线性 softmax。

在同样的网络结构和初始权重值下，通过策略梯度训练，RL 策略网络能够大幅优化监督学习策略网络。在终止状态，奖励函数对「赢」+1，「输」-1，否则为 0。实战在现有的策略网络和一个对网络的随机重复中进行，以稳定学习过程，并防止过度拟合。

新采用的 RL 价值网络，与原有的监督学习策略网络的结构还是一样的，除了它的输出改为了单个标量，作为对特定落子点的预测。价值网络是通过蒙特卡洛策略评估方法进行学习的。因为连续的几个落子点的位置高度相关，过度拟合成为一个需要解决的问题。因此，数据都是通过 RL 策略网络自我对战而得到的。权重则是从状态-输出变量对中回归训练得到的，其中使用了随机梯度下降来最小化预测值与对应输出的均方误差。在蒙特卡洛搜索树阶段，AlphaGo 通过前瞻式搜索进行选子。它会构建一个从当前状态开始的不完整树，其中包括这几个阶段：1）选择一个节点进行下一步探索，2）根据 SL 策略网络和统计结果扩展树叶节点，3）混合使用 RL 价值网络和走子策略对树叶节点进行评估，4）储存评估结果，并更新行动参数。至此，下一步棋就选出来了。

其它阅读材料

Sutton, R. S. and Barto, A. G. (2017). *Reinforcement Learning: An Introduction (2nd Edition, in preparation)*. Section 16.7. http://incompleteideas.net/sutton/book/the-book-2nd.html

推荐者介绍:

本期研习材料由 Yuxi Li 博士推荐。Yuxi Li 博士是加拿大阿尔伯塔大学（University of Alberta）计算机系博士、博士后。致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授；在美国波士顿任资深数据科学家等。2017 年 1 月在 arXiv 上发表 Deep Reinforcement Learning: An Overview 深度强化学习综述论文，https://arxiv.org/abs/1701.07274.

机器之心曾经发表过的介绍强化学习的文章：

深度学习漫游指南：强化学习概览

ACM 最新月刊文章：强化学习的复兴

论文｜用于对话生成的深度强化学习

重磅 | 详解DeepMind深度强化学习，搭建DQN详细指南（附论文）

专题 | 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）

本期线上活动：围观乌镇比赛

去年，来自 DeepMind 的 AlphaGo 与李世石的围棋大战让人印象深刻。而今年 5 月 23 日至 27 日，AlphaGo 将在「中国乌镇·围棋峰会」上与以柯洁为代表的顶尖棋手进行对弈。

此次峰会特别设计了 AlphaGo 与中国顶尖棋手的多种比赛形式，包括人机配对赛和团队赛。具体如下：

人机配对赛：中国职业棋手将与另一名职业棋手对弈——只不过每一方棋手都将有 AlphaGo 作为自己的队友与他们交替落子。

团队赛：由五位中国顶尖棋手组队与 AlphaGo 进行对弈，共同测试 AlphaGo 在面对组合风格时所展现的创造力和适应性。

柯洁对阵 AlphaGo：AlphaGo 与世界排名第一的棋手柯洁进行三番棋对弈。

去年的 AlphaGo 版本被认为还不是很完善，当时 AlphaGo 主要是依靠大量学习人类棋手的棋谱来提高棋艺。随后 AlphaGo 进入到完全的自我深度学习阶段，也就是完全摒弃人类棋手的思维方式，按照自己（左右互搏）的方式研究围棋。去年年底，AlphaGo 化名 Master，在网络上与人类顶尖棋手下了 60 盘测试棋，取得 60 局全胜的骄人战绩。通过那次测试，谷歌旗下的 DeepMind 又发现了 AlphaGo 不少需要完善的地方，5 月中下旬即将与柯洁进行正式人机大战的，将是 AlphaGo2.0 版本。

除此之外，此次比赛还有其它值得关注的方面：

在快棋对弈中所向披靡的 AlphaGo，是否会在慢棋对弈中给人类机会？

AlphaGo1.0 曾在李世石比赛中被击中「命门」，进阶升级后的 AlphaGo 是否还会存在弱项？

AlphaGo 所需要的计算资源上，是采用远程支持的形式，还是会搬服务器到现场？AlphaGo 的单机版本推出还有多远？

在挑战柯洁之后，AlphaGo 是否会宣布实际商业应用或核心进军的领域？AlphaGo 往何处去？也是外界对人工智能具体商用的期待之一。

入群方式：

添加 机器之心小助手微信 ，并注明：加入 强化学习组

完成小助手发送的入群测试（题目会根据每期内容变化），并提交答案，以及其他相关资料（教育背景、从事行业和职务、人工智能学习经历等）

小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

进群后会收到当周的学习材料和学习进度安排，根据指导进行有针对性的学习和讨论（群内会有单独的文件进行推送）

入群测试 QUIZ

1. 请比较 Q-learning 和 policy gradient 两种算法

2. AlphaGo 中用了哪些人工智能技术？它们如何协同工作？

3. AlphaGo 核心技术有哪些应用？

点击阅读原文，报名参与机器之心 GMIS 2017 ↓↓↓