柯洁又输了，关于人工智能AlphaGo你需要知道些什么

CDA数据分析师 · 公众号 · 大数据 · 2017-05-25 18:42

正文

【CDAS 2017 数据体验票】

C君带你进会场，5张499元门票任性送，优惠码“mJdUIew”，凭此优惠码即可“0元”购买本次峰会价值499元的数据体验票一张。 数量有限，先到先得。（会议详情点下图，报名点阅读原文）

（说明：本票为数据体验票，仅限499元数据专场。含大会全天论坛及企业创新体验展，不含午餐；提供大会精美礼品一份；大会前排坐席）

原作者 Mirek Stanek
编译 CDA 编译团队
本文为 CDA 数据分析师原创作品，转载需授权

前言

本月 23 日- 27 日，在乌镇主办“中国乌镇·围棋峰会”中，备受瞩目的要数中国围棋现役第一人、天才少年柯洁与 Google AlphaGo（阿尔法狗）人工智能机器人的巅峰对决。AlphaGo与柯洁对弈的三局比赛，分别于 5 月 23 、25、27 日进行。

在 23 日和 25 日的对决中，柯洁虽然发挥神勇，但还是两局均战败。AlphaGo 2-0 领先，已经赢得了三番棋的胜利。

对于人类来说，这看上去不太妙。

那么，AlphaGo 究竟是什么？关于 AlphaGo 我们需要了解些什么呢？

AlphaGo 和数字

AlphaGo 是由 Google DeepMind 开发的围棋程序 ，并在2015年欧洲围棋锦标赛中它以 5：0 赢得了樊麾，在历史上第一次打败顶尖职业围棋选手。

在 AlphaGo 出现在公众视野之前，有人预测根据如今的科技水平出现具有 AlphaGo 水平(击败人类职业棋手)的人工智能大约还需要 10 年的时间。

早在 20 年前，人工智能就在国际象棋上战胜了人类，而东方古老的围棋似乎成了人类最后的坚持。

但事实让人类失望了。

一切皆关于其复杂性。

围棋和象棋都是完全信息博弈游戏 ，这意味着每个玩家都完全清楚之前发生的所有事件。而完全信息博弈，通常能被简化为寻找最优值的树搜索问题。它含有 b 的 d 次方个可能分支，在国际象棋中有 b≈35，d≈80，即10¹²³ 种；而在围棋中 b≈250，d≈150 即10³⁶⁰ 种。多核兆赫处理器一般可以每秒钟进行 10⁹ 次操作，这意味着计算所有可能的步数的时间不可估量——数学就是这么残酷。

AlphaGo 的最高目标是有效的减少搜索路径数量，具体是这在合理的时间内( AlphaGo 每一步计算时间为 5 秒)，计算出可能的步数(直到游戏结束)。

为了对博弈状态进行预判，AlphaGo 使用蒙特卡罗树搜索(MCTS)——通过对搜索路径的随机抽样来扩展搜索树来分析最可能赢的选项。在博弈游戏中，MCTS 的应用是基于各种玩法，通过随机选择的方式来玩到最后。每一次的结果都被用来对博弈树的节点进行加权，这样更好的节点更有可能在之后的博弈中被选择。

通过额外的策略(例如预测职业棋手的动作)强化 MCTS ，使其达到更强的水平。

进一步的改进则基于良好的预先训练的深卷积网络。这些被广泛应用于图像分类、人脸识别或游戏中。

在 AlphaGo 中使用的神经网络的目标是:有效位置评估(价值网络)和行为抽样(策略网络)。

这也意味着 AlphaGo 的下棋方式除了学习别人的对局外，还可以自己跟自己下棋，通过对不同下法产生结果的分析来改善自己的下棋方式。这也就是说，学习时间长、学习案例好的 AlphaGo 赢的可能性更大一些。

策略网络

在机器学习中为了训练策略网络，有以下步骤。

第一阶段:

监督学习(SL)，即模仿学习。 通过在 KGS （网络围棋对战平台）上最强人类对手，百万级的对弈落子去训练大脑。这就是 AlphaGo 最像人的地方，目标是去学习那些顶尖高手的妙手。AlphaGo 落子选择器能正确符合 57% 的人类高手。(其他研究团队的最高正确率为44.4%)。

第二阶段:

强化学习(RL)，即自主学习。 尽管SL策略网络在预测下一步时很有效，但 RL 有助于预测最佳的(获胜)步。在这一阶段，AlphaGo 跟自己对弈，自己训练自己。

强化学习与监督学习策略对决取胜率高达 80% ，与 Pachi 获胜率为 85% ，Pachi 是一个基于蒙特卡罗树搜索法的人工智能，在 KGS 业余段位排名第二。以往 SL 与 Pachi 对决胜率仅为 11% 。

价值网络

最后阶段的训练集中在位置评估(估计当前步数获胜的概率)。基于 KGS 数据集的训练会导致过度拟合(价值网络倾向于记住游戏结果，而不是采取新的步数)，因此避免这一现象，新的训练是进行自我博弈(有 3000 万个不同的位置，每个都从单独的游戏中取样)。

经过训练的价值函数比使用走棋策略的蒙特卡罗更精确，它的单次计算也与使用强化学习的蒙特卡罗的计算更相似(但计算量会少 15000 次)。

策略和价值网络搜索

AlphaGo 在蒙特卡罗搜索树中使用了策略和价值网络的组合。游戏树在模拟中被搜索，由以下阶段组成:

在获取棋局信息后，AlphaGo 会根据策略网络（policy network）探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，AlphaGo 的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

结语

柯洁又输了，关于人工智能AlphaGo你需要知道些什么

正文

请到「今天看啥」查看全文