揭秘 | 经过一年的修炼，AlphaGo 的哪些能力突飞猛进了？

雷峰网 · 公众号 · 科技媒体 · 2017-05-23 22:04

正文

为了助益整个中国人工智能创新、创业的发展，雷锋网携手《环球科学》和 BOSS 直聘，重磅推出「2017 AI 最佳雇主」榜单。点击阅读原文可了解关于 AI 雇主榜单的详细消息，欢迎广大企业报名参加。

雷锋网按：乌镇围棋峰会第一局已经结束了，历时 4 个半小时，以柯洁九段执黑负于 AlphaGo，AlphaGo 赢四分之一子告终，这样风平浪静的结果想必很多人都预测到了，不过大家从一开始就知道关注的重点，不在于柯洁怎么输的，而是 AlphaGo 已经进化到什么程度了，距离 Deep Mind 团队出论文来详解 AlphaGo 有多强还有一段时间，So 我们其实可以从现场观战中来看出一些端倪。

棋速

第一局棋下到一半的时候，不少棋友群里的人沸腾了，发现 AlphaGo 落子速度非常快，每步棋落子速度在 30S－40S 之间波动，对此围棋业余 5 段赵老师对雷锋网 AI 科技评论表示：“（这局棋）像安乐死，不知不觉就输了，（相比去年）机器落子飞快但错误基本没有”。

综合整局，AlphaGo 落子表现冷静、果断，而柯洁的落子状况较多变。最终在比赛进行了四个多小时之后，AlphaGo 赢四分之一子。

棋风

AlphaGo1.0 的时候（去年 3 月跟李世石对战的时候），它的棋风概括起来就是擅长记住棋谱 + 增强学习 + 计算能力，身上还能看到人类棋风的影子，等 AlphaGo 乔装成 Master60 连胜的时候，许多围棋大师包括聂卫平在内开始评价其棋风 “很难揣测 Master 的风格…… 它永远都没有表情，永远不受情绪影响，永远一个节奏，就是要赢你。”

而今天，第一局棋还没结束的时候，搜狗王小川已在知乎上发文剖析 AlphaGo2.0 棋风 “完全脱离人类经验”——“而 AlphaGo2.0 脱离了机器对人模仿，走棋风格也将完全脱离人的定式。在与柯洁的比赛中，会不断出现我们意想不到的走棋，而且这些走棋在教科书中会被认为是低级错误或者完全不可理喻，但凡一个正常的棋手都不会这么玩，但凡一个新手这么玩都会被点拨这样不对。而 AlphaGo2.0 会不断制造这样的局面，关键他还是对的。”

不过最后还是柯洁说了算，他在会后的采访中用了一个很好的例子说明了 AlphaGo 的棋风莫测：（在回顾比赛时也对第 54 手的断）时，他表示了肯定：“很震惊，这在人类的下法中是不能有的。在断之后，它把自己的脚步实地化，变得更厚，一石二鸟。”。

算法

AlphaGo1.0 的时候（去年 3 月跟李世石对战的时候）使用的算法精髓，根据 FB 田渊栋看完 Nature 论文的解读，由估值网络评估棋局，策略网络选择落子，快速走子（Fast rollout）适当加速，再用蒙特卡罗树搜索把以上这三个部分连起来，形成一个完整的系统。

这一次虽然知乎论坛等活跃地盘已经开始纷纷推测这次的 AlphaGo2.0 用了什么牛叉的算法，有了硬件的预测失误，真相还是等 Deep Mind 后面来亲自公布，目测算法预测这个要根据它的单机版 10 个 GPU＋TPU 助力预测比较靠谱。

硬件需求降低

根据 DeepMind 员工发表在 2016 年 1 月 Nature 期刊的论文，分布式版本（AlphaGo Distributed）使用了 1202 个 CPU 和 176 个 GPU。

不过这次比赛 AlphaGo 用的何种硬件配置，DeepMind 在会后的新闻发布会中表示，这次比赛的 AlphaGo 是新版本，它改善了新的算法，主要进步是计算量少了十倍，自我对弈更强。Hassabis 称，在比赛中程序是在一个单一的机器上运作的，这与去年不一样，当时是分布式的。这次有更强大的算法，运作起来更简单也更好，获得的速度更快。另外 Hassabis 表示，计算力可以 “在 Google 云中获得，用的是 TPU，十个处理单位，少了十倍的计算量”。简单点说，这次的 AlphaGo 是单机版。

迭代速度

哈萨比在剑桥大学的一次演讲中提到，以前从零训练一个 AlphaGo 要三个月，现在只需要一个星期（“We also optimized the performance. It used to take 3 month to train a new version of AlphaGo from scratch. Now we can do it in one week.”）。

如果称对战李世石期间的版本为 V18 迭代版本，乔装成 Master60 连胜并宣布升级完成的时刻为 V25 版本，现在的 AlphaGo 又是 V 多少版本，训练的时候会不会一周都不要了？这是我们明天要亲自问 DeepMind 团队的。

从单人对战到团队对战

心细的朋友肯定注意到了，柯洁和 AlphaGo 对弈之外，5 月 26 号上午还有一场配对赛，配对赛双方－－－古力＋AlphaGoV 连笑＋AlphaGo，即对弈双方分别由一位棋手与 AlphaGo 组成，棋手与 AlphaGo 合作进行比赛。5 月 26 号上午下午则是陈耀华，周睿羊，芈昱延，时越，唐韦星和 AlphaGo 的 5 对 1 团队赛。

Google 之所以敢这样设置赛制，唯一的解释就是，AlphaGo 现在既懂人类下围棋的那部分，又懂 AI 下围棋的那部分，并可以做到融会贯通，所以它才敢挑战配对赛这种跟另一个同伴高度配合的赛制，又敢挑战测试自己 “战斗力” 极限的团体赛。AI 最可怕的部分不是它单个力量有多强，而是它开始懂得和周遭 “互动”，这样的融汇是不是比去年 3 月的人机大战可怕多了呢？

小结：

上次 AlphaGo 乔装成 Master 测试的时候，柯洁已经落败给 Master 过一次，他不是没见识过 AI 围棋的厉害，但结合柯洁今天在现场的冷静表现，和他昨晚莫名其妙地深夜感慨，我们有理由相信，这不是一场比 AI 围棋选手和人类围棋选手哪个更厉害的选手，DeepMind 团队一定有些悬而未决的答案需要这场比赛给一个肯定的验证，然后再往那个方向实现更深一步的探索。

《12小时零基础入门深度学习》

想要挑战AlphaGo却不懂深度学习？想要打造AI助手却不懂编程？没关系！AI慕课学院专门为“小白”量身打造了AI深度学习课程——《12小时零基础入门深度学习》，来自fastai中文社区最活跃的四位贡献者为你打开深度学习入门的那扇门——IOT农业机械和MLAQI预测算法项目的深度学习工程师Chris、“深度学习”和“无人驾驶”领域有丰富教学经验的Max博士等，采用活力十足的硅谷模式，带你动手操作9个项目，构建你的深度学习应用。即使零编程基础，也能在这里找到适合你的学习路径。仅限50名，扫描下发二维码立即报名。