AlphaGo | 经过一年的修炼，AlphaGo的哪些能力突飞猛进了？

AI科技评论 · 公众号 · AI · 2017-05-24 22:29

正文

AI科技评论按：乌镇围棋峰会第一局已经结束了，历时4个半小时，以柯洁九段执黑负于 AlphaGo，AlphaGo 赢四分之一子告终，这样风平浪静的结果想必很多人都预测到了，不过大家从一开始就知道关注的重点，不在于柯洁怎么输的，而是AlphaGo已经进化到什么程度了。距离Deep Mind团队出论文来详解AlphaGo有多强还有一段时间，So我们其实可以从现场观战中来看出一些端倪。

棋速

第一局棋下到一半的时候，不少棋友群里的人沸腾了，发现AlphaGo落子速度非常快，每步棋落子速度在30S－40S之间波动，对此围棋业余5段赵老师对雷锋网AI科技评论表示：“（这局棋）像安乐死，不知不觉就输了，（相比去年）机器落子飞快但错误基本没有”。

综合整局，AlphaGo落子表现冷静、果断，而柯洁的落子状况较多变。最终在比赛进行了四个多小时之后，AlphaGo赢四分之一子。

棋风

AlphaGo1.0的时候（去年3月跟李世石对战的时候），它的棋风概括起来就是擅长记住棋谱+增强学习+计算能力，身上还能看到人类棋风的影子，等AlphaGo乔装成Master60连胜的时候，许多围棋大师包括聂卫平在内开始评价其棋风“很难揣测Master的风格……它永远都没有表情，永远不受情绪影响，永远一个节奏，就是要赢你。”而今天，第一局棋还没结束的时候，搜狗王小川已在知乎上发文剖析AlphaGo2.0 棋风“完全脱离人类经验”——“而AlphaGo2.0脱离了机器对人模仿，走棋风格也将完全脱离人的定式。在与柯洁的比赛中，会不断出现我们意想不到的走棋，而且这些走棋在教科书中会被认为是低级错误或者完全不可理喻，但凡一个正常的棋手都不会这么玩，但凡一个新手这么玩都会被点拨这样不对。而AlphaGo2.0会不断制造这样的局面，关键他还是对的。”

不过最后还是柯洁说了算，他在会后的采访中用了一个很好的例子说明了AlphaGo的棋风莫测：（在回顾比赛时也对第54手的断）时，他表示了肯定：“很震惊，这在人类的下法中是不能有的。在断之后，它把自己的脚步实地化，变得更厚，一石二鸟。”。

算法

AlphaGo1.0的时候（去年3月跟李世石对战的时候）使用的算法精髓，根据FB田渊栋看完Nature论文的解读，由估值网络评估棋局，策略网络选择落子，快速走子（Fast rollout）适当加速，再用蒙特卡罗树搜索把以上这三个部分连起来，形成一个完整的系统。

这一次虽然知乎论坛等活跃地盘已经开始纷纷推测这次的AlphaGo2.0用了什么牛叉的算法，有了硬件的预测失误，真相还是等Deep Mind后面来亲自公布，目测算法预测这个要根据它的单机版4个TPU助力预测比较靠谱。

硬件需求降低

根据DeepMind员工发表在2016年1月Nature期刊的论文，分布式版本（AlphaGo Distributed）使用了1202个CPU和176个GPU。

不过这次比赛AlphaGo用的何种硬件配置，DeepMind已经表示，这次比赛的AlphaGo是新版本AlphaGo Master，它改善了新的算法，有更强大的策略网络和价值网络；而且相比于之前的版本从人的对局中学习，现在它从自己的搜索里学习，成为自己的老师。硬件需求也大大减少，不再像去年的AlphaGo是分布式版本，如今只需要一台具有谷歌新TPU的机器即可运行，运作起来更简单也更好，获得的速度更快。

迭代速度

哈萨比在剑桥大学的一次演讲中提到，以前从零训练一个AlphaGo要三个月，现在只需要一个星期（“We also optimized the performance. It used to take 3 month to train a new version of AlphaGo from scratch. Now we can do it in one week.”）。

如果称对战李世石期间的版本为V18迭代版本，乔装成Master60连胜并宣布升级完成的时刻为V25版本，现在的AlphaGo又是V多少版本，训练的时候会不会一周都不要了？这是我们明天要亲自问DeepMind团队的。

从单人对战到团队对战

心细的朋友肯定注意到了，柯洁和AlphaGo对弈之外，5月26号上午还有一场配对赛，配对赛双方－－－古力＋AlphaGoV连笑＋AlphaGo，即对弈双方分别由一位棋手与AlphaGo组成，棋手与AlphaGo合作进行比赛。5月26号上午下午则是陈耀华，周睿羊，芈昱延，时越，唐韦星和AlphaGo的5对1团队赛。

Google之所以敢这样设置赛制，唯一的解释就是，AlphaGo现在既懂人类下围棋的那部分，又懂AI下围棋的那部分，并可以做到融会贯通，所以它才敢挑战配对赛这种跟另一个同伴高度配合的赛制，又敢挑战测试自己“战斗力”极限的团体赛。AI最可怕的部分不是它单个力量有多强，而是它开始懂得和周遭“互动”，这样的融汇是不是比去年3月的人机大战可怕多了呢？

小结：

上次AlphaGo乔装成Master测试的时候，柯洁已经落败给Master过一次，他不是没见识过AI围棋的厉害，但结合柯洁今天在现场的冷静表现，和他昨晚莫名其妙地深夜感慨，我们有理由相信，这不是一场比AI围棋选手和人类围棋选手哪个更厉害的选手，DeepMind团队一定有些悬而未决的答案需要这场比赛给一个肯定的验证，然后再往那个方向实现更深一步的探索。

AI科技评论现场报道，未经许可，拒绝转载。

AI科技评论招聘季全新启动！

很多读者在思考，“我和AI科技评论的距离在哪里？”答案就是：一封求职信。

AI科技评论自创立以来，围绕学界和业界鳌头，一直为读者提供专业的AI学界、业界、开发者内容报道。我们与学术界一流专家保持密切联系，获得第一手学术进展；我们深入巨头公司AI实验室，洞悉最新产业变化；我们覆盖A类国际学术会议，发现和推动学术界和产业界的不断融合。

而你只要加入我们，就可以一起来记录这个风起云涌的人工智能时代！

如果你有下面任何两项，请投简历给我们：

＊英语好，看论文毫无压力

＊理工科或新闻相关专业优先，好钻研

＊对人工智能有一定的兴趣或了解

* 态度好，学习能力强

简历投递：

深圳：[email protected]