“阿尔法狗”退役，除了不败神话，它还留下了什么？

Xtecher · 公众号 · · 2017-05-29 10:18

正文

Xtecher【错别字基金】温馨提示：如果您在阅读过程中发现错别字，请在文章底部留下说明＋联系方式，我们会立刻发给您5-88元随机红包一个，同样的红包会发给文末留言点赞最高者。

柯洁在此次“人机大战”之前表示，这将是他最后一次和人工智能棋手比赛。柯洁三盘尽墨之后，阿尔法狗之父、DeepMind创始人戴密斯·哈萨比斯也表态说，这是阿尔法狗最后一次和人类对弈。

不过，哈萨比斯同时表示，人类棋手与阿尔法狗的故事并不会就此结束。

来源｜AI世代

编辑｜陈光

网址｜www.xtecher.com

微信公众号ID｜Xtecher

在最后一局比赛结束后的发布会上，AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯（Demis Hassabis）说：“本周的比赛聚集了围棋起源地最优秀的棋手参与，是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。因此，本次中国乌镇围棋峰会是AlphaGo参加的最后一次比赛。”

不过，哈萨比斯宣布，人类棋手与AlphaGo的故事并不会就此结束。

AlphaGo的启蒙老师、欧洲围棋冠军樊麾随后表示：“我们将与柯洁共同研究这三局比赛，做成视频，与全世界围棋爱好者共同分享。我们还给全世界围棋爱好者准备了一份礼物，这些自我对战是阿尔法狗最宝贵的财富，我们近期会公布50副阿尔法狗自我对战的棋谱，以慢棋的形式进行。”

AlphaGo是一款围棋人工智能程序，由谷歌旗下DeepMind公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰与他们的团队开发。柯洁是中国围棋职业九段棋手，他也是围棋等级分排名世界第一。

区别于和李世石对弈的AlphaGo1.0，此次对战柯洁的AlphaGo2.0采用了新的算法模型。此前，该版本曾化名“Master”，以在线对弈的形式击败了包括柯洁在内的所有对手，60战无一败绩。

据DeepMind介绍，1.0版本的AlphaGo是“深度学习”人类棋谱得出围棋手数的估值，AlphaGo 1.0所走招法其实并没有脱离人类的理解，而且都是人类棋手曾下过的棋。如果AlphaGo1.0完善到极致，就意味着得出了接近完美的围棋手数估值函数。2.0版本AlphaGo利用这个估值函数自我对局和“深度学习”，不再受人类棋谱的局限，下出真正属于“人工智能”的围棋。

两次与现场预判相反的逆转

从最初看不上眼，到赢了韩国棋手李世石之后被震惊，再到称呼AlphaGo为“阿老师”，人类棋手不断调整着对于人工智能最新代表者AlphaGo的认知。峰会上，最让中国棋手渴望和兴奋的是找到AlphaGo一些破绽。

中国围棋队总教练俞斌曾表示，AlphaGo的弱点，在去年对李世石第四盘中所表现出来的“无中生有”的失误，当李世石下出第78手妙棋之后，AlphaGo开始失常。他将这种失误称为“开放性计算的误算”。这种误算在AlphaGo对李世石第五局的角上计算也出现过。

人们觉得AlphaGo是电脑，擅长计算，可能不擅长从大局考虑。经过几番对战，棋手们推翻了此前判断，他们发现AlphaGo驾驭大局能力并不比人类弱，几乎无懈可击。又有人大胆提出，AlphaGo可能擅长布局，不擅长计算；还有人提出AlphaGo下棋，重捞实地，不重形势。像盲人摸象，人类棋手不停地尝试着。

另外，有棋手们推断，人工智能围棋经常走棋时删繁就简，不造劫材，可能不擅长“应劫”，多多打劫可能会让电脑犯糊涂，并举出网上一些赢了AI围棋的例子证明，不断挑起肉搏，在乱战中寻找机会杀死AI围棋大龙方才有获胜机会。

以上这些因暂时没有人类战胜AlphaGo和今年初AlphaGo匿名化身的Master，无从证明。

倒是现场解说员，对于棋盘上胜负预期两次与最终AlphaGo走出的结果完全相反，着实让现场的观众和解说员一起长时间缓不过劲来。

第一次来自柯洁25日与AlphaGo的第二场比赛。开局至前100手，棋手古力九段根据柯洁脸上表情、较少揪头发的动作和棋盘上局势得出柯洁的棋相当乐观，有获胜的希望。“AlphaGo之父”哈萨比斯（Demis Hassabis）在11：32通过社交网络对外称：“根据AlphaGo的评估，柯洁此时此刻下的非常完美。”当时比赛还在进行当中，这条推文截图立刻在现场传播。观众有些兴奋，期待柯洁代表人类给机器一个教训。

这个希望随着柯洁投子认输而泯灭。

第二次是26日上午连笑+AlphaGo一起对战古力+AlphaGo，现场气氛随着解说员引导，认为时间相对充裕的古力一方胜券在握。结果却是古力一方AlphaGo主动投降，古力拒绝，下了十来手之后，古力认识到大势已去，亲自举起投降牌子。

赛后，现场记者追问一名现场解说员“为何出现逆转情况”，“AlphaGo和古力谁下出恶手”等问题，此位解说员的思绪却一直停留在比赛中，难以回神应答。

AlphaGo带给人类围棋界的震惊仍然在继续，并扩大着影响范围。只是很多人现场见证之后，感受更为深刻——很多人是懵的，包括职业棋手和专家。

这或许意味着，在远超人类计算能力的人工智能AlphaGo面前，职业棋手与业余棋手之间的差距，甚至没有职业棋手与AlphaGo之间差距大，整个围棋界将因为AlphaGo的存在引起一些固有结构的崩塌。这之后，谁能有与AlphaGo切磋棋艺的机会，谁就有可能更快地成长，走得更远。

更强的“阿尔法狗”

5月24日，在新版本AlphaGo首战以1/4子优势战胜柯洁之后，DeepMind创始人兼CEO 哈萨比斯、AlphaGo团队负责人David Silver在人工智能高峰论坛上称：“AlphaGo已经可以模仿人类直觉。在过去一年，我们想打造完美的AlphaGo，弥补它知识方面的空白。因为在与李世石的比赛中，它是有缺陷的。”据介绍，AlphaGo升级后新版本可以让老版本三个子。

哈萨比斯称围棋因为太过复杂，穷举搜索难以解决。对于计算机来说，围棋有两项难题：很难写出评估程序以决定谁赢；搜索空间太过庞大。

围棋不像象棋等游戏靠计算，而是靠直觉。围棋中没有等级概念，所有棋子都一样。围棋是筑防游戏，因此需要盘算未来。为此，AlphaGo团队用两种卷积神经网络去完成：策略网络和估值网络。策略网络的卷积神经网络用于决定下一步落子可能的位置，价值网络用于评估当前棋局获胜的概率。

为了应对围棋巨大的复杂性，AlphaGo 采用机器学习技术，结合了监督学习和强化学习的优势。通过训练形成一个策略网络（policy network），将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。

然后，训练出一个价值网络（value network）对自我对弈进行预测，以 -1（对手的绝对胜利）到1（AlphaGo的绝对胜利）的标准，预测所有可行落子位置的结果。这两个网络自身都十分强大，而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索（MCTS）中，实现了它真正的优势。最后，新版的AlphaGo 产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

地平线创始人、百度前深度学习研究院负责人余凯表示，这次AlphaGo来到中国，技术提升的进步体现在两方面，一方面是AlphaGo 2.0算法，更多强调通过自我博弈，加上通过学习人类棋手的历史数据提升棋艺，一般来说，人工智能需要大数据，而AlphaGo这种做法，并不需要那么多大数据，从零开始，提升棋艺。“我觉得这具有革命性意义。”

另一方面，Deepmind母公司自己研发的新型架构处理器TPU的使用，做到了AlphaGo“单机版”，进一步减少了对处理器数量的需求。

曾经，人工智能学界认为传统硬件很难进一步提升AlphaGo棋力。去年李世石与AlphaGo开战之前，创新工场创办者李开复在知乎上撰文说明，下围棋计算，需要增加硬件。线性地从1202个CPU增加到1920个CPU，AlphaGo的技战指数（ELO）只增加了28，并未跟着跳跃增长。

但是，TPU的出现极大地提高了计算性能，同时能耗更小，体积也更小。余凯认为通过TPU加大的计算能力，硬件能力提升使得搜索进入一个更大的求解空间。“硬件提升也是令业界瞩目的。”

国内人工智能芯片研发公司寒武纪曾预言，采用人工智能芯片，AlphaGo只需要一台个人电脑大小的主机。这次乌镇围棋峰会上，虽然Deepmind公司未能完全达到，却朝这个方面在进步。值得一提的是，寒武纪公司创始人陈天石告诉表示，早期与一位法国专家Olivier Temam一起研究人工智能芯片，这位法国人后来加入了Deepmind的母公司，成为TPU团队中一员。

未来，更强的人工智能芯片的出现，与人类棋手的水平将越拉越远。

人机对战历史

2016年1月，AlphaGo在没有任何让子的情况下，以5:0完胜欧洲围棋冠军、职业二段选手樊麾，计算机程序能在不让子的情况下，在完整的围棋竞技中击败专业选手，这是第一次。

2016年3月，AlphaGo与围棋世界冠军、职业九段选手李世石进行人机大战，并以4:1的总比分获胜。谷歌董事长施密特在该比赛的开幕仪式上称：“无论比赛结果如何，胜者都是人类。”

2016年末2017年初，AlphaGo在中国棋类网站上以Master为注册帐号与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩。

不少职业围棋手认为，AlphaGo的棋力已经达到甚至超过围棋职业九段水平，2016年7月18日，世界职业围棋排名网站GoRatings公布最新世界排名，谷歌旗下DeepMind的人工智能系统AlphaGo以3612分，超越3608分的柯洁成为新的世界第一。

2017年1月，谷歌Deep Mind公司CEO哈萨比斯在德国慕尼黑DLD（数字、生活、设计）创新大会上宣布推出真正2.0版本的AlphaGo。其特点是摈弃了人类棋谱，只靠深度学习的方式成长起来挑战围棋的极限。

AlphaGo主要由以下部分组成：走棋网络（Policy Network），给定当前局面，预测/采样下一步的走棋；快速走子（Fast rollout），目标和走棋网络一样，但在适当牺牲走棋质量的条件下，速度要比走棋网络快1000倍；估值网络（Value Network），给定当前局面，估计是白胜还是黑胜；蒙特卡洛树搜索（Monte Carlo Tree Search），把以上这三个部分连起来，形成一个完整的系统。

值得注意的是，AlphaGo并不是DeepMind唯一项目，也不是最大的项目。DeepMind的最终目标是智能助手、医疗和机器人。另外，尽管AlphaGo只是针对围棋开发的系统，但其原理可以被应用到现实问题中。