专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

乌镇酣战丨柯洁苦笑只因看透“必败”定局，棋盘之外的世界已打开新时代的大门

DeepTech深科技 · 公众号 · 科技媒体 · 2017-05-23 18:16

正文

“柯洁失利” ， 这场时隔279天后最令人期待的“人机大战”首场终于以AlphaGo领先半目的细微优势告一段 落，虽然在柯洁与AlphaGo之间的比拼还没有完全终结，仍然有两场比赛在等待着他们，但不可否认的是，这场比赛的最终结果还是符合大多数人在赛前的预测。

“ AlphaGo的大局观远胜人类，如果差距拉近一些可能还有胜负。 ”聂卫平评价AlphaGo在收官过程中表现的十分稳健，虽然柯洁奋力追赶，但翻盘依旧困难。有了棋圣的评价，相信大家也可以从中品味出这是一场怎样的“殊死搏斗”。

的确，在“李世石事件”之后，大众似乎已经习惯了人工智能终究会全面超越人类的判断，相对于上一次万人空巷的“观棋”场景， 此次的比赛举办地乌镇则显得并没有那么火热 ，沿街的商贩或许只是注意到了比平日里多了几倍的人流，却没有意识到如织的游客此番前来的真实目的。

而对于此次“表演”的主角，柯洁在赛前也难以抑制住他对于这场史诗对决的激动心情，在前夜晚间的微博中，一番话道尽了他的期待：“ 无论输赢，这都将是我与人工智能最后的三盘对局， 我会我用所有的热情去与它做最后的对决，不管面对再强大的对手——我也绝不会后退！至少这……最后一次。”

图丨柯洁在赛前信心满满

但话虽如此，这位19岁的天才少年仍然难以掩饰比赛的严峻带给他的巨大压力。跟据现场不完全的统计和解说员描述，在整场比赛中， 柯洁总共表现出了一次神秘微笑、两次皱眉头、两次摇头、数次抓头发，并曾出现过几次表情凝重的情况。 也许我们能从这些小动作中感受到柯洁对本次比赛的重视。

而在赛后的新闻发布会中，柯洁终于舒了一口长气，“我对布局还是有备战研究的，但很多棋是人类棋手不会下的， 它（ AlphaGo ）太出色了，我输的没脾气，它真的很厉害。 ”

图丨赛后复盘

当被问及他在比赛中的诸多“小动作”时，柯洁回答道，“比赛中的神秘微笑是苦笑。很早我就知道我会输了。 AlphaGo下棋很匀速，它算得太准了，我才苦笑。 本次比赛AlphaGo很精彩，我也尽了全力。它下的太好很多地方值得我们学习。它的思想在冲击我们的理念，改变我们的看法：大胆去创新，大胆的开阔自己的思维。今天我也是想大胆开阔自己的思维。和之前的AlphaGo已经是两个人。”

“这会是我和AI的最后三盘棋，以后不会与任何形式的AI比赛。如果以后我参加，那我可能是被迫的。对于 AlphaGo ，我把它当作学习的对象。今天的表现我还是有点不满意。既然是最后一次，我希望能不留遗憾，下出自己满意的棋。 开始的时候我确实暴露出一些人类的缺陷。之后的比赛中我希望不留遗憾。 ”

也许是已经猜到了比赛的结果，同样会参与此次团体赛的围棋选手古力在赛前的采访中，虽然也表示出了激动和期待的心情，但与柯洁稍显不同的是，他更希望通过这次比赛与AlphaGo共同创造和探索围棋的深奥精髓。“此前的人类棋手在思考上还有一些局限性，这次我们希望通过AlphaGo，能让人类棋手的水平走上新的台阶。可以说， AlphaGo不是设备，不是对手，而是朋友。 ”

而作为AlphaGo背后的神秘男人、DeepMind的创始人兼CEO哈萨比斯(Demis Hassabis)则在开场致辞中谈到：“ 今天， 我们将要探索这个世界最深奥美丽的游戏——围棋的新玩法，就像人类使用哈勃望远镜探索宇宙。 但在AlphaGo的创新途中，除了围棋，它还有更多可以被期待的应用领域，例如医疗、节能减排……这个时代的许多问题都可以从人工智能身上找寻到答案。而关于今天的这场对弈，它也将带给我们很多的期待和想象， 不管最后谁输谁赢，最终的胜利都是属于人类的！ ”

图丨哈萨比斯致辞

但比赛刚一结束，在赛后的发布会上，当DT君向DeepMind团队提问：“AlphaGo是否已经不仅仅满足于单纯的胜负，而期待能够控制胜利的概率以及输赢的差距？”

哈萨比斯则说：“ 我们的确在研究如何通过多线路决策来扩大胜率，甚至于控制胜率，这是我们的一个探索方向。 ”

很显然，哈萨比斯的回答中无疑透露着一丝骄傲和狡黠， 毕竟AlphaGo 是第一个击败人类职业围棋选手并战胜围棋世界冠军的程序，是围棋史上最具实力的选手之一。 2016 年 3 月，在全世界超过一亿观众的关注下，AlphaGo 经过5局对弈，最终以 4 比 1 的总比分战胜了围棋世界冠军李世石，这场比赛成为了人工智能领域的一个重要里程碑。

图丨李世石鏖战 AlphaGo

过去曾有专家预测人工智能需要十年的时间才有可能战胜人类职业选手，在这场比赛之后，AlphaGo 凭借其“充满创意而又机智”的下法，跻身围棋界最高职业称号——职业九段行列， 成为历史上首个获得这一荣誉的非人类棋手 。

前不久，AlphaGo的升级版本以"Master/Magister"的称谓与世界顶级的围棋选手进行了60场线上快棋对局，并取得了全胜的出色战绩。

那么，AlphaGo是怎么在被认为是传统游戏中对人工智能最具挑战性的项目——围棋中取得长胜战绩的呢？

原来，为了应对围棋的巨大复杂性，AlphaGo 采用了一种新颖的机器学习技术，结合了监督学习和强化学习的优势 。通过训练形成一个策略网络（policy network），将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。 然后，训练出一个价值网络（value network）对自我对弈进行预测，以 -1（对手的绝对胜利）到1（AlphaGo的绝对胜利）的标准，预测所有可行落子位置的结果。

这两个网络自身都十分强大，而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索（MCTS）中 ，实现了它真正的优势。最后，新版的AlphaGo 产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

图丨价值网络和策略网络

在获取棋局信息后，AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置 。在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

这一次，AlphaGo也再一次体现了非常好的均衡感和大局。 之所以这么说，是因为早在Alphago和李世石对局之前，人们普遍认为计算机长与计算，不擅判断大局。

但事实反复证明情况并非如此， 无论是开局的时候创新与取势，还是中盘时的弃子与脱先，还是官子时的四处出击和在大量非常保守的位置上行棋 （一般是AlphaGo认为自己胜局已定的时候为保胜利的选择）。这很有可能还是因为AlphaGo采取全局胜率预测的原因，并追求最大胜率概率所致。当面对70%赢10目和90%赢1目的选择时，计算机基本会选择赢1目。

此外， AlphaGo绝不是简单的模仿人类棋手，而是可以下出大量极富想象力和革命性创新的手段，反过来也影响了人类下棋的方式。 早在今年1月10日，在中国名人战的两盘半决赛中，周睿羊九段和芈昱廷九段都放弃了传统的挂角开局，在守角后对对方的守角进行尖冲。这是此前AlphaGo在对战职业棋手时的常见下法。

图丨周睿羊九段和芈昱廷九段

在今天的比赛中，柯洁也以其人之道还治其人，在极早期就下出了三三点角的手段，这也是AlphaGo（和Master）之前对人类棋手常见的布局。有意思的是，AlphaGo在面对自己的方法时，也没有上当，而是下出了也很少见的小飞守角。

最后，AlphaGo的下棋速度大大增加了，可能是因为程序经过了优化。和李世石对弈时多次进入读秒阶段相比，本次比赛AlphaGo只用了一个多小时。相当于下了一盘30秒不到的块棋。 这也从侧面说明计算机进一步拉大了和人类之间的差距。

去年是分布式实施，今年有一个更先进的算法，运算更快，和去年相比，这一版AlphaGo可以说是单机版。

——DeepMind团队

根据DT君的了解，早在比赛之前，就有传言称此次出战的AlphaGo已经和击败李世石的那只完全不同： AlphaGo采取了一种全新的算法 ，开发人员没有给它“喂”任何人类棋谱，它的走法单纯靠自我对弈训练出来。在 2016年的人机大战中，李世石曾疑似击中过AlphaGo的bug而扳回一局，而这一次，显然AlphaGo没有再犯同样的错误。

而谈到AlphaGo的创新之处，DeepMind团队的代表 Lucas Baker和樊麾 给出了详尽的解释，他们总结了AlphaGo最近在对局中使用的战略和战术创新，以及这些招法所展现的关于围棋的一些新认知。

AlphaGo 的棋风

AlphaGo最强大的地方，并不体现在具体某一手棋或者某个局部变化中，而是它在每一局棋里所展现出来的独特视角。 虽然AlphaGo的棋风本身并不容易总结，但是总体来说，AlphaGo更倾向于使用一种自由、开放式的行棋风格。

在它的世界里，没有什么先入为主的概念，也没有什么必须要遵守的规则 ，这让它得以打破常规，发现当前棋局中最高效的一手。在接下来的两局棋里，AlphaGo这种独特的对局哲学，常常让它下出违反第一感、但却极具威力的一手棋。

虽然围棋是围地盘的游戏，但事实上最具决定性的部分在于如何平衡棋盘上的各个局部。 在这一点上，AlphaGo展现出了卓越的能力。尤其值得一提的是，AlphaGo对于外势的把控可以说到达了出神入化的地步，具体来说，它可以近乎准确地判断棋盘上现有棋子能给周围区域带来多大的影响力。

虽说棋子的影响力本身很难衡量，但是AlphaGo强大的价值网络让它能够把棋盘上所有的棋子当作一个整体来考虑，因此它的判断几近精确。 AlphaGo的这种能力，使得它能够把局部棋子的影响力，转变为全局的优势。

本局，黑方（AlphaGo）实空很少，白方占了三个角，但是黑方全局外势较为可观。特别是图中三角形标记的交换，一方面帮助白方加强了左上角实地，同时也扩张了黑方的大模样。通常，棋手们不愿意做这样的交换，因为白方得到的是显而易见的实地，而黑方所得还有很大不确定性。 但是AlphaGo结合了精确的判断以及对于风险的把控，使得这一手棋成为可能。

不过，对于外势价值的判断完全取决于当前局面，如果外势的价值可能被削弱，AlphaGo也会自愿放弃外势。在上图的对局中，AlphaGo最为令人震惊的几手棋，出现在右侧的六子二路连爬。

围棋有一句棋谚： 四路外势线，三路实地线，二路失败线。 AlphaGo的这几招棋粗看之下正应了这句棋谚，因为这几手交换让白棋变强的同时还拥有了外势，而黑棋仅仅在边上围住四目实空。

大多数棋手以图中这样的二路连爬为耻，因此会在第一时间否定这种下法。然而，AlphaGo判断如果能用这些交换将白棋的棋子分断，之后再通过对于白棋几块棋的攻击，慢慢将白棋获得的外势侵消掉，这种下法更利于确保优势。

新手、新型

Alphago近期也弈出了一些布局阶段的新手，其中最有代表性的当属开局的点三三和妖刀定式的新变化。两者都打破常规，并且在更深入的研究后得到认可。

开局点三三

围棋中最注重实地的定式之一，无疑是角部的点三三定式：

这种下法能够快速占据角部地盘，但是传统围棋书都将这个定式归类为不适合开局阶段使用，因为它给予对方太多外势：

AlphaGo的创新在于它省略了有三角形标记的这些交换，使角部保持了未完成的形态：

虽然角部不如定式那么安定，但是黑棋保留了从左边出逃和之后完成定式的见合下法（两者选其一），在抢占角地的同时也只让出了部分外势。这种战术在职业棋手中引起轰动，而且已经有棋手将它应用在了正式比赛中：

第18届韩国麦馨杯，第一轮

2017-01-10：韩钟振九段（黑）—— 金成龙九段（白）白胜2.5目（贴目6.5目）

棋谱来源 Go4Go.net

新妖刀定式

最初以人类对局作为数据基础，AlphaGo了解现代定式，而且一般都会按照定式来下棋。但是，在以变化复杂著称的妖刀定式中（得名于被诅咒的村正妖刀），AlphaGo采取了变招：

从这个棋型开始，一般定式黑棋占边，白棋占角：

但是，AlphaGo常常更愿意牺牲出头的权利，换取角部实地：

大多数棋手不愿选择这个变化，因为让黑棋得到了一道厚势，但是白棋接下来的下法宣告了黑棋外势的价值并没有看上去的那么巨大。如果黑棋不进一步加强自己的外势，甚至于还可能成为白棋攻击的目标。韩国顶尖棋手金志锡最近在一场比赛战中选择了这个变化，并且赢得了这盘对局：

第22届韩国GS加德士杯，第二轮

2017-02-10：柳珉滢五段（黑）——金志锡九段（白）白中盘胜（贴目6.5目）

棋谱来源Go4Go.net

从以上描述不难看出，Alphago的长进可谓十分惊人，本次比赛的美国解说Michael Redmond就表示， AlphaGo的特点是会走出一些创新的棋，人类一看上去觉得是坏招，但是仔细研究后发现会非常有用。 自去年战胜李世石后，Alphago的棋力又进步了，而要知道， AlphaGo 6个月的成长可能就相当于人类棋手的一生。

乌镇酣战丨柯洁苦笑只因看透“必败”定局，棋盘之外的世界已打开新时代的大门

正文

请到「今天看啥」查看全文