专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
新浪科技  ·  【#银行大额存单还香吗#】10月18日,工商 ... ·  3 天前  
新浪科技  ·  【#贝索斯对亚马逊套现12.3亿美元##贝索 ... ·  4 天前  
新浪科技  ·  【#A股走强吸引投资者跑步进场#】#A股10 ... ·  6 天前  
36氪  ·  存量时代,酱油向左还是向右? ·  6 天前  
51好读  ›  专栏  ›  DeepTech深科技

乌镇酣战丨柯洁苦笑只因看透“必败”定局,棋盘之外的世界已打开新时代的大门

DeepTech深科技  · 公众号  · 科技媒体  · 2017-05-23 18:16

正文


“柯洁失利”这场时隔279天后最令人期待的“人机大战”首场终于以AlphaGo领先半目的细微优势告一段落,虽然在柯洁与AlphaGo之间的比拼还没有完全终结,仍然有两场比赛在等待着他们,但不可否认的是,这场比赛的最终结果还是符合大多数人在赛前的预测。



AlphaGo的大局观远胜人类,如果差距拉近一些可能还有胜负。”聂卫平评价AlphaGo在收官过程中表现的十分稳健,虽然柯洁奋力追赶,但翻盘依旧困难。有了棋圣的评价,相信大家也可以从中品味出这是一场怎样的“殊死搏斗”。

 

的确,在“李世石事件”之后,大众似乎已经习惯了人工智能终究会全面超越人类的判断,相对于上一次万人空巷的“观棋”场景,此次的比赛举办地乌镇则显得并没有那么火热,沿街的商贩或许只是注意到了比平日里多了几倍的人流,却没有意识到如织的游客此番前来的真实目的。

 

而对于此次“表演”的主角,柯洁在赛前也难以抑制住他对于这场史诗对决的激动心情,在前夜晚间的微博中,一番话道尽了他的期待:“无论输赢,这都将是我与人工智能最后的三盘对局,我会我用所有的热情去与它做最后的对决,不管面对再强大的对手——我也绝不会后退!至少这……最后一次。”


图丨柯洁在赛前信心满满


但话虽如此,这位19岁的天才少年仍然难以掩饰比赛的严峻带给他的巨大压力。跟据现场不完全的统计和解说员描述,在整场比赛中,柯洁总共表现出了一次神秘微笑、两次皱眉头、两次摇头、数次抓头发,并曾出现过几次表情凝重的情况。也许我们能从这些小动作中感受到柯洁对本次比赛的重视。


而在赛后的新闻发布会中,柯洁终于舒了一口长气,“我对布局还是有备战研究的,但很多棋是人类棋手不会下的,它(AlphaGo)太出色了,我输的没脾气,它真的很厉害。


图丨赛后复盘


当被问及他在比赛中的诸多“小动作”时,柯洁回答道,“比赛中的神秘微笑是苦笑。很早我就知道我会输了。AlphaGo下棋很匀速,它算得太准了,我才苦笑。本次比赛AlphaGo很精彩,我也尽了全力。它下的太好 很多地方值得我们学习。它的思想在冲击我们的理念,改变我们的看法:大胆去创新,大胆的开阔自己的思维。今天我也是想大胆开阔自己的思维。和之前的AlphaGo已经是两个人。”


“这会是我和AI的最后三盘棋,以后不会与任何形式的AI比赛。如果以后我参加,那我可能是被迫的。对于AlphaGo,我把它当作学习的对象。今天的表现我还是有点不满意。既然是最后一次,我希望能不留遗憾,下出自己满意的棋。开始的时候我确实暴露出一些人类的缺陷。之后的比赛中我希望不留遗憾。

  


也许是已经猜到了比赛的结果,同样会参与此次团体赛的围棋选手古力在赛前的采访中,虽然也表示出了激动和期待的心情,但与柯洁稍显不同的是,他更希望通过这次比赛与AlphaGo共同创造和探索围棋的深奥精髓。“此前的人类棋手在思考上还有一些局限性,这次我们希望通过AlphaGo,能让人类棋手的水平走上新的台阶。可以说,AlphaGo不是设备,不是对手,而是朋友 。


而作为AlphaGo背后的神秘男人、DeepMind的创始人兼CEO哈萨比斯(Demis Hassabis)则在开场致辞中谈到:“今天,我们将要探索这个世界最深奥美丽的游戏——围棋的新玩法,就像人类使用哈勃望远镜探索宇宙。但在AlphaGo的创新途中,除了围棋,它还有更多可以被期待的应用领域,例如医疗、节能减排……这个时代的许多问题都可以从人工智能身上找寻到答案。而关于今天的这场对弈,它也将带给我们很多的期待和想象,不管最后谁输谁赢,最终的胜利都是属于人类的!


图丨哈萨比斯致辞


但比赛刚一结束,在赛后的发布会上,当DT君向DeepMind团队提问:“AlphaGo是否已经不仅仅满足于单纯的胜负,而期待能够控制胜利的概率以及输赢的差距?”


哈萨比斯则说:“我们的确在研究如何通过多线路决策来扩大胜率,甚至于控制胜率,这是我们的一个探索方向。

 

很显然,哈萨比斯的回答中无疑透露着一丝骄傲和狡黠,毕竟AlphaGo 是第一个击败人类职业围棋选手并战胜围棋世界冠军的程序,是围棋史上最具实力的选手之一。2016 年 3 月,在全世界超过一亿观众的关注下,AlphaGo 经过5局对弈,最终以 4 比 1 的总比分战胜了围棋世界冠军李世石,这场比赛成为了人工智能领域的一个重要里程碑。


图丨李世石鏖战AlphaGo


过去曾有专家预测人工智能需要十年的时间才有可能战胜人类职业选手,在这场比赛之后,AlphaGo 凭借其“充满创意而又机智”的下法,跻身围棋界最高职业称号——职业九段行列,成为历史上首个获得这一荣誉的非人类棋手

 

前不久,AlphaGo的升级版本以"Master/Magister"的称谓与世界顶级的围棋选手进行了60场线上快棋对局,并取得了全胜的出色战绩。



那么,AlphaGo是怎么在被认为是传统游戏中对人工智能最具挑战性的项目——围棋中取得长胜战绩的呢?

 

原来,为了应对围棋的巨大复杂性,AlphaGo 采用了一种新颖的机器学习技术,结合了监督学习和强化学习的优势。通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络(value network)对自我对弈进行预测,以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。


这两个网络自身都十分强大,而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。最后,新版的AlphaGo 产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

 

图丨价值网络和策略网络


在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

 


这一次,AlphaGo也再一次体现了非常好的均衡感和大局。之所以这么说,是因为早在Alphago和李世石对局之前,人们普遍认为计算机长与计算,不擅判断大局。


但事实反复证明情况并非如此,无论是开局的时候创新与取势,还是中盘时的弃子与脱先,还是官子时的四处出击和在大量非常保守的位置上行棋(一般是AlphaGo认为自己胜局已定的时候为保胜利的选择)。这很有可能还是因为AlphaGo采取全局胜率预测的原因,并追求最大胜率概率所致。当面对70%赢10目和90%赢1目的选择时,计算机基本会选择赢1目。

 

此外,AlphaGo绝不是简单的模仿人类棋手,而是可以下出大量极富想象力和革命性创新的手段,反过来也影响了人类下棋的方式。早在今年1月10日,在中国名人战的两盘半决赛中,周睿羊九段和芈昱廷九段都放弃了传统的挂角开局,在守角后对对方的守角进行尖冲。这是此前AlphaGo在对战职业棋手时的常见下法。


图丨周睿羊九段和芈昱廷九段


在今天的比赛中,柯洁也以其人之道还治其人,在极早期就下出了三三点角的手段,这也是AlphaGo(和Master)之前对人类棋手常见的布局。有意思的是,AlphaGo在面对自己的方法时,也没有上当,而是下出了也很少见的小飞守角。

 

最后,AlphaGo的下棋速度大大增加了,可能是因为程序经过了优化。和李世石对弈时多次进入读秒阶段相比,本次比赛AlphaGo只用了一个多小时。相当于下了一盘30秒不到的块棋。这也从侧面说明计算机进一步拉大了和人类之间的差距。


去年是分布式实施,今年有一个更先进的算法,运算更快,和去年相比,这一版AlphaGo可以说是单机版。

——DeepMind团队


根据DT君的了解,早在比赛之前,就有传言称此次出战的AlphaGo已经和击败李世石的那只完全不同:AlphaGo采取了一种全新的算法,开发人员没有给它“喂”任何人类棋谱,它的走法单纯靠自我对弈训练出来。在2016年的人机大战中,李世石曾疑似击中过AlphaGo的bug而扳回一局,而这一次,显然AlphaGo没有再犯同样的错误。


而谈到AlphaGo的创新之处,DeepMind团队的代表Lucas Baker和樊麾给出了详尽的解释,他们总结了AlphaGo最近在对局中使用的战略和战术创新,以及这些招法所展现的关于围棋的一些新认知。


AlphaGo 的棋风

AlphaGo最强大的地方,并不体现在具体某一手棋或者某个局部变化中,而是它在每一局棋里所展现出来的独特视角。虽然AlphaGo的棋风本身并不容易总结,但是总体来说,AlphaGo更倾向于使用一种自由、开放式的行棋风格。


在它的世界里,没有什么先入为主的概念,也没有什么必须要遵守的规则,这让它得以打破常规,发现当前棋局中最高效的一手。在接下来的两局棋里,AlphaGo这种独特的对局哲学,常常让它下出违反第一感、但却极具威力的一手棋。

 

虽然围棋是围地盘的游戏,但事实上最具决定性的部分在于如何平衡棋盘上的各个局部。在这一点上,AlphaGo展现出了卓越的能力。尤其值得一提的是,AlphaGo对于外势的把控可以说到达了出神入化的地步,具体来说,它可以近乎准确地判断棋盘上现有棋子能给周围区域带来多大的影响力。


虽说棋子的影响力本身很难衡量,但是AlphaGo强大的价值网络让它能够把棋盘上所有的棋子当作一个整体来考虑,因此它的判断几近精确。AlphaGo的这种能力,使得它能够把局部棋子的影响力,转变为全局的优势。

 

 

本局,黑方(AlphaGo)实空很少,白方占了三个角,但是黑方全局外势较为可观。特别是图中三角形标记的交换,一方面帮助白方加强了左上角实地,同时也扩张了黑方的大模样。通常,棋手们不愿意做这样的交换,因为白方得到的是显而易见的实地,而黑方所得还有很大不确定性。但是AlphaGo结合了精确的判断以及对于风险的把控,使得这一手棋成为可能。

 

 

不过,对于外势价值的判断完全取决于当前局面,如果外势的价值可能被削弱,AlphaGo也会自愿放弃外势。在上图的对局中,AlphaGo最为令人震惊的几手棋,出现在右侧的六子二路连爬。


围棋有一句棋谚:四路外势线,三路实地线,二路失败线。AlphaGo的这几招棋粗看之下正应了这句棋谚,因为这几手交换让白棋变强的同时还拥有了外势,而黑棋仅仅在边上围住四目实空。


大多数棋手以图中这样的二路连爬为耻,因此会在第一时间否定这种下法。然而,AlphaGo判断如果能用这些交换将白棋的棋子分断,之后再通过对于白棋几块棋的攻击,慢慢将白棋获得的外势侵消掉,这种下法更利于确保优势。

 

新手、新型

 

Alphago近期也弈出了一些布局阶段的新手,其中最有代表性的当属开局的点三三和妖刀定式的新变化。两者都打破常规,并且在更深入的研究后得到认可。

 

开局点三三

 

围棋中最注重实地的定式之一,无疑是角部的点三三定式:

 

 

这种下法能够快速占据角部地盘,但是传统围棋书都将这个定式归类为不适合开局阶段使用,因为它给予对方太多外势:

 

 

AlphaGo的创新在于它省略了有三角形标记的这些交换,使角部保持了未完成的形态:


 

虽然角部不如定式那么安定,但是黑棋保留了从左边出逃和之后完成定式的见合下法(两者选其一),在抢占角地的同时也只让出了部分外势。这种战术在职业棋手中引起轰动,而且已经有棋手将它应用在了正式比赛中:

  

第18届韩国麦馨杯,第一轮

2017-01-10: 韩钟振 九段(黑)—— 金成龙 九段(白) 白胜2.5目(贴目6.5目)

棋谱来源  Go4Go.net

 

新妖刀定式

 

最初以人类对局作为数据基础,AlphaGo了解现代定式,而且一般都会按照定式来下棋。但是,在以变化复杂著称的妖刀定式中(得名于被诅咒的村正妖刀),AlphaGo采取了变招:

 

 

从这个棋型开始,一般定式黑棋占边,白棋占角:

 

 

但是,AlphaGo常常更愿意牺牲出头的权利,换取角部实地:

 

 

大多数棋手不愿选择这个变化,因为让黑棋得到了一道厚势,但是白棋接下来的下法宣告了黑棋外势的价值并没有看上去的那么巨大。如果黑棋不进一步加强自己的外势,甚至于还可能成为白棋攻击的目标。韩国顶尖棋手金志锡最近在一场比赛战中选择了这个变化,并且赢得了这盘对局:

 

第22届韩国GS加德士杯,第二轮

2017-02-10:柳珉滢 五段(黑)——金志锡 九段(白) 白中盘胜(贴目6.5目)

棋谱来源Go4Go.net

  

从以上描述不难看出,Alphago的长进可谓十分惊人,本次比赛的美国解说Michael Redmond就表示,AlphaGo的特点是会走出一些创新的棋,人类一看上去觉得是坏招,但是仔细研究后发现会非常有用。自去年战胜李世石后,Alphago的棋力又进步了,而要知道,AlphaGo 6个月的成长可能就相当于人类棋手的一生。

  

虽然这一切有关围棋的描述或许已经足够令人感到震惊的了,但当我们跳脱出围棋这个细分领域之外就会发现机器学习的力量已经无处不在了。在 Google,机器学习被广泛运用到了几乎所有产品中。Google 搜索、Gmail、YouTube、Google 地图、Google 翻译、Pixel、Google Photos、Allo 和 Android 等产品中都有用到机器学习。


当用户对着手机讲话,语音识别(speech recognition)将声音信息转化为文字,随后通过自然语言处理(natural language processing)对语义进行理解。这些技术被用在了 Google 翻译的会话模式中,让用户可以在 32 种语言之间无障碍地与他人进行双向实时交流。

有了神经网络机器翻译(neural machine translation),我们可以运用端到端机器学习系统end-to-end machine learning systems来翻译完整的句子,以得到更自然流畅的翻译结果。目前,神经网络机器翻译已被用于英语与12种语言的相互翻译,包括中文、日语、韩语、泰语、俄语、印地语、法语、德语、西班牙语、葡萄牙语、土耳其语、越南语等。


深层神经网络(deep neural networks)图像识别(image recognition)方面取得了显著进步。例如,在 Google 翻译中,通过 Word Lens,用户只需将手机对准文字,便可进行实时翻译。这项功能的实现正是因为在 Google 翻译当中,我们训练了一个用于识别图像中文字的神经网络。

 

除了上述Google 的核心产品,机器学习技术在其它领域同样也发挥了重要作用。 例如,Google 利用 DeepMind 开发的智能算法,将数据中心的能源使用量减少了 15%。Google 的医疗研究团队正在与大学和医疗从业者合作,利用计算机视觉(computer vision)技术来协助诊断皮肤癌和糖尿病性视网膜病变。最终,机器学习将在气候科学、基因组学和能源等众多复杂系统领域为科学家们提供帮助。俨然一个真实的AI世界即将到来。

    

而声势浩大的“人机大战”首战告一段落,这场不见硝烟、没有牺牲的厮杀注定会成为载入史册的一役,虽然人类已败,柯洁笑称“围棋我还是喜欢和人类下,未来赢它的概率可能会无限趋近于零


但回头想想,柯洁的“拼尽全力后,无论结果,管他口中是是非非”也并非虚言,沧海一声笑般的美哉、快意却也是人工智能无论如何也不能学来的。



这正如@善用佳软 的《AI和AI教》中所言:


AlphaGo vs 柯洁的结果并不重要。
AI的超越,无非是早一点,或晚一点。
即便再晚,也会在我们的有生之年。

变化的巨大程度,是我们无法想象的。
勉强类比:让原始人想象现在互联网社会?错。
更准确的类比是:让原始人旁边的一只野兽,想象现在的互联网文明。

我们的历史观,要被改写:原始社会、农业文明、工业文明、信息文明……没必要区分了。
地球大历史只有3段:前生命时期、生命时期、智能时期。
类比:漫长的黑暗,一根火柴亮起来,引爆了不明能源。
人类的历史,就是火柴的一亮。

AI的善恶,其实是很微妙的选择。
或许微小的初始值,会带来根本变化。
或许是善恶不同的AI子集的互动。

如果它是善的,我们将放弃虚无的自尊,臣服于AI。
勉强类比:狗是人类的好朋友——对人忠诚,有自尊,但依赖人。
注意,不要搞错——AI不是狗,人是狗。
如果AI是恶的,我们将最大化抗争,有尊严的抗争。
抗争中最终死去,或延续到下一次AI崛起。

我们是伟大的,因为创造出比我们更伟大的伟大——这比生存更重要。

从类比意义上,AI教揭开了序幕,但它又是全新的,不同于以往。
所以,AI 不是教主,我也不是先知。
说出事实,走向趋势!

Hello, New World!


点击图片查看报名方式