专栏名称: 造就
发现最有创造力的思想。
目录
相关文章推荐
国家数据局  ·  地方动态 | 陕西着力推进数据资源高效开发利用 ·  2 天前  
国家数据局  ·  地方动态 | 陕西着力推进数据资源高效开发利用 ·  2 天前  
苏州新闻  ·  刚刚,雷军宣布!瞬间爆了 ·  2 天前  
苏州新闻  ·  刚刚,雷军宣布!瞬间爆了 ·  2 天前  
猎云精选  ·  网易又一业务,淡出历史舞台 ·  2 天前  
爱平度  ·  删文、封号!微信出手 ·  2 天前  
爱平度  ·  删文、封号!微信出手 ·  2 天前  
51好读  ›  专栏  ›  造就

从AlphaGo的成功说起——那些让我们忧伤的,不安的,憧憬的

造就  · 公众号  · 科技自媒体  · 2017-07-15 18:00

正文


人类败了!人类输给了机器!


5月份,AlphaGo再次引起轰动,大败世界排名第一的围棋手,使人工智能正式称霸围棋界。只要看看媒体的报道,你就能嗅到迎面而来的末日气息。

毫无疑问,柯洁的认输引燃了一种挥之不去的伤感。去年,AlphaGo战胜李世乭的消息震惊全球,这位只有19岁的中国棋界天才当即表示,自己绝不会输给人工智能。而对战当天,揪着自己的头发、几乎要伏案而战的柯洁,让我们全程目睹了豪言壮语的一点点崩解,所以怎能不让人忧伤?


不过,若是只盯着这点不放的话,你就找错了重心。作为AlphaGo的开发者,谷歌子公司DeepMind的本意并不是碾压人类——毕竟,运作这家公司的依然是人类。AlphaGo是人类的重大成就, 我们的解读不应是AI能力超越了人类,而是AI将强化人类的能力。


AlphaGo是怎么战胜柯洁的?


德米斯·哈萨比斯,DeepMind联合创始人兼CEO


在乌镇围棋峰会上,我采访了DeepMind与谷歌的开发人员。去年与李世乭展开围棋大战时,AlphaGo取得了四胜一负的战绩,而在我跟开发人员交流时,听到他们谈得最多的,不是它胜的那四局,而是输掉的那一局。


“我们想看看能否解决这些问题——我们称之为知识差距,在第四局比赛中,李世乭出奇制胜,暴露了AlphaGo知识中存在的缺陷。”DeepMind联合创始人兼CEO德米斯·哈萨比斯(Demis Hassabis)在活动首日表示。


“我们试图弥合这一知识差距,试着教会AlphaGo,或让它通过自学,学会应对这种围棋局面。我们相信,现在的AlphaGo更善于应对这些局面了。不过,在跟柯洁这样的高手过招之前,我们并不确知。”

结果,AlphaGo连胜三局,力压柯洁。从中可以看出,所谓的知识差距已被弥合。但值得一提的是,为达到这一水平,DeepMind不得不从AlphaGo以往的失误中学习。如果这一年来它都原地踏步,那么,实力远超李世乭的柯洁完全有可能将它击倒。然而,AlphaGo并没有固步自封。


和柯洁对弈的AlphGo是经过彻底重构的版本,DeepMind称之为AlphaGo Master。


“AlphaGo Master”的主要创新就在于,它开始指导自己学习。”大卫·席尔瓦(Dave Silver)说。“现在,AlphaGo可以从自己的搜索中学习,以改进它的神经网络——包括政策网络和价值网络——使它更加宽泛地学习。最令我们激动的不是它棋艺的提升,而是它能广泛应用于其他高难度领域。”


AlphaGo由两个网络构成:一为“政策网络”,负责选择下一手该怎么走;一为“价值网络”,进行分析胜算。政策网络以专业围棋手的历史棋局为最初的基石。而AlphaGo Master比原版本深入得多,它通过搜索,确定走出某一手棋后可能引出的所有下法,从中提升它对潜在后果的理解。


“原系统自我对弈了数百万局,但没有涉及到这种搜索的使用,”哈萨比斯在接受采访时说。“AlphaGo Master则能自食其力地完善自己的预测。因此,先前的版本主要是生成数据,这次的版本则是使用自己的搜索功能,及其自己的能力,来完善自己的一部分,即政策网络。”基本来讲,现在的AlphaGo更善于评估所有选项,找出最强有力的一手。


我问哈萨比斯:若没有历史棋局充当初始数据集,这个系统能否奏效。“我们正在运行这方面的测试,老实说,我们还是挺自信的。”他说。“初步结果还挺不错。这是我们未来一篇论文的一部分,所以还不能公开讨论,但成果是比较喜人的。其总体思路就是降低对人类引导过程的依赖。”


但要打败柯洁,AlphaGo就得解决当初李世乭所揭露出来的那个缺陷。虽然通过自我对弈,AlphGo变得越来越强大,但要弥合知识差距,DeepMind就不能依赖这种基础训练,也不能手动编写解决方案。“它不像传统程序,把Bug修复了就好了,”哈萨比斯说,他认为,未来,各种学习系统都可能面临类似的知识差距。


“你必须连哄带骗地促使它学习新知识,或探索新区域,为此,我们可以采取很多不同的战略。我们可以用对手对抗的形式,迫使它探索这些区域,或是保留不同版本的AlphaGo,让它们相互对弈,使棋手库更加多样化。”

“我们还做了一件事,就是经过评估,找出我们认为AlphaGo不善应对的棋局类型。我们通过算法,在自我对弈的棋局中找出这些局面——即另编一个算法,从这些棋局中找到AlphaGo会遇到此类问题的地方。


由此,我们针对这类局面建立了一个库。这样一来,在测试新系统时,我们不仅可以让机器自我对弈,还可以让它与已知的问题棋局库对弈,从而量化改进程度。”


大卫·席尔瓦,DeepMind公司AlphaGo项目首席研究员







请到「今天看啥」查看全文