专栏名称: 造就
发现最有创造力的思想。
目录
相关文章推荐
青海省商务厅  ·  青海省已发放2025年首批消费品以旧换新补贴 ... ·  21 小时前  
重庆之声  ·  今天,送别黄旭华院士! ·  昨天  
重庆之声  ·  今天,送别黄旭华院士! ·  昨天  
港天港地港人才  ·  4类人申请港硕爽翻天,利益buff拉满! ·  3 天前  
港天港地港人才  ·  4类人申请港硕爽翻天,利益buff拉满! ·  3 天前  
GitHub猿  ·  一款神仙儿 JSON 可视化工具神器,绝了! ·  4 天前  
GitHub猿  ·  一款神仙儿 JSON 可视化工具神器,绝了! ·  4 天前  
51好读  ›  专栏  ›  造就

从AlphaGo的成功说起——那些让我们忧伤的,不安的,憧憬的

造就  · 公众号  · 科技自媒体  · 2017-07-15 18:00

正文


人类败了!人类输给了机器!


5月份,AlphaGo再次引起轰动,大败世界排名第一的围棋手,使人工智能正式称霸围棋界。只要看看媒体的报道,你就能嗅到迎面而来的末日气息。

毫无疑问,柯洁的认输引燃了一种挥之不去的伤感。去年,AlphaGo战胜李世乭的消息震惊全球,这位只有19岁的中国棋界天才当即表示,自己绝不会输给人工智能。而对战当天,揪着自己的头发、几乎要伏案而战的柯洁,让我们全程目睹了豪言壮语的一点点崩解,所以怎能不让人忧伤?


不过,若是只盯着这点不放的话,你就找错了重心。作为AlphaGo的开发者,谷歌子公司DeepMind的本意并不是碾压人类——毕竟,运作这家公司的依然是人类。AlphaGo是人类的重大成就, 我们的解读不应是AI能力超越了人类,而是AI将强化人类的能力。


AlphaGo是怎么战胜柯洁的?


德米斯·哈萨比斯,DeepMind联合创始人兼CEO


在乌镇围棋峰会上,我采访了DeepMind与谷歌的开发人员。去年与李世乭展开围棋大战时,AlphaGo取得了四胜一负的战绩,而在我跟开发人员交流时,听到他们谈得最多的,不是它胜的那四局,而是输掉的那一局。


“我们想看看能否解决这些问题——我们称之为知识差距,在第四局比赛中,李世乭出奇制胜,暴露了AlphaGo知识中存在的缺陷。”DeepMind联合创始人兼CEO德米斯·哈萨比斯(Demis Hassabis)在活动首日表示。


“我们试图弥合这一知识差距,试着教会AlphaGo,或让它通过自学,学会应对这种围棋局面。我们相信,现在的AlphaGo更善于应对这些局面了。不过,在跟柯洁这样的高手过招之前,我们并不确知。”

结果,AlphaGo连胜三局,力压柯洁。从中可以看出,所谓的知识差距已被弥合。但值得一提的是,为达到这一水平,DeepMind不得不从AlphaGo以往的失误中学习。如果这一年来它都原地踏步,那么,实力远超李世乭的柯洁完全有可能将它击倒。然而,AlphaGo并没有固步自封。


和柯洁对弈的AlphGo是经过彻底重构的版本,DeepMind称之为AlphaGo Master。


“AlphaGo Master”的主要创新就在于,它开始指导自己学习。”大卫·席尔瓦(Dave Silver)说。“现在,AlphaGo可以从自己的搜索中学习,以改进它的神经网络——包括政策网络和价值网络——使它更加宽泛地学习。最令我们激动的不是它棋艺的提升,而是它能广泛应用于其他高难度领域。”


AlphaGo由两个网络构成:一为“政策网络”,负责选择下一手该怎么走;一为“价值网络”,进行分析胜算。政策网络以专业围棋手的历史棋局为最初的基石。而AlphaGo Master比原版本深入得多,它通过搜索,确定走出某一手棋后可能引出的所有下法,从中提升它对潜在后果的理解。


“原系统自我对弈了数百万局,但没有涉及到这种搜索的使用,”哈萨比斯在接受采访时说。“AlphaGo Master则能自食其力地完善自己的预测。因此,先前的版本主要是生成数据,这次的版本则是使用自己的搜索功能,及其自己的能力,来完善自己的一部分,即政策网络。”基本来讲,现在的AlphaGo更善于评估所有选项,找出最强有力的一手。


我问哈萨比斯:若没有历史棋局充当初始数据集,这个系统能否奏效。“我们正在运行这方面的测试,老实说,我们还是挺自信的。”他说。“初步结果还挺不错。这是我们未来一篇论文的一部分,所以还不能公开讨论,但成果是比较喜人的。其总体思路就是降低对人类引导过程的依赖。”


但要打败柯洁,AlphaGo就得解决当初李世乭所揭露出来的那个缺陷。虽然通过自我对弈,AlphGo变得越来越强大,但要弥合知识差距,DeepMind就不能依赖这种基础训练,也不能手动编写解决方案。“它不像传统程序,把Bug修复了就好了,”哈萨比斯说,他认为,未来,各种学习系统都可能面临类似的知识差距。


“你必须连哄带骗地促使它学习新知识,或探索新区域,为此,我们可以采取很多不同的战略。我们可以用对手对抗的形式,迫使它探索这些区域,或是保留不同版本的AlphaGo,让它们相互对弈,使棋手库更加多样化。”

“我们还做了一件事,就是经过评估,找出我们认为AlphaGo不善应对的棋局类型。我们通过算法,在自我对弈的棋局中找出这些局面——即另编一个算法,从这些棋局中找到AlphaGo会遇到此类问题的地方。


由此,我们针对这类局面建立了一个库。这样一来,在测试新系统时,我们不仅可以让机器自我对弈,还可以让它与已知的问题棋局库对弈,从而量化改进程度。”


大卫·席尔瓦,DeepMind公司AlphaGo项目首席研究员


这些性能的改进并不需要追加额外的运算能力。相比对弈李世乭的那个版本,AlphaGo Master耗用的运算能力竟要低得多;它的运行仅靠Google Cloud中区区一枚二代TPU(张量处理单元)就完成了,而之前的版本要同时用到50个TPU。


“你不能想当然地以为,运行AlphaGo所需的计算力不是一般人所能企及的。”席尔瓦说。“其特殊之处在于算法,而非计算量。”


AlphaGo正在学习人类,虽然未来的它也许不需要这样做;反过来,人类也在学习AlphaGo。 最简单的例子就是柯洁对AI的第一局比赛,柯洁采用了三三开局。这种下法在近几十年中逐渐式微,但因为AlphaGo的巧妙运用,它又开始重现江湖。


在第二局中,柯洁将AlphaGo逼到了极限。 AlphaGo得出结论:柯洁的前50手堪称“完美”,而前100手之高明,胜过了AlphaGo Master当时对弈过的所有对手。

虽然AlphaGo的某些走法在当时可能不为围棋界所理解,但事后证明,AlphaGo提供了一种看待围棋的全新方式。围棋已经存在了数千年之久,在如何下棋和研究围棋的问题上,AlphaGo引发了有史以来最为深刻的变革之一。


那么,对不懂围棋的人而言,AlphaGo又有何意义呢?


AI带来的启示与不安


安德鲁·杰克森(Andrew Jackson)和韩国围棋协会高级秘书长李夏辰探讨AlphaGo对柯洁的首局比赛


比方说,你是谷歌数据中心的一名工程师。你有责任确保所有机器高效运行,而且不能让设备过热。也许你采用的办法是,通过系统设计,将同时运行的冷却设备数量降至最低——只有当第一台设备满负荷之后,才会打开第二台,以此类推。这样做不无道理。不过,一个名为“Dr. Data”的AlphaGo版本有不同意见。


“Dr. Data决定开启尽可能多的处理单元,使他们保持低速运转,”哈萨比斯说。“考虑到开关、泵等的运作,那样反而更合理。我觉得,新的数据中心在设计时,正在考虑这种做法。他们选取其中一些概念,重新整合入新的设计——这是AI系统没法做到的。所以,人类设计师观察着这个AlphaGo版本的做法,将结果纳入下一步的决策中去。”谷歌的数据中心已经采纳了“Dr. Data”,使谷歌冷却用电节省了40%,能耗降低15%。







请到「今天看啥」查看全文