德米斯·哈萨比斯,DeepMind联合创始人兼CEO
在乌镇围棋峰会上,我采访了DeepMind与谷歌的开发人员。去年与李世乭展开围棋大战时,AlphaGo取得了四胜一负的战绩,而在我跟开发人员交流时,听到他们谈得最多的,不是它胜的那四局,而是输掉的那一局。
“我们想看看能否解决这些问题——我们称之为知识差距,在第四局比赛中,李世乭出奇制胜,暴露了AlphaGo知识中存在的缺陷。”DeepMind联合创始人兼CEO德米斯·哈萨比斯(Demis Hassabis)在活动首日表示。
“我们试图弥合这一知识差距,试着教会AlphaGo,或让它通过自学,学会应对这种围棋局面。我们相信,现在的AlphaGo更善于应对这些局面了。不过,在跟柯洁这样的高手过招之前,我们并不确知。”
结果,AlphaGo连胜三局,力压柯洁。从中可以看出,所谓的知识差距已被弥合。但值得一提的是,为达到这一水平,DeepMind不得不从AlphaGo以往的失误中学习。如果这一年来它都原地踏步,那么,实力远超李世乭的柯洁完全有可能将它击倒。然而,AlphaGo并没有固步自封。
和柯洁对弈的AlphGo是经过彻底重构的版本,DeepMind称之为AlphaGo Master。
“AlphaGo Master”的主要创新就在于,它开始指导自己学习。”大卫·席尔瓦(Dave Silver)说。“现在,AlphaGo可以从自己的搜索中学习,以改进它的神经网络——包括政策网络和价值网络——使它更加宽泛地学习。最令我们激动的不是它棋艺的提升,而是它能广泛应用于其他高难度领域。”
AlphaGo由两个网络构成:一为“政策网络”,负责选择下一手该怎么走;一为“价值网络”,进行分析胜算。政策网络以专业围棋手的历史棋局为最初的基石。而AlphaGo Master比原版本深入得多,它通过搜索,确定走出某一手棋后可能引出的所有下法,从中提升它对潜在后果的理解。
“原系统自我对弈了数百万局,但没有涉及到这种搜索的使用,”哈萨比斯在接受采访时说。“AlphaGo Master则能自食其力地完善自己的预测。因此,先前的版本主要是生成数据,这次的版本则是使用自己的搜索功能,及其自己的能力,来完善自己的一部分,即政策网络。”基本来讲,现在的AlphaGo更善于评估所有选项,找出最强有力的一手。
我问哈萨比斯:若没有历史棋局充当初始数据集,这个系统能否奏效。“我们正在运行这方面的测试,老实说,我们还是挺自信的。”他说。“初步结果还挺不错。这是我们未来一篇论文的一部分,所以还不能公开讨论,但成果是比较喜人的。其总体思路就是降低对人类引导过程的依赖。”
但要打败柯洁,AlphaGo就得解决当初李世乭所揭露出来的那个缺陷。虽然通过自我对弈,AlphGo变得越来越强大,但要弥合知识差距,DeepMind就不能依赖这种基础训练,也不能手动编写解决方案。“它不像传统程序,把Bug修复了就好了,”哈萨比斯说,他认为,未来,各种学习系统都可能面临类似的知识差距。
“你必须连哄带骗地促使它学习新知识,或探索新区域,为此,我们可以采取很多不同的战略。我们可以用对手对抗的形式,迫使它探索这些区域,或是保留不同版本的AlphaGo,让它们相互对弈,使棋手库更加多样化。”
“我们还做了一件事,就是经过评估,找出我们认为AlphaGo不善应对的棋局类型。我们通过算法,在自我对弈的棋局中找出这些局面——即另编一个算法,从这些棋局中找到AlphaGo会遇到此类问题的地方。
由此,我们针对这类局面建立了一个库。这样一来,在测试新系统时,我们不仅可以让机器自我对弈,还可以让它与已知的问题棋局库对弈,从而量化改进程度。”