来源:谷歌博客
作者:
Anna Ukhanova
【新智元导读】
ICML 2017 Test-of-Time 奖 Sylvain Gelly(现在是苏黎世谷歌大脑团队的研究员)和 David Silver(现在是DeepMind AlphaGo团队首席研究员)2007年的工作:Combining Online and Offline Knowledge in UCT,提出将离线学习或在线创建的知识纳入搜索算法以增加其有效性的新方法。这一方法促成了AlphaGo的成功。谷歌研究博客发表文章回顾AlphaGo 十年研究经历,并对这篇经典论文进行解读。
人们不是每天都有机会停下来思考以前的工作如何帮助了当前的成功,如何影响了其他的进步,以及在今天的背景下如何解释它们。这就是 ICML Test-of-Time 奖项设置的目的。今年这一奖项颁发给了 Sylvain Gelly(现在是苏黎世谷歌大脑团队的研究员)和 David Silver(现在是DeepMind AlphaGo团队首席研究员)2007年的工作:Combining Online and Offline Knowledge in UCT。这篇文章提出将离线学习或在线创建的知识纳入搜索算法以增加其有效性的新方法。
围棋是一种古老的中国棋盘游戏,知名度极高,全球有数一百万计的棋手。自从“深蓝”(Deep Blue)在90年代末在国际象棋游戏中取得成功以来,围棋被认为是机器学习和游戏的下一个benchmark。确实,围棋具有简单的规则,能够很有效地被模拟,以及其进展可以被客观地测量。但是,由于围棋中可能的走法(moves)的搜索空间非常大,使一个ML系统下好围棋非常具有挑战性。在过去两年中,DeepMind 的 AlphaGo 已经突破机器学习在游戏中的可能性的局限,为了成功地击败世界上最好的一些棋手,带来了许多创新和技术进步。
在 AlphaGo 取得成功的10多年前,在国际象棋中取得成功的经典树搜索(tree search)技术是计算机围棋程序的主要方法,但是这样的围棋程序只能达到人类玩家的弱业余水平。感谢蒙特卡罗树搜索——基于对游戏中一个位置的可能结果进行抽样,并利用这些模拟的结果逐步改进搜索树的一种新型搜索算法——计算机能够更深入地搜索游戏。这是很重要的一点,因为它使得程序可以纳入更少的人类知识,在程序中包含人类知识是一项很难正确地做到的任务。实际上,人类专家无法表达或没有想到的任何缺失的知识(missing knowledge)都可能对计算机评估游戏的位置时犯错误,最后导致满盘皆输。