早在上世纪 60 年代,就已经有人开始对围棋的计算机程序进行研究。当时还在威斯康辛大学麦迪逊分校读计算机博士的 Albert Zobrist 引入了影响函数(influential function),为棋盘的每个空位计算数值,从而划分黑白领域并为每个子的影响力打分。
图丨w:白子影响函数;b:黑子影响函数;m:相互影响函数
1972 年,密歇根大学的 Walter Reitman 和 Bruce Wilcox 开始把人工智能研究应用于围棋。
从上世纪 80 年代末起,中国科学家也在相关领域做过一些工作,其中影响力最大的是陈志行和他的围棋程序“手谈”。从 1994 年到 1997 年,“手谈”在两个重要的国际计算机围棋比赛应氏杯和 FOST 杯中共获得了六个冠军。
进入 21 世纪后,机器学习技术和蒙特卡罗树搜索等方法开始被大量引入围棋程序中,也让围棋人工智能出现了飞跃。
2004 年,法国的 B Bouzy 和 B Helmstetter 发表论文,在评估某个行棋位置的时候,他们让自己的蒙特卡罗围棋程序随机选取一些点,并以此为基础完成一定数量的棋局,从而计算某个点引发的棋局最终结果的平均分数。
图丨蒙特卡罗树搜索
在此基础上,法国计算机科学家 Rémi Coulom 开发出了围棋程序 Crazy Stone。2008 年,Crazy Stone 在被让 8 子的情况下战胜了职业棋手青叶熏四段——这是计算机首次在让 9 子之内战胜职业棋手。
在那时,Rémi Coulom 也曾经指导了一名台湾师范大学的博士生,他叫做黄士杰。他从小学习围棋,属于围棋业余六段选手,还曾在台湾师大读书期间创办过围棋社,并获得大专杯围棋赛冠军。
图丨黄士杰的博士论文
在读硕士期间,黄士杰就将围棋定为他的研究课题。为了写程序,黄士杰有时在实验室一待就是十几个小时。他甚至还为了延续自己的研发成果而推迟两年毕业,最终,功夫不负苦心人,他设计的程序不仅获得了 19 路电脑围棋金牌,更是击败了当时最强的围棋程序 Zen。
在当时,这名计算机专业博士提出了一些新的蒙特卡罗树搜索的启发式算法,包括应用了模拟平衡算法(Simulation Balancing)和时间控制方法,极大地提升了程序的棋力。黄士杰用自己妻子的英文名 ERICA 给程序命名。
不过,这些程序都没有达到职业水准。性能最好的 Crazy Stone 和 Zen 也只达到了业余 5 段的水平。在那个时候,围棋界一般认为,计算机战胜职业围棋选手的那天还远远没有到来。
图丨围棋程序Crazy Stone
2012 年,在加拿大阿尔伯塔大学做了一年博士后研究员后,黄士杰加入了英国的人工智能创业公司 DeepMind。当时 DeepMind 创建刚刚两年,创始人是Demis Hassabis,Shane Legg 和 Mustafa Suleyman,早期投资人包括 Elon Musk、Peter Thiel 的 Founders Fund、以及李嘉诚的 Horizons Ventures。
2014 年 1 月,谷歌以 5 亿美元的价格收购 DeepMind,那时的 DeepMind 尚未发布任何一个产品,只有一篇还没有发表的论文。当时,黄士杰名列公司内两位首席工程师之一。
DeepMind 早期希望通过机器学习和系统神经生物学理解智能。2014 年 10 月,公司发布了一款原型产品,可以让计算机模拟人类大脑的短期记忆功能。
图丨Demis Hassabis、David Silver和黄士杰
2014 年,DeepMind 组建了 AlphaGo 项目,用来检测使用了深度学习的神经网络能否应用于围棋。公司的科学家通过增强学习让 AlphaGo 自己下了数千盘棋,矫正模型。
随后,AlphaGo 又与 Crazy Stone、Zen 等围棋程序下了 495 盘棋,只输了 1 盘。为了增加难度,AlphaGo 又与 Crazy Stone,Zen 和 Pachi 下了让四子棋,胜率分别为 77%、86%和99%。
2015 年 10 月,AlphaGo 随后以 5:0 的比分完胜欧洲冠军樊麾二段,这是计算机程序第一次在正式比赛中战胜人类职业选手。
图丨AlphaGo完胜樊麾二段
2016 年 3 月,AlphaGo 在普遍不被看好的情况下以 4:1 的比分战胜了 18 次世界冠军李世石九段。这标志着计算机已经足以战胜顶尖的人类围棋选手,象征意义可以媲美 19 年前“深蓝”战胜国际象棋大师卡斯帕罗夫。赛后,韩国棋院授予 AlphaGo 名誉九段证书,《科学》杂志将之评为 2016 年十大突破之一。
在 2016 年 2 月, DeepMind 在《自然》杂志上发表了一篇文章,介绍了自己的研究方法。他们在论文中表示,研究团队使用监督学习的方法研究人类专家的棋局,同时也使用增强学习的技术让 AlphaGo 自己和自己下棋。
5 月 23 日,中国·乌镇围棋峰会的人机围棋大战打响。最终,AlphaGo 三胜柯洁,也毫无悬念地战胜了 5 位世界冠军组成的联队。赛后,AlphaGo 获得了中国棋院颁发的九段证书。至此,在围棋领域,人机对战的胜负不再有悬念。
实际上,为了这一天的到来,人工智能围棋学界实际上已经努力了将近半个世纪。
但毫无疑问的是,回看整个围棋人工智能发展史中,黄士杰的出现以及他之后的贡献是最重要的转折点之一。不仅是围棋人工智能技术的重要奠基者、AlphaGo 的幕后推手,他都直接参与“脑”的研发设计,甚至还作为“手”替 AlphaGo 在对弈中执子。
不论是在刚刚结束的乌镇人机大战中,还是去年在韩国首尔对阵李世石,我们都会留意到黄士杰非常“淡定”的坐着,尽量不去做落子之外的任何多余动作。
李世石曾回忆道,黄士杰担心他受影响,对弈期间面不改色,整个过程中就喝了一口水,甚至连一次洗手间都没去过。黄士杰作为业余六段的棋手,或许是在代替AlphaGo向对手表达应有尊重。
近日,DT君有幸对这位通常十分低调的人工智能学者进行一次独家专访。这次的问答没有太多谈及技术,但有不少细节十分值得阅读。
图 | 黄士杰博士
问:能具体描述一下身为“AlphaGo之手”是一种什么样的感受?
黄士杰:AlphaGo 是 DeepMind 团队努力不懈的成果,我有一种很强的责任感,绝对不能犯错,因此对局时我始终努力保持冷静。能跟顶尖棋手们面对面下棋我也感到无比的荣幸。
问:您个人更希望机器赢还是人类棋手赢?柯洁和李世石都曾坐在您的对面下围棋,两人给你的不同感受是?
黄士杰:作为 AlphaGo 团队的一员,我当然是站在 AlphaGo 这一边。不过李世石九段靠着「神之一手」赢下了第四局,我衷心为他感到高兴,因为在比赛过程中,我感觉到他承受着极大的压力。柯洁九段跟我都说中文,我们在对局前后都有简短的交流,因此跟他对局我感到比较亲切。
图 | AlphaGo对战李世石(上图) & AlphaGo对战柯洁(下图)都由黄士杰博士执子
问:当初为什么同意加入AlphaGo项目?是什么吸引了您?
黄士杰:我热爱围棋,我在博士班期间所开发的围棋程序 Erica 甚至是以我太太的英文名字所命名的。其实,Demis Hassabis(DeepMind创始人)与David Silver(AlphaGo项目负责人)在项目开始的时候,动机比我更强烈,我们三个人也就成为了 AlphaGo 的创始团队。
问:在研发AlphaGo的过程中印象最深刻的一件事情是?
黄士杰:研发 AlphaGo 让我印象最深刻的始终是 AlphaGo 不停止的进步,我们团队是在把科学的力量发挥的淋漓尽致。也因此我也清楚的认识到围棋的深奥,围棋远远的难于我原本所想象的。
(图片由谷歌官方提供)
问:在不久前的乌镇围棋峰会团体赛中,有一个小插曲,当时棋手周睿羊起身应该是去洗手间,而为AlphaGo执棋的您露出了“迷之微笑”,请问当时您在想什么?
黄士杰:团体赛的气氛是比较轻松的,我也可以清楚的听到五位棋手在讨论什么。周睿羊九段所提出的下法似乎常常被其他四位棋手反驳,我觉得十分有趣,所以周九段起身时,我们互看了一眼,很有默契的互相微笑了一下。
问:对于很多人来说,AlphaGo宣布不再参加比赛是非常遗憾的,您怎么看待?
黄士杰:我觉得 AlphaGo 在围棋项目的历史性任务已经完成了。AlphaGo 不但帮助了围棋界在围棋技术上的突破,也促进了计算机围棋界与 AI 领域的进步。
未来,其他的围棋程序可以站在我们所公布的 AlphaGo 论文基础上继续研发,普及围棋并探索围棋的真理。所以我并不觉得遗憾。
(图片由谷歌官方提供)
问:一个充满脑洞的说法是,您已经是AlphaGo本人了,那么,您如何证明自己是黄博士而不是AlphaGo呢?
黄士杰:比赛中我不是微笑了吗? AlphaGo 是没有感情的,我会笑就证明我不是 AlphaGo(迷之微笑)。
图 | 黄士杰博士(右)与浙江省围棋协会秘书长卢俊和(左)
问:据说,AlphaGo 的研发团队中仅有您一人会下围棋,这样的人员配置其实挺有意思的,DeepMind为何如此设置?
黄士杰:事实上,Demis Hassabis(DeepMind创始人)与David Silver(AlphaGo项目负责人)都会下围棋,棋力大约都是业余初段。Demis 与David 在1997年深蓝(Deep Blue)打败西洋棋王之后,就梦想着一起研发出超级围棋 AI,DeepMind 被 Google 收购之后,我们三个人对计算机围棋与围棋的热情,促使了 AlphaGo 项目的诞生。
我虽然在团队中的棋力是最强的,但是研发人员的棋力并不是研发 AlphaGo 的必要条件,这也证明了 AlphaGo 的技术具备了很强的通用性,即使是围棋初学者也可以根据我们的论文打造出自己的 AlphaGo。