重磅 | DeepMind官方确认Master身份：全面回顾AlphaGo的再度出山之旅

机器之心 · 公众号 · AI · 2017-01-05 00:20

正文

机器之心报道

参与：李泽南、吴攀、微胖、李亚洲

我就是 AlphaGo！2017 年 1 月 4 日晚 9 时，Master 的神秘面纱终于被揭开了。在对局周睿羊 9 段的第 59 局比赛之后，名为 Master 的账号在腾讯野狐围棋平台上主动透露了自己的身份：「我是 AlphaGo 的黄博士（黄士杰）。」随后，在对阵古力 9 段的最后一局结束后，这场由中日韩三国多名旗手对阵人工智能历时 7 天的跨年大战宣告结束。

很快，Demis Hassabis 在自己的 Twitter 上发表了一份声明：

樊麾在微博上分享了这份声明并给出了中文版本：

网名 Master 的神秘棋手于 12 月 29 日出现在弈城网上围棋平台（最初名为 Magist）。三天时间对局数量达到 30 盘，全部胜利，对手包括朴廷桓、陈耀烨、芈昱廷、唐韦星等当今世界顶级棋手，其中对朴廷桓 4 比 0，对陈耀烨为 2 比 0。

随着 Master 的连胜，网络围棋平台瞬间受到了大量关注，不少人开始猜测 Master 的真实身份。有人询问了 AlphaGo 开发者黄士杰博士，得到了不置可否的回答。

随后，Master 在 2016 年 12 月 31 日宣布将休息一天。著名棋手柯洁在微博上表示：「我从三月份开始到现在研究了大半年的棋软，无数次的理论、实践，就是想知道计算机究竟强在哪里。昨晚辗转反侧，不想竟一夜无眠。人类数千年的实战演练进化，计算机却告诉我们人类全都是错的。我觉得，甚至没有一个人沾到围棋真理的边。但是我想说，从现在开始，我们棋手将会结合计算机，迈进全新的领域达到全新的境界。新的风暴即将来袭，我将尽我所有的智慧终极一战！」

在 1 月 1 日晚 11 时，Master 转战腾讯野狐围棋，与各路高手展开了新的对局。因为名声鹊起，从李钦诚到古力、柯洁、党毅飞、江维杰、辜梓豪、朴永训、柁嘉熹、姜东润、井山裕太等人纷纷申请与之对战，但随后纷纷负于这一仍未公开姓名的神秘对手。

到了 1 月 4 日下午，在网络围棋中与 Master 对战过的著名棋手包括柯洁、朴廷桓（韩国冠军）、井山裕太（日本冠军）、周俊勋（台湾省第一人）等人。1 月 4 日下午 3 点，中国「棋圣」聂卫平在与 Master 的对战中失利，这是 Master 的第 54 场胜利。

与柯洁的对战

1 月 3 日 Master 战胜柯洁后，聂卫平表示：「Master 改变了我们传统的厚薄理念，颠覆了多年的定式，围棋远不像我们想象的那么简单，还有巨大的空间等着我们人类去挖掘，AlphaGo 也好，Master 也罢，都是『围棋上帝』派来给人类引路的。而在第二天负于 Master 后，聂卫平表示：

Master 技术全面，从不犯错，是其最大优势，人类要打败它的话，必须在前半盘领先，然后中盘和官子也不出错，这样固然很难，但客观上也促进了人类在围棋技术上的提高。这盘棋我布局不错，但中盘时打了一个大勺子，断送好局，有些可惜。

1 月 4 日晚，在连续对阵申真谞 9 段、周睿羊 9 段、古力 9 段后，AlphaGo 的连胜纪录扩大到了 60 场，按照事先的计划，谷歌围棋程序的非正式比赛测试暂时告一段落。

Master 在快棋赛中多次盘中获胜（没到收官阶段对手就认输了，这说明 Master 的优势很大），展示了人类棋手无法企及的快棋水平。网络快棋是目前职业选手练习的主要方式之一，因为每一步思考时间很短，和带奖金的正式比赛相比，快棋赛中对决双方更加容易出错，所以这次「升级版」AlphaGo 的实际围棋水平如何还需要正式规则比赛的进一步检验。

值得一提的是，去年 12 月 13 日，多名谷歌高层曾经突访中国，他们在中国棋院与聂卫平、柯洁等人进行了交流，并达成了合作协议。随后在日本棋院 Journalist Club 的颁奖仪式上，Hassabis 曾表示：「2017 年对 AlphaGo 和围棋界都将是充满兴奋的一年。」人们没有意识到，在新的一年还未到来时，人工智能对于这项流传千年的古老技艺的冲击已经开始。

AlphaGo 的系统

AlphaGo 从高调宣战开始到 3 月底战胜李世乭，短短 2 个多月内已经博取了无数的眼球。如今再次出现了一个 Master，它是人？是 AI？还是二者的结合？业内猜疑不断。

外行看热闹，内行看门道。在下棋这件事上我们可能看的是热闹（小编着实不懂棋的套路），但下围棋的人工智能系统我们曾了解过。

在一月份的 Nature 封面报道中，曾详细地介绍了 AlphaGo 系统当时所采用的技术：

首先 DeepMind 使用了如今火热的深度学习技术，同时还加上了另一种模拟技术来对潜在的步法进行建模。深度学习需要对一个大型的神经网络进行训练，使其对数据中的模式做出反应。

AlphaGo 的关键在于使用的深度神经网络，而且 DeepMind 在 AlphaGo 中使用了两种不同的神经网络：第一种叫做策略网络（policy network），用来预测下一步；第二种叫做价值网络（value network），用来预测棋盘上不同的分布会带来什么不同的结果。

AlphaGo 使用这两种网络的方法是把非常复杂的搜索树减少到可操作的规模。所以，它并不是在每一步都要考虑几百种步数，而只考虑政策网络提供的几十种最有前景的步法，价值网络的作用是减少搜索的深度，所以，它的搜索深度并不是特别深，它并不是一下子搜索出直达比赛末尾的 300 多步，而是搜索更少的步数，比如 20 多步，并评估这些位置，而不是一路评估到底，看谁最终能赢。搜索并不是靠蛮力，而是与某种与想象力很相似的东西。

DeepMind 官方发布的 2016 年度总结中写道，「最激动人心的莫过于 AlphaGo 博弈过程中所呈现出来的创造力，有时，它的棋招甚至挑战了古老的围棋智慧。围棋，这一古往今来最富深谋远虑的游戏之一，AlphaGO 可以识别并分享其中洞见。」

就像首位和 AlphaGo 对战的专业选手樊麾在接受机器之心采访时表示：「AlphaGo 可能开辟出另外一种围棋的美，是我们想象不到的。」

如果观看了 AlphaGo 和李世乭的对弈，你或许不会对坐在李世乭对面的这位感到陌生。他就是 AlphaGo 的核心作者之一 Aja Huang（黄士杰），而这次代「Master」执子的也是黄士杰博士。值得注意的是，黄士杰还是 DeepMind 中唯一一位围棋高手（业余围棋 6 段），从他的硕博论文《计算机围棋打劫的策略》和《应用于计算机围棋之蒙地卡罗树搜寻法的新启发式算法》便可以看出他对围棋的热爱。

2011 年毕业于台湾师范大学计算机信息工程专业博士班的黄世杰在 2012 年便加入了 DeepMind 团队，也是该团队的早期核心成员之一。

在校期间，黄士杰的导师是曾研发 Crazy Stone 的 Rémi Coulom，而 Crazy Stone 正式在 AlphaGo 横空出世前最有名的围棋软件之一。

黄士杰的导师此前在接受媒体报道时曾透露，黄士杰读硕士时就锁定围棋为他的研究课题，为了写程序，黄士杰有时在实验室一呆就是 16 小时，并将他开发的围棋程序以其老婆的英文名「Erica」命名。

下面是黄士杰的论文引用情况。凭借发表于 Nature 的论文《Mastering the game of Go with deep neural networks and tree search》和另一篇论文《Move Evaluation in Go Using Deep Convolutional Neural Networks》的高引用量，黄士杰仅凭 4 篇论文就在短短两年时间内获得大约 388 到 851 之间的引用。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]