专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

AlphaGo Zero幕后开发心路历程大公开！DeepMind资深研究员黄士杰最新演讲解密

机器学习研究会 · 公众号 · AI · 2017-11-15 22:34

正文

【导读】 11月10日，黄士杰应台湾人工智能年会之邀来台演讲，演讲主题是「AlphaGo——深度学习与强化学习的胜利」，也是他首次公开演讲。不久前，在 DeepMind 发表了《 Mastering the game of Go without humanknowledge 》的最新论文后，黄士杰曾在 Facebook 写下： AlphaGo Zero 是完全脱离人类知识的 AlphaGo 版本。在演讲上，他强调， DeepMind 的目标是要做出一个通用人工智能，也就是强人工智能 ，但他也认为，对 DeepMind 来说，强人工智能还是很遥远，现在最强的学习技能仍然在人类大脑内，有人说强人工智能要到 2045 年，有人说至少还要 100 年，黄世杰的回答是： 大家不要太担心，电影还是电影。

黄士杰 ：Research Scientist / Google DeepMind

AlphaGo首席工程师。毕业于国立台湾师范大学信息工程研究所，现在是Google DeepMind的资深研究员。

2016 年， Google 旗下 DeepMind 公司开发的 AlphaGo 击败了韩国职业九段棋士李世石。

今年 5 月， AlphaGo 以三战全胜的纪录赢了名列世界第一的棋王柯洁。隔了五个月后， DeepMind 公布了 AlphaGo Zero ，它再度让人类感到震撼。

「我没有想过一个名词能获得所有人的认同，从政治人物、科学家、企业家、到学生甚至是小孩，都觉得这件事明天会发生，这场完美风暴的引爆点是 AlphaGo ，黄士杰可能自己都没想过，他那只帮机器下棋的手，改变这个世界：让大家相信或者忧虑机器会超越人类」， Google 台湾董事总经理简立峰说。

人工智能，是简立峰口中的完美风暴， AlphaGo 则是这一波 AI 风潮的最佳代言人，那么，黄士杰呢？

相信 DeepTech 的读者们已经对这个名字并不陌生，他是 DeepMind 资深研究员，是与人类顶尖棋手对弈时代 AlphaGo 执棋的「人肉臂」，更重要的是，他还是开发这个神秘大脑的关键人物之一。

11 月 10 日，黄士杰应台湾人工智能年会之邀来台演讲，演讲主题是「 AlphaGo—— 深度学习与强化学习的胜利」 ，也是他首次公开演讲。

不久前，在 DeepMind 发表了《 Mastering the game of Go without humanknowledge 》的最新论文后，黄士杰曾在 Facebook 写下： AlphaGo Zero 是完全脱离人类知识的 AlphaGo 版本。这也就是取名为 AlphaGo Zero 的原因 ——AlphaGo 从零开始。

在今天的演讲上，他强调， DeepMind 的目标是要做出一个通用人工智能，也就是强人工智能，但他也认为，对 DeepMind 来说，强人工智能还是很遥远，现在最强的学习技能仍然在人类大脑内，有人说强人工智能要到 2045 年，有人说至少还要 100 年，黄世杰的回答是： 「大家不要太担心，电影还是电影。」

从 DeepMind 为什么开始做围棋一直到最新的 AlphaGo Zero ，见证了这一切的他称「这几年好像在做梦」。

以下为演讲内容整理（原文略有删改）：

AlphaGo－深度学习与强化学习的胜利

▌ 人因梦想而伟大

【 人因梦想而伟大 】，是我加入（ DeepMind ）五年之后最大的体会，这段经历对我个人最大的影响就是整个人对 AI 的认识不断加深。

DeepMind 团队卧虎藏龙，精神非常强，当 AlphaGo 结束时，我的老板过来跟我说：【 Aja （黄士杰英文名）， AlphaGo 已经完成所有一切我们希望它该完成的任务，所以我们要再往前迈进】。这群高手都有一个清楚的远大目标，就是做出通用人工智能 —— 解决 A I ，把世界变得更好。

我从小就喜欢下棋，棋艺业余六段，再往上就是职业等级。回顾加入 DeepMind 这五年及 AlphaGo 的发展历史，有四件事对我意义非常大，第一件是在韩国赢了李世石，那天 Demis Hassabis （ DeepMind 的 CEO ）在推特上写着：赢了， AlphaGo 登上月球。

我们最初没想过会做出这么强的 AlphaGo ，当初是抱持着「探索」的心理开始的。开发过程很辛苦，连过圣诞节时， AlphaGo 都还在自我对弈，同事也都还在工作。所以对我们来说， AlphaGo 赢了就像阿姆斯特朗登上月球一样：「这是我的一小步，却是人类的一大步。

第二件是操作 AlphaGo Master 在网络取得 60 连胜，第三是在中国乌镇比赛打赢柯洁。我参加了两次人机大战，两次的气氛都非常不一样。

在韩国时，我们都可以深深感受到李世石的巨大压力，感觉他是为人类而战，第二次在乌镇的气氛倒是满愉快，大家是一种建设性而不是对抗性的气氛。

第四件事就是 AlphaGo Zero 诞生， DeepMind 把所有人类围棋知识抛弃掉，只给规则让它从头开始学。

我回想起我在师大念博士班开发 Erica 围棋电脑程序，每天写程序、解 Bug 、做测试到半夜的日子，但 AlphaGo Zero 把我之前做的这些事全部取代，完全不需要我的协助。

于是有同事问我， AlphaGo Zero 把你过去十几年在计算机上做的研究一点一点的拿掉，还远远超越你，你有什么感觉？一开始我心情有点复杂，但后来想想这是「趋势」。

如果我让 AlphaGo 有所阻碍的话，那我确实应该被拿掉， AlphaGo 99% 的知识经我之手，它到达这一步其实是我从事计算机围棋研究的非常好的收尾，我已经非常满足了。

▌ 开发 Erica ，获邀加入 DeepMind

AlphaGo Zero幕后开发心路历程大公开！DeepMind资深研究员黄士杰最新演讲解密

正文

请到「今天看啥」查看全文