专栏名称: 独角兽智库

独角兽智库是一个新兴产业投研平台，搭建新兴领域高端技术与投资机构、传统行业的桥梁，让专业的资本找到优质的企业，实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。

【行业-TMT】AlphaGo三胜柯洁人工智能进化几何

独角兽智库 · 公众号 · 科技投资 · 2017-06-08 20:14

正文

请到「今天看啥」查看全文

独角兽智库产业研究第一智库

研报点评

投资市场热点更迭，每个热点都存在投资逻辑，作为投资者很难辨别真伪。【独角兽研究】会不定期对热点行业进行 独家点评 ，通过产业链深入研究将这些热点行业存在的风险及真正的 成长性 挖掘给广大读者。

作者|兴业计算机袁煜明团队

编辑|独角兽智库

投资要点

事件：5月27日，经过3小时38分钟的鏖战，柯洁在210手盘中投子再负AlphaGo，至此中国乌镇围棋峰会圆满结束。谷歌的人工智能围棋程序AlphaGo以3:0的成绩再一次横扫人类顶尖围棋选手赛后宣布退役，并将在之后奉送此次三番棋对决的分析视频和50盘AlphaGo自我对战棋局，来推动围棋运动的发展。

AlphaGo 进入Master时代，仅使用4个TPU的单机版，性能更加强大。据AlphaGo团队公布数据显示，该人工智能围棋程序已经进化到第三代AlphaGoMaster，它仅使用4个运行于物理服务器上的TPU，就拥有多达40层神经网络，而且凭借自我对弈的不断训练获得了更强大的策略网络和价值网络，从棋力上讲，相比于上一代人工智能围棋程序AlphaGoLee又提升了3子。

自我对弈，价值网络成为AlphaGoMaster的核心竞争力。AlphaGo使用蒙特卡洛树搜索（MonteCarlotreesearch），借助策略网络（policynetwork）和价值网络（valuenetwork）这两种深度神经网络。在现在版本中，AlphaGo已经不需要学习人类棋谱，而是完全靠自我对弈自学成才，这使得价值网络地位得到了空前提高，变成了其最重要的核心竞争力。

完备的大数据成为应用人工智能的前提。从AlphaGo的巨大成功中，我们感受到深度学习特别是价值网络的巨大作用，利用何种数据才能形成一张有效的价值网络就成为人工智能应用之前急需解决的问题，我们认为此类数据要么是环境自己运行过程中，能得到好坏结果且能被系统观测到的数据，要么就是人为地定义了对错好坏标签的数据。

构建能形成价值网络的大数据体系是中小型人工智能企业的最佳商业模式。在大型公司通过人工智能算法去构建生态系统时，中小公司利用大数据去构建价值网络体系成为此类企业最佳的商业模式。该模式主要包括三种：

1 ）做收集有标签的大数据平台，

2 ）成为能在专业领域进行建模的企业，

3 ）做输出整体解决方案的公司。

一、人机大战2.0

2017 年5月27日下午14:08分，经过3小时38分钟的鏖战，现世界排名第一的中国围棋选手柯洁在210手盘中投子再负AlphaGo，这款由谷歌（Google）旗下DeepMind公司开发的新版人工智能围棋程序。至此中国乌镇围棋峰会圆满结束，柯洁完成了与AlphaGo的最后一次公开对决，而AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(DemisHassabis)也宣布AlphaGo将就此退役，并将在之后奉送此次三番棋对决的分析视频和50盘AlphaGo自我对战棋局来推动围棋运动的发展。

此次围棋峰会于5月23日在乌镇开幕到5月27日闭幕，共进行了5场比赛，除了AlphaGo与柯洁的三番棋大战，还包括AlphaGo分别与两位人类棋手古力九段和连笑九段的配对赛，以及五位人类棋手和AlphaGo的团队赛。不同于去年AlphaGo与李世石的人机对抗，赛前舆论普遍并不看好人类棋手能在对阵人工智能围棋程序AlphaGo时取得哪怕一局胜利，赛后结果果然印证AlphaGo的超强实力，在这5场比赛中人类棋手没有占到任何便宜，AlphaGo仅仅是在人机配对赛中输给了另一位人机配对组合。

5 月23日柯洁与AlphaGo进行的第一盘对决跌宕起伏，黑棋和白棋都展现了细致入微的精细布局，双方经过289手的激战后，AlphaGo执白以1/4子的微小优势拔得头筹。在5月25日的第二盘对决中，柯洁表现完美，一度占优，但只一记昏招，就中盘认输。再到5月27日第三场比赛，柯洁要求再度执白，然而至209手再度中盘投子认负。此外，古力和连笑分别搭档AlphaGo进行的人机配对赛被认为是本次峰会上最有胜负悬念的比赛，这盘棋的进程也的确是跌宕起伏，古力一方一度形势占优，最终却被连笑一方上演逆转好戏。在配对赛之后，陈耀烨、唐韦星、时越、芈昱廷和周睿羊5位世界冠军组团挑战AlphaGo也没能成功。自此，人工智能围棋程序AlphaGo以碾压人类的战绩完成谢幕演出。

二、解析AlphaGo

1 、AlphaGo的进化史

AlphaGo （阿尔法围棋）是一款人工智能围棋程序，是于2014年开始由谷歌（Google）旗下DeepMind公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰等人的团队开发。这款人工智能围棋程序使用了全新的蒙特卡洛树搜索与策略网络和价值网络两个深度神经网路相结合的方法，使得AlphaGo取得了比原有围棋类软件更大的进步。在和CrazyStone和Zen等其他围棋程序的500局比赛中，单机版AlphaGo仅输一局。而在其后的对局中，分布式版AlphaGo在500局比赛中全部获胜，且对抗运行在单机上的AlphaGo约有77%的胜率。

5 月24日，在人工智能峰会上，DeepMind团队首席科学家DavidSilver在介绍AlphaGo最新进展时，将2014年以来的历代AlphaGo划分为三个版本，第一代：击败樊麾的AlphaGoFan；第二代：击败李世石的AlphaGoLee；第三代：柯洁现在的对手，也是年初60连胜的AlphaGoMaster。

AlphaGoFan ，是DeepMind团队研制出的第一代人工智能围棋，它于2015年10月横空出世，击败樊麾，成为第一个无需让子即可在19路棋盘上击败围棋职业棋士的电脑围棋程序。此时的AlphaGo由于其对阵棋手的水平还不算太强大，从而受到很多专业人士的质疑。据谷歌公布的相关资料显示，该版本的AlphaGo采用了分布式模式，共使用了1,202块CPU及176块GPU，与Zen/CrazyStone等之前的围棋软件相比，棋力要高出4子。

AlphaGoLee 是该团队研制出的第二代人工智能围棋，它在2016年3月韩国首尔举行的五番棋比赛中，以4:1击败尖端职业棋手李世石，一举打消世人所有质疑。此时的AlphaGo和上代相同，也是分布式结构的，它使用了谷歌位于美国的云计算服务器，并通过光缆网络连接到韩国，但是据测算与上一代版本相比它的棋力还要再高出3子。

AlphaGoMaster 是第三代人工智能围棋，它最初出现是在去年年末，在线围棋对战平台上取名Master，其在一周时间内对阵中日韩顶尖棋手获得60连胜，相比于击败李世石的版本，棋力又再次提升3子。此次与柯洁对战的正是此代人工智能围棋程序AlphaGoMaster，据AlphaGo首席研究员DavidSilver在人工智能峰会上的介绍以及赛后的补充采访，该版本AlphaGo是单机版而且仅使用4个TPU。

2 、AlphaGo的核心竞争力

人类用计算机研究围棋也已经有30多年了，水平一直徘徊不前，应昌期老先生当年悬赏140万美元征求计算机程序打败职业棋手，一直到悬赏截止也未获突破。2013年，CrazyStone在让4子的情况下击败日籍九段棋士石田芳夫，这样的战果在当时就已经是非常难得了。直到AlphaGo的横空出世，从最初的被质疑到如今被膜拜，甚至在三盘棋结束后的发布会上，柯洁坦言，自己只能猜到AlphaGo一半的棋，并表示这辈子超越AlphaGo是不太可能了。那么相比之前那么多科研力量，AlphaGo的核心突破点到底在哪里？

之前很多文章都对此进行了探讨，我们在AlphaGoLee与李世石对决之前分析认为主要是由于计算能力的提升，使得深度学习算法成熟。而如今面对基于AlphaGoLee版本升级而来的AlphaGoMaster，我们认为起关键作用的是其核心算法——价值网络。

先解释一下AlphaGo的基本原理，AlphaGo使用蒙特卡洛树搜索（MonteCarlotreesearch），借助策略网络（policynetwork）和价值网络（valuenetwork）这两种深度神经网络。相比象棋，围棋一个难点在于无法进行穷举搜索，所以必须大幅收窄搜索范围。AlphaGo的做法有两步，一步就是策略网络，通过学习职业棋手的棋谱，学会了职业棋手的套路，下出和职业棋手相似的着法，这样的好处是剪枝，剪去了大量理论上有可能，但实际不可能去下的着法。另一步就是价值网络，让机器自己对弈很多盘，来判断这个局面下赢棋的概率有多少。这样的好处是减少搜索深度，因为摆若干步棋后，价值网络就能判断这个局面到底谁会赢。

在AlphaGoMaster之前版本中，提高人工智能围棋程序的棋艺主要是通过不断学习已有棋谱，策略网络和价值网络在当时都很重要，地位相当。而直到新版AlphaGoMaster出现后，在24日乌镇人工智能高峰论坛上，AlphaGo团队负责人DaveSilver表示，新版本已经不需要学习人类棋谱了，完全靠自我对弈自学成才。此时，在AlphaGoMaster版本中策略网络当然也很重要，但是价值网络地位得到了空前的提高，变成了其最重要的核心竞争力。

通过研究AlphaGoMaster的特性其实不难理解这两种价值网络地位发生的变化。策略网络其实不难训练，在互联网如此发达的今天，顶尖棋手对弈的棋局数不胜数，全部输入程序也不难，相信每一个做人工智能围棋的程序都可以做到，但难的恰是其价值网络，需要无数的自我对弈，才能对所有棋形都了然于胸，才能在各种复杂的大型攻杀中都能判断如何才能取胜。因此，我们判断价值网络才是新版本AlphaGo的核心竞争力。

三、后AlphaGo时代人工智能的发展

在AlphaGo宣布就此退役后，它对围棋领域的变革暂时中断，但是隐藏在AlphaGo背后的人工智能技术对于人类社会的变革才刚刚开始。

1 、完备的大数据成为应用人工智能的前提

去年AlphaGo横空出世时，一时舆论界都很恐慌，人工智能即将取代所有工作的言论甚嚣尘上，但时隔一年回顾发现各行各业都还安然无恙后，于是人们又开始疑惑人工智能技术究竟能应用到哪里？

其实说到底，AlphaGo仍然是机器不是人，无法真的像人那样思考，我们不能简单认为以前需要人思考的工作现在都可以交由机器来完成。下面我们简要剖析AlphaGo的成功要素，并阐述它在哪些应用领域已经具备了应用条件。

AlphaGo 的成功主要有两方面，首先AlphaGo输入的信息相对完备。围棋的好处就在于所有的信息都在棋盘上，全部可以给到系统。反之，比如机器人做菜只能用预设程序，而无法形成反馈改进的智能机制，因为目前味与香都还很难数字化输入到系统。当然，这两种都是极端情况，很多时候需要把外部输入信息通过各种方式尽可能最大程度的给到系统。比如热议的机器人炒股，基于看K线图是没问题的，财报数据也不难，但比如宏观经济、政治局势、监管法规、投资者情绪等，机器不像人一样可以迅速直观地掌握信息，需要人为设置来通过一些其他方式近似这些信息，比如用搜索频度来判断投资者情绪等。

其次是AlphaGo具有可以构建价值网络的大数据。新版本的AlphaGo很容易让我们混淆无监督学习的概念。既然它放弃了学习棋谱，全靠自学成才，那就是无监督学习了？其实不然。监督学习和无监督学习，最基本的区别在于是否有标签。虽然新版AlphaGo是在完全依靠自我对局提高，看起来没有任何的人为输入，但围棋毕竟是种规则游戏，棋下到最后都有输赢，所以天然是有标签的。正是输赢的标签，让AlphaGo能对每一种棋局判断胜率，最终形成强大的价值网络，这是其比人类顶尖棋手更强的棋感。

经常大家会说大数据对于人工智能的作用，必须要给人工智能喂数据，喂的数据足够多，才能让其变得足够聪明，这基本已成共识了。但事实上大量数据都是没有意义的，只有能帮助形成价值网络的数据才有意义，才能帮系统提高智能程度。

那什么样的数据能形成价值网络呢？要么是环境自己运行过程中，能得到好坏结果且能被系统观测到的数据（比如让机器人自己走路）；要么就是人为地定义了对错好坏的标签的数据。

所以，我们认为拥有可以构建价值网络的大数据是人工智能在该领域应用的前提，具有相对完备的输入信息是人工智能得以正常工作的必备条件。5月24日人工智能高峰论坛上，当Alphabet董事长EricSchmidt被问到人工智能应用到哪个领域希望最大时，他果断回答是医疗。因为医疗领域所拥有的庞大数据储备和严谨的数据输入与人工智能应用条件完美匹配。而且从后面谷歌相关技术人员展示的医疗案例来看，大多集中在医学影像，因为在这方面机器的输入信息是完备的，或者说至少和人获得的一样多。医学案例都有病情最终结果的信息，因此都是有标签的，而且对于很多相对不那么常见的病例，机器可以获得的案例数量是要比单个医生多很多的，因此有可能具备比人更强的鉴别能力。

2 、后AlphaGo时代谷歌的规划

当下各大科技巨头都把人工智能作为重点发展方向，但未必都将其作为最重点方向。在如此情形下，谷歌显然是个异类，它不但将人工智能作为最重点方向，更是投入巨资开发出了足以影响业界的产品。人工智能峰会上，谷歌董事长EricSchmidt表示在业内这么多年，他所看到最大的变化就是神经网络和人工智能。在他看来，计算机发展这么多年，虽然性能提升了那么多，但本质的算法是一样的，而现在算法出现了根本性颠覆，再也不用去教机器了。作为一个一度不是很看好人工智能的资深IT行业从业者，他甚至在媒体采访时公开表示当时错判了AI的重要性。

作为当前人工智能领域最重量级的领跑者，在AlphaGo退役后，谷歌计划通过向外出售TPU芯片来实现盈利，从而进一步推动人工智能项目的研究开发。表面上看，谷歌似乎全是在努力推动社会进步，还把自己的毕生人工智能精华TensorFlow都开源出来给大家，但从最后效果来讲，这种模式类似其在智能手机时代的操作，谷歌提供免费的安卓系统，最终依靠GooglePlay商店盈利。

3 、其他人工智能公司出路

谷歌在AlphaGo退役后通过出售相关硬件以及云服务，从而实现变现，去支撑其人工智能研究的做法确实代表了当前IT巨头发展人工智能业务的一种思路。那么，其他人工智能公司的出路在哪里？实现差异化竞争就成为一条最优路径。

在当前开源时代，将通用算法做成软件来卖不是一种好的商业模式，所以要么通过人工智能算法去构建生态系统，要么就是去做大数据，构建能形成价值网络的大数据体系，相较于大公司力图去争夺的前者，后者同样具有一定吸引力。具体来说，这种商业模式主要包括三方面：

（1）收集有标签的大数据，包括做传感器，或是有海量用户的互联网平台来收集数据，当然，有价值的主要是有标签的数据，要么是系统运行过程中可以自行得出结果，要么是多费点人工来定义标签，要么是UGC方式，让互联网用户来评定。

（2）在专业领域建模，很多专业领域，如新品研发，如果没有掌握很多行业知识的人来建模，是无法做起来的，包括确立正确的目标、构建合适的模型、模拟完备的输入，以及训练系统提升等，都需要专业知识。

（3）输出整体解决方案，载体可以是软件，是互联网平台，是硬件设备，或项目方案。从算法到可以应用到实际，还需要很多步骤，比如临床试验、通过监管认证、建立信任、工程流程及用户设计等，能把这些事情都做好的，必然有其竞争力和商业价值。正如浙江大学计算机学院副院长陈刚在5月24日人工智能论坛所说，未来应该70%的精力放在人工智能的应用，30%的精力花在技术算法的研发上，结合到实际领域的应用才是更有价值的。

但如前所述，机器目前并未真的像人那样思考，说到底是通过海量有标签数据（在围棋领域就是自战对局），训练出强大的价值网络来决策。这种方式在其他应用领域的适用性还待验证。未来，各个应用领域人工智能的努力才刚刚开始。

研报点评

OLED | 金融去杠杆 | 人工智能 | Micro LED | 环保

个股深度逻辑

精选行业报告

新能源： 燃料电池 | 特斯拉 | 新能源汽车

新材料： 石墨烯 | 碳纤维

大消费： 白酒 | 食品饮料 | 农业

医疗： 体外诊断 | CAR-T| CRO | 医疗信息化

军工机械： 军工研究 | 军民融合 | 军工投资机会

造纸轻工： 造纸轻工

有色： 有色策略

深度行业研究

医药： 一致性评价

新材料： 碳纤维

独角兽VIP会员群

产业研究第一社群，行业专家及明星分析师每周进行线上路演，分享新兴行业的最新投资机会，不定期线下产业沙龙。申请加入可加工作人员微信：itouzi6（二维码在下方），加入需备注： 姓名+公司+职位