专栏名称: 对冲研投

专业垂直的大类资产研投交流平台，聚合全球优质的金融会议、调研和培训，提供最有价值的研究逻辑和投资策略，做你身边的投研助手。官网：bestanalyst.cn

巅峰对决下的人工智能技术深度解析：AI究竟进化到了何种地步？

对冲研投 · 公众号 · 财经 · 2017-05-23 22:14

正文

柯洁和AlphaGo的巅峰对决终于展开，数月不见的人工智能技术又有了何种发展？AlphaGo依靠什么技术在不断进步？AI的大发展会给我们金融市场和对冲基金带来什么影响？今天我们再来做一次全方面解析

注：对冲研投鹰眼快讯产品全新上线，具体信息请参见前日推送： 【鹰眼袭来】围观一群研究员和交易员生产的期货快讯是怎样的体验？

文 | 广发金工广发金融工程研究

编辑 | 对冲研投转载请注明出处

一

汹涌袭来的AlphaGo 2.0

为期5天的“中国乌镇·围棋峰会”正式开幕，中国棋手世界排名第一的柯洁与AlphaGo人工智能展开人机大战。

而在今天上午展开的人机大战巅峰对决的第一局，柯洁以四分之一子惜败阿尔法狗。

李开复评价称，AlphaGo和李世石的人机大战是第一次，可能还有悬念。但进化了的AlphaGo与柯洁展开对决，不会再有其他可能，“这场比赛并非没有意义，而是在科学价值层面失去看点。”

二

人工智能再认知：算法突破、数据增长和硬件加速

人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用的一门新的技术科学。在1956年达特茅斯暑期研究项目的研讨会上，人工智能正式诞生。当时提出此概念的原因是为了探究机器可以在哪些方面模仿人类智能——这一核心思想一直推动着人工智能领域向前发展。

人工智能需要处理的任务包括学习、推理、规划、感知、语言识别和机器人控制等。

根据高盛的人工智能报告，近年来，很多IT公司在人工智能方面加大了投入。

谷歌的搜索算法已经从基于链接的网站排名转变为采用AI 驱动的查询匹配系统，后者能够不断适应那些独特的搜索（占谷歌所有搜索的 15%）。在软件方面，谷歌开源了机器学习软件库TensorFlow,在硬件方面，谷歌推出了针对机器学习平台的定制化硬件加速器TPU，并且将其应用到谷歌云计算引擎中。过去几年中，谷歌完成了几起人工智相关的收购，被收购的公司中最知名的当属开发出AlphaGo的DeepMind，它提升了谷歌的神经网络功能，并已经将其应用于各种人工智能驱动的项目中。

与此同时，对冲基金也开始在人工智能领域布局。桥水基金、文艺复兴科技公司、Two Sigma等公司组建了自己的人工智能团队。近日，对冲基金巨头Citadel聘用了微软的首席人工智能科学家邓力。

近年来人工智能突飞猛进的原因主要有以下几点： 算法的突破、数据的增长、硬件的发展和开源软件的流行。

2.1 算法突破

首先是人工智能算法的突破。近年来人工智能飞速发展的主要原因之一是深度学习算法在图像、语音、自然语言处理、广告推送等方面的突破性进展。2006年Hinton提出逐层预训练的深度学习算法之后，深度神经网络技术便迅速推广开来，在机器学习应用的各方面取得了突破性进展。

以语音识别为例，早在20世纪八九十年代，语音识别在技术上就有了很大的发展，然而受限于识别精度和成本，并没有大规模的应用。当精度足够高——比如语音识别准确率达到目前的97%左右，同时随着电脑和移动设备的普及，语音识别技术在电脑端和移动端才得以大规模使用了。

同时，人工智能技术的发展和成功应用也吸引大批科研人员从事该领域，科技公司或者风险投资者更有意愿投资人工智能领域，使得近年来在人工智能领域的成果层出不穷。资源的投入与技术的发展和应用相互促进，产生了良性循环。

根据PitchBook的数据，2011年以来投资AI相关领域的风险投资迅速增长。

2.2 数据的增长

人工智能的发展离不开数据的支持。海量数据的积累是近年来人工智能高速发展的基础。随着互联网技术的发展，特别是手机移动领域和物联网的发展，数据存储技术的成本和能耗的降低，每天都能产生海量的非结构化数据。

根据高盛的报告，特斯拉至今已经搜集了7.8亿英里以上的驾驶数据，并且每10 小时增加百万英里的数据。

根据IDC 的数字领域报告，到2020 年，每年数据量将达到44ZB（1ZB表示万亿G）。

随着数据量的增长，机器语言可以解决的问题数量也在增长，我们可以训练出性能更好的学习模型。

2.3 硬件的加速

芯片技术和云计算的提高大大促进了人工智能的发展。云计算使我们可以采用更多的计算资源进行计算，芯片的发展直接推动了计算速度的提高。

随着深度学习算法越来越复杂、所使用的数据集越来越大，人们对专用硬件的需求也在增长。2016 年，面向人工智能的平台成了计算硬件开发的一个主要的新方向。

传统芯片厂商方面，英伟达已经从之前电子游戏GPU 生产商转型为机器学习应用硬件厂商。与使用传统CPU相比，使用了 GPU 的神经网络的训练速度提升了10 到20 倍。因而，GPU是深度学习工程师的得力助手。从2011年到2016 年，英伟达所占 GPU 市场份额已经从二分之一上升到近四分之三。借助深度学习的崛起，英伟达在芯片领域获得了巨大的成功。

GPU的应用能加速机器学习的训练；与之相比，在计算密集程度较低的推理和任务上，FPGA可以提供更快的计算。因而，FPGA成为了英特尔公司的重点方向。近年来，英特尔收购了多家人工智能创业公司，其中包括计算机视觉创业公司 Movidius 、深度学习芯片创业公司 Nervana和FPGA厂商 Altera，完成了在人工智能芯片市场上的布局。

2016 年 5 月，谷歌发布了一款新的定制化设计的芯片，张量处理单元（Tensor Processing Unit，TPU），这款芯片是专门为基于谷歌已开源的 TensorFlow 机器学习框架而量身定制的。AlphaGo就是基于TPU的计算平台开发出来的。目前，TPU已经应用到谷歌的云计算引擎当中。

与传统的CPU和GPU相比，TPU是专门为机器学习应用而专门设计的芯片，在机器学习应用中运算效率更高。

谷歌提供了不同类型芯片单位功耗下计算性能的比较数据，如下图所示。其中，蓝条表示GPU性能相对CPU的表现、红条表示TPU相对CPU的表现、黄条表示TPU相对GPU的表现、绿条和淡紫色条表示改进版TPU相对CPU和GPU的表现。

其中，TPU’表示改进版的TPU。GM和WM分别表示几何平均与算术加权的均值数据。可以看到，TPU的推出，相对CPU和GPU来说，计算性能又有了极大的提升。

2.4 软件平台的流行

GitHub等开源社区的普及使得人工智能研究者能更方便的交流和共享代码，不需要重复“造轮子”。

同时，谷歌、脸书等大型互联网公司相继开源了自己的深度学习平台。谷歌的深度学习平台TensorFlow目前已经成为业界最流行的深度学习平台，使得用户不需要关注深度学习底层代码的编写，可以基于TensorFlow开发自己的机器学习应用。

三

AI的重要分支：机器学习

机器学习是人工智能的重要分支，主要研究如何让计算机通过经验和数据的学习提高性能。谷歌的AlphaGo、苹果的Siri、深度学习都属于机器学习的研究内容。近年来人工智能的发展主要是机器学习技术的发展。

机器学习可以分为三大类：监督学习、无监督学习和增强学习。

在监督学习中，给定一组数据的同时，我们知道正确的输出结果应该是什么样子。通过学习，建立起输入数据和输出数据之间的关系。

无监督学习，是指数据样本中没有给出输出信息，希望从数据中挖掘信息，常见的例子有聚类，关联规则挖掘，离群点检测等等。

在监督学习和无监督学习之间，还有一类是半监督学习，即部分样本有输出数据Y，部分样本没有输出数据。由于实际问题中很多样本是不含标签的，这类学习模型可以结合监督学习和无监督学习各自的优点，挖掘出更多的信息。

增强学习

监督学习和无监督学习都是基于信息输入的学习方式。实际应用过程中，并不是所有的问题都能够在事先提供充分的信息帮助我们对自身的行为进行判断和优化。这时，我们自然希望能够借助反复的试验，通过周围环境对于这些尝试所反馈的信息来改进策略，并最终找到满意的方案。这种“试验-反馈-优化”的循环便是增强学习最基本的思路。

遵循这样的思路，在增强学习的过程中，智能体(Agent)首先会从环境(Environment)中获得相应的环境状态(State)，随后智能体会依照一个事先确定的策略(Policy)，去选择一个行为(Action)作用于环境。

这个行为会对环境的状态产生改变，同时，环境向智能体对其行为反馈一个奖赏(Reward)。智能体将会根据试验结束后所累积的反馈奖赏来对自身的策略进行优化，以期在下一次尝试中获得更多的奖赏。这一过程也可以表示如下：

增强学习的目的即是通过环境的反馈来优化这种对应关系，并最终确定一个策略，使得从某一个状态下出发，智能体依照这个策略选择的行为能为智能体自身带来最多的奖赏。

四

AlphaGo与深度增强学习

深度增强学习是AlphaGo的核心技术。

围棋AI的决策是一个增强学习的过程。当前的棋局是状态，能否赢棋是奖赏，策略就是根据状态走子的决策方法。

在围棋决策中，我们需要建立起价值函数，用于评估在动作a下能否赢棋；同时，我们也需要建立策略函数，用于确定在不同的状态下应该怎么行棋。

一般来说，解决增强学习问题有策略迭代、价值迭代等方法。策略迭代就是通过迭代计算价值函数来获得最优的策略，价值迭代则是通过迭代计算来获得当前状态下最优的价值函数。

围棋的对局有着极高的广度与深度，如果采取迭代方法研究围棋，我们将会面临一个不可思议的计算量。在AlphaGo中，人们通过两个网络解决了价值函数的计算和策略的计算，它们就是策略网络和价值网络。策略网络和价值网络的核心是将增强学习中通过迭代来优化策略和价值函数的问题改变为深层神经网络的预测问题。这就是深度增强学习。

例如，用一个深层神经网络函数来表示价值函数，向函数输入任意的状态都能输出价值函数的值，那么就可以把价值函数的迭代更新问题变成一个函数拟合问题，利用相近的状态得到相近的价值估计。

AlphaGo所采用的第一个网络是策略网络，这一网络的作用是在一个给定的棋盘状态下，计算下一步双方在棋盘上落子的概率分布。简而言之，策略网络的目的是快速预测双方的下一手的位置，类似于棋手的第一感。通过大量学习各类对局的棋谱，可以训练出一个类似人类棋感的神经网络，这一网络总能够根据不同的状态给出接下来落子的选择。并且在它的帮助下，AlphaGo能够在对局时将目光集中在几个特定的位置上，这也就大大减少了研究每一步落子时的搜索广度。

在增强学习中，我们需要同时对棋局进行评估，获得价值函数。虽然策略网络能够有效的减少围棋问题的搜索广度，但它所提供的落子方案并不能兼顾对局的胜负，因为深层神经网络在学习棋谱时只关心落子的选择，却没有兼顾相应选择下的胜率。为此，AlphaGo设计了第二个模型，就是价值网络。

这一网络通过对大量棋局进行分析，预测出对局双方在不同局势下的胜负概率，进而使AlphaGo能够在不用模拟至终局的情况下判断当前的局势，缩小了其在研究围棋对局过程中的深度。虽然价值网络本身并不能给出最佳的落子方案，但它能够为策略网络提供评估标准，并帮助策略网络在多个选项中筛选出最佳的方案。正是通过这种价值网络与策略网络相结合的方式，AlphaGo摆脱了穷举法所带来的桎梏，并通过大量的训练迅速成长，最终站到了围棋人工智能的最高点。

五

对冲基金的AI大发展

而在拿下“围棋界”后，人工智能（AI）已经越来越接近取代传统交易员/基金经理。

据报道，美国著名对冲基金经理保罗·都铎·琼斯（Paul Tudor Jones，福布斯估计其财富超过470亿美元) 去年裁员15%，开始以量化交易工具模拟公司最佳基金经理的管理。

这个亿万富豪已经“悄悄”投资了CargoMetrics和Numerai这两家基金公司，其中，CargoMetrics位于波士顿，背后大佬是Google掌门人埃里克·施密特（Eric Schmidt），该基金利用全球船运数据和卫星图像，以寻找可交易的模式。而Numerai是由前文艺复兴科技公司的共同创立者霍华德·摩根（Howard Morgan）支持、位于美国西海岸的一家“众包化”基金公司。

近年来，市场对系统性、算法性投资的兴趣爆炸式增长，而传统对冲基金的吸引力和表现却有所下降。

在过去两年中，人工智能领域（如机器学习）从世界各地生成的数字化数据中挖掘可交易信号的潜力引起了人们的关注。

施密特上周在对冲基金会议上表示，未来，人类不会自己做交易，以后的交易模式主要有两种：

第一种：一个人向电脑发问，“这是一个非常有趣的场景，为我评分，如果它超过了一定的分数，我们就买它。”

第二种：所有的工作都由电脑完成，不需要人为向电脑发问。

数据提供商HFR表示，量化对冲基金在2016年的客户流入连续第八年上涨，资产从2009年翻番至9180亿美元。据业内人士介绍，这些基金中只有规模较小、较复杂的部分才会使用人工智能，但这往往是投资者最感兴趣的领域。

不过在投资这个行当往往却是：“没有人比机器好，而人与机器的组合比机器更好”。

— END —

对冲研投知识库，点击直接查看

【基本功】

【品种投研】

煤炭 | 黄金 | 镍 | 原油 | 天胶 | 白银 | 煤焦钢大会 | 棉花调研 | 炼焦利润 | 人民币贬值传导逻辑 | 农产品价格运行规律 -兴业证券 | 原油期货定价机制 | 农产品分析框架-费忠海 | 天胶产业链 |

巅峰对决下的人工智能技术深度解析：AI究竟进化到了何种地步？

正文

请到「今天看啥」查看全文