专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

分析全球334家真正的深度学习创业公司，盘点25家AI芯片创业公司 | IEEE Fellow Chris Rowen演讲

新智元 · 公众号 · AI · 2017-11-19 13:10

正文

请到「今天看啥」查看全文

中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会 11月8日在北京国家会议中心举行，大会以“AI 新万象，中国智能+”为主题，上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论，2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。

全程回顾新智元AI World 2017世界人工智能大会盛况：

新华网图文回顾
http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺
上午： http://www.iqiyi.com/v_19rrdp002w.html

下午： http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm

新智元 · AI WORLD 2017

演讲嘉宾：Chris Rowen

【新智元导读】 当下，随处可见的摄像头改变了视频流和应用程序的数量，也改变了视觉算法。新智元AI WORLD 2017 世界人工智能大会，硅谷知名企业家、IEEE Fellow Chris Rowen 分享了《视觉、创新和深度学习大爆炸》。以摄像头像素大爆炸为切入口，讨论深度学习这一计算过程的革新催生的体系结构创新，以及由此从云端到终端的计算、数据和硬件设备改变。Chris还分析了这一创新机遇中全球创业公司的重要发展趋势。 Chirs一直都在追踪真正的深度学习创业公司（全球大概有300多家），因为从中可以发现领域重要的趋势：哪些是比较重要的深度学习领域？他们都在哪些方面进行创新，以及他们如何看待未来？

Chirs发现：这334家公司大都在做云软件，因为这条路太顺了，开发重要的新应用的成本也很低。有一半左右的公司是在做视觉相关，要么就是云上视觉，要么就是嵌入式设备的视觉。大概15-18%左右的公司是在做芯片。嵌入式系统相关的公司主要都在做视觉。

Chris还特别分析了中国深度学习创业市场，令他惊讶的是，相对于感觉上的红火热络，中国的创业公司实际上并不多，Chris认为原因是中国的深度学习公司只关注少数几个领域，比如嵌入式系统、监控、人机互动界面、无人驾驶，做云工作的相对较少。而就全世界来说，三分之二的深度学习创业公司都在做云软件，在中国只有20%的公司在做；在全世界大概有一半DL创业都是在做视觉，而中国只有17%。“在23个我所追踪的中国创业公司中，没有一个做制造业，没有一个做金融，也没有一个做人力资源或者客户关系管理方面的相关工作。也就是说，在中国的创业公司来说，这方面是一个空白。”

新智元AI World 2017世界人工智能大会开场视频

在回顾Chris的演讲前，我们先来了解一下Chris本人。Chris Rowen是一位著名的硅谷企业家和技术专家。他目前是Cognite Venture的CEO，斯坦福SystemX联盟顾问，Cadence设计系统的顾问。他正在开发认知计算领域新的创业企业。他曾担任Cadence IP集团首席技术官，在那里他带领团队为移动、汽车、基础设施、深度学习和物联网系统的高级应用开发新的处理器和内存。Chris在1997年创建了Tensilica公司并担任CEO，开发可扩展处理器，成为领先的嵌入式架构之一，是超过225家芯片和系统公司的许可证持有者，每年共出货超过40亿个内核。后来，Tensilica被Cadence收购，Chris也随之加入Cadence。创立Tensilica之前，他曾任Synopsys设计再利用集团副总裁兼总经理。Chris还是开发RISC架构的先驱，并参与成立了MIPS计算机系统公司，担任微处理器开发副总裁。他拥有斯坦福大学电气工程硕士和博士学位，哈佛大学物理学学士学位。他拥有40多项美国和国际专利。他在2015年被评为IEEE Fellow，致力于微处理器技术的开发工作。

Chris Rowen： 我很高兴来这里做演讲，和大家聊聊深度学习领域和创业公司的一些重要发展趋势。我将特别谈一谈这些重要的科技和趋势将会如何会影响中国以及世界。

接下来我会讲到视觉、创新和一种我称之为“深度学习大爆炸”的发展状况。首先来看一个非常简单的图表。这个图表将世界的人口数与摄像机上图像传感器的估算数量进行了对比，我们可以看到，图像传感器的数量有一个非常快速的增长，并且在过去的几年里，有一个非常重要的具有象征意义的交叉点。很明显，现在摄像头的数量（下图红线）要比可以欣赏到这些摄像头所拍照片的人数（蓝线）多得多。

如果我们回想一下视觉系统旧有的运行方式，它们主要被用来给人们展示好看的、有用的照片。现在我们有那么多的应用和摄像头，而没有那么多人来看这些像素。

我们应该换个角度来看摄像头像素发生的变化。现在我们拥有的图像传感器的数量，比人的数量要多。如果你观察这些从温度计、麦克风还有摄像头里收集来的数据，可以发现，摄像头的传感器收集的数据量很大，数据率也很高，而99%的这些数据都是一些像素。假设摄像头都是高清摄像头，到2020年，我们很容易拥会有200亿个传感器， 每个传感器每秒钟会有0.5GB的像素产出，也就是每秒共10^19 原始像素的产出 ，这么大量的数据会淹没我们的网络、存储器以及每一个我们使用的计算设备。

摄像头像素大爆炸，改变计算方式和计算设备

刚刚说的是数字在变大，而有些数字则在减小。我几周前在网上买一个了安保的摄像系统，只需要11.99美元，如果我预测准确，在未来的几年里我可以只花5美元来购买它了。那么这个5美元的摄像头，它的成本是怎样的呢？我认真地做了一个小小的分析。

首先，一个5美元的摄像头，在它三年的生命周期中，需要有10美元的电力来提供支持。那么它还有什么样的其他成本呢？我给大家做一些简单假设：假设我要直接把这些原始像素点上传到云上，不用任何的压缩，然后看一下它的成本怎样？第一行的 Raw 4K UHD是一个高分辨率传感器，根据上传所用的电缆网络或者光纤网络的花销，可以知道它的数据转移的成本。这里，摄像头一个月运作的花销我用美国的价格来标示，在上传云端的过程中这些数据可能被储存至少是一天或者是几个月。计算所花费的价格方面，我用标准的做神经网络计算的目标检测设备的花销来标示。所以，一个5美元的摄像头需要10万到100万美元来进行运行，因为它有大量的数据流。

当然，我不会直接把未压缩的视频上传云端，所以我至少会用 H.264压缩一下数据。这样网络成本就下降了，计算的成本和架构有关，所以依然需要几千美元（见上图第 H.264p60一行）。在这个摄像头的三年使用期中，也许是有一些价值几千美元的数据流，但两千万的摄像头毕竟还是少数。所以我会做一些事情将摄像机的帧率降低，比如降到一秒一帧，或者每分钟一帧，从而使存储和网络的成本下降。

实际上，我们可能需要假设像素的洪流并不是只通过压缩来降低，也可以通过上千个过滤器，智能地选择哪些视频序列可以被上传云端，被分析、存储和分享。我们也有一些完全自动化的系统，例如在一些物联网设备里或者汽车中的系统，它不需要把任何的像素上传到云端。即便假设云端是一个非常好的做计算的地方，但是对于最高量的数据流来说，它过于昂贵。接下来我们就谈一谈实现计算的过程中出现的一些问题和创新。

深度学习是计算过程中的重大创新，视觉计算有三大发展趋势：精度更高、模型更小、负载均衡

首先我们来说深度学习。深度学习其实是一个非常简单的通过建立一个数学模型或者数值模型来模仿非常复杂的隐藏系统的方法，我们不知道这个系统的运行方式。

在这种情况下，比如说我看到这个图片，有一个神秘的声音会在我的脑海中响起：“噢，我知道这个是什么！这是我的父亲”，然后我可以至少尝试完成一个识别人的小任务，就是建里一个数学模型来尝试模仿脑海中的过程并获得同样的回答。我会根据数值模型和隐藏系统（在这个例子里就是我的大脑的思考过程）的区别，不断调整数值模型中的系数，直到它们二者十分接近。 深度学习的过程，就是不断调整一个复杂的数值模型的系数，直到它和一个复杂的隐藏系统相符合。

利用深度学习，我们有很多有趣的事情去做。比如我们用很多照片进行深度学习训练，那么我的模型就会变得更加通用，可以在不同情境下理解图片的意思。我们会用很多不同类型的数据来进行深度学习，比如图像、视频序列或声音样本，这样我就可以推断很多不同的信息，包括情感、地点、身份，或者场景描述、演讲稿，这些算法的一般化使得他们可以被成功地广泛应用。

在这方面，视觉的训练是十分困难的，因为图片含有太多的信息了。在著名的 ImageNet 图像分类基准中，需要120万张训练图片、1000个类别来进行识别。你可能觉的1000种分类不算多，而一个四岁的孩子就能认知1000种类别的事物了。但有些情况，比如分类120个不同的犬种，就比较棘手了。我猜你们都认识狗，你们知道这是一只藏獒，这是西施犬，还有一只挪威猎鹿犬，但分类更多呢？神经网络发现的一些重要趋势可以帮助我们解决这些困难的问题。

让我们看一些视觉网络的发展趋势。首先，我们看到一个 向高精准度发展的趋势（Higher Accuracy） 。这种演变是，神经网络一直到2011年的分类精度基准都在75%左右，而在那之后，这个精准度有了巨大地增长，现在最优的算法可以达到95%以上的准确度。

同时我们也关注 计算负载（Bounded Compute Load） 。我们可以看到有一段时间，计算负载变得越来越差，不过近期的网络让每张图像的 GMACs回到了相对合理的水平上。同样的， 模型的大小和参数数量快速地上涨 ，不过也有人在思考如何用较少的参数做好工作，所以我们也能看见一些小型的神经网络，只有几百万个参数。你可以看到神经信息处理系统大会 （NIPS）的参与度 数据，参与度是不断提高的。

神经网络在视觉领域的应用是特别有效的，它几乎把过去的各种视觉算法都被淘汰了。 在自动驾驶汽车方面，有25个有意思的计算任务与视觉有关，其中22个是以深度学习作为主要方法，而剩下部分还在使用3D 结构的经典算法。

摄像头联网给视觉神经网络带来的三大挑战

随着神经网络在应用中的普及，我们也要思考一些严峻的问题，比如 系统的安全和稳定性，还有一些隐私的问题 。当我们有几百亿的网络设备的时候，我们知道肯定会有安全的隐患，而且因为摄影头是可以物理访问的，将安全问题变得更严重。

同时，还会有其他一些信息暴露的方式，例如，你可以改变小小地改动训练的数据库，在系统中加入一些偏见，使得它给出一些指定的答案，或者跳过一些指定的答案，而且在训练中这些偏见又是非常难以检测的。另外，要有一个严重的问题就是欺骗，即便是非常小的对图片的操作，或者是人工干预，会使得图像分类出现错误，比如让某个图像完全的扭曲，并且出现一个完全不同的结果。

卡耐基梅隆大学的研究者举了一个非常好的例子。这张图是一个非常有名的演员瑞茜·威瑟斯彭，他们仅仅给她戴上了一个眼镜，但是在这个眼镜上有一些图案，这个图案就是为了破坏这个图片系统的识别能力。所以我们看起来这张图还是瑞茜·威瑟斯彭，但是对于计算机而言，它就把这张图认成了罗素·克劳。

隐私也是一个非常重要的环节，因为我们现在摄像头越来越多，一个摄像头和另外一个摄像头之间、一种数据的来源也会和另外一种数据来源之间会有更多的相关性，所以我们有理由认为， 随着越来越多的摄像头遍布全球，会有更多的数据流相互融合 。

例如这张购物的照片，通过一些深层次的分析可以得到各种不同的信息，所以通过这张街景可能不但可以判断出你是谁，而且还可以知道你的健康情况怎么样，知道你在说什么，甚至不通过麦克风，因为读唇语也是有效的。它还知道你跟谁在一起，买了什么东西，甚至是你的财产状况。所以，视觉数据是非常丰富的，而且包含了许多敏感信息。

神经网络催生计算架构创新：云端到终端的计算关键特征

在技术上，一个大问题就是这些计算都发生在什么地方？在云上做了什么，在设备端上又做了什么。这里肯定要有一些权衡（trade-offs），比如一些安保摄像头，它内部一定有一些处理过程，有可能是比较复杂深度学习、神经网络处理过程。在地区性的网络中，几个摄像头的数据流有可能是混在一起的。数据可能会被运输到云的边缘，它也有可能被储存在云里。通常情况下数据是存放在云里的，云计算也比较灵活。如果我们思考一下这里的权衡：云可能是一个好选择，但也是最昂贵的地方之一，传输距离最远，存放时间最长。如果在本地进行计算可能非常便宜且快速，但是你只能看到你接触到的最近的数据，但如果在云上计算的话，不仅灵活性更强，应用更新快，你也可以接触到更多的数据，但会相对昂贵。

就有几个关键特征来说， 系统反应度（system responsiveness） 也就是低延迟：进行运算的场所离摄像头越近，反应度越好。数 据分析的范围（scope of data analysis） ：离云越近，可使用的其他数据的复杂性越高。 隐私问题 ：如果做在本地进行运算，只选取一些带有必需信息的数据传到云上，就能更好地保护隐私。 成本，尤其是网络的成本，还有计算的成本 ，都会随着计算场所向云端的靠拢而出现有大幅度上涨。

所以很多系统都会这样分配它的计算：最重要的第一层 AI在云边进行计算，而另外一层更复杂的 AI 则在云内进行计算。这对架构的影响也是非常大的，实际上， 神经网络作为一个新的、不同的计算方式，足以带来许多新的架构发明，而现在就正处于架构革新的过程中 。神经网络让我们有更高的并行性，有更加有组织的形式来适应特定的架构，它们也可以在低精度条件下做出更好的结果，即便只有8 bit，它也可以通过认知测试，特别是在认知测试中不需要很大的带宽，这与训练是相反的。

所以，人们现在也是发展出了很多的架构，达到超过普通的CPU百倍的能效和百倍的通用 CPU 的通量。我在上面图表中列举了一些不同的架构，下面的蓝色圆是英特尔的通用 CPU，可以看到这个芯片的性能和功耗。右边的黄色圆是NVIDIA 数据中心的GPU（在朝右上发展），因为它有很高的性能和非常好的能效，FPGA（红色圆）也是同样的发展轨迹，还有就是谷歌的TPU（紫色圆）。

这几个条带代表的是一些用于推理的嵌入式处理器，绿色的是神经网络DSP，它们是由我之前就职的Tensilica公司开发的，当然还有其他专注于神经网络DSP的制造商，浅蓝色条带是视觉DSP，蓝色条带是视觉DSP和神经网络加速器的结合，都是在同一趋势下开发出来的，我们现在正在提供万亿级的multipliers。很多人在用低精度的模拟方法（analog method），它们可以达到更高的效率，虽然可能没有办法用数字的方法（digital）去测量绝对性能。

神经网络处理器：全球 25家芯片创业公司在做全新的硅片架构设计

用我比较熟悉的 Tensilica 的处理器来举个例子，它有两个非常有意思的特点。首先，网络中的每一个节点，都是一个完整的处理器，它不需要有一个主CPU，完全可以独立运行，而且有自己一个本地存储。另外一点，它不仅仅使用矢量处理器（vector processor），主要使用的是张量处理器（tensor processor），也就是说它可以同时处理不仅仅是一维的数据，还有三维的数据，这使得计算密度非常高，可以达到万亿次乘法运算。

现在很多创业的公司也都开始做芯片，我追踪了一些这样的公司，这些都是已经上市的，但是还有一些没有上市，或者正在准备上市的，比如，比特大陆就刚推出了一个非常重要的平台。 大概有25个创业公司在做完全新的硅片架构的设计。而且现在这些芯片生产商有很多可使用的 IP blocks。

分析全球300多家真正的深度学习创业公司，中国深度学习公司只关注少数几个领域

因为在神经网络方面有许多机遇，比如说视觉、音频和云应用等，所以很多创业公司的出现也就不意外了。如果用AI 的广泛定义的话，那就大概有数千家相关的创业公司遍布全球。甚至每一个在过去几年中创立的科技公司，都愿意把自己叫做一个AI公司，因为AI这个名字听起来太时髦、太热门了。

但是，我们确实需要小心辨别这些 AI 公司，看看它们是不是真正理解了和深度学习相关的先进技术，在我看来 深度学习是AI最具革新性的一点，而且也是最直接影响到计算系统能力的一方面 。

我一直都在追踪这些真正的深度学习创业公司，大概全球有超过300家，我研究这些公司是因为从中可以发现这个领域重要的趋势：哪些是比较重要的深度学习领域？他们都在哪些方面进行创新，以及他们如何看待未来？

首先，这334家公司大都在做嵌入式系统，还是在做云软件？ 实际上，其中三分之二都是在做云软件，因为这条路太顺了，开发重要的新应用的成本也很低。 有一半左右的公司是在做视觉相关，要么就是云上视觉，要么就是嵌入式设备的视觉。大概15-18%左右的公司是在做芯片。嵌入式系统相关的公司主要都在做视觉。而在视觉之外，还有许许多多的应用，我来大概讲一下。

在这张表上有20个门类，比如深度学习平台、安防监测、人机交互界面、声音语言服务、医药服务、自动驾驶、广告营销、无人机和机器人、视觉服务，芯片平台、物流与制造、金融和保险、CRM和HR，等等。那么，哪些创业公司都在做哪个门类的工作呢？ 这些创业公司主要来自四个国家：美国、英国、以色列和中国。 在美国，创业公司主要来自加州，还有马萨诸塞州和纽约州。

我比较惊讶的是，中国的创业公司实际上并不多， 我觉得原因就是中国的深度学习公司只关注少数几个领域，比如嵌入式系统、监控、人机互动界面、无人驾驶，做云工作的相对较少 。而就全世界来说，三分之二的公司都在做云软件，在中国只有20%的公司在做。在全世界大概有一半DL创业都是在做视觉，而中国只有17%。在23个我所追踪的中国创业公司中，没有一个做制造业，没有一个做金融，也没有一个做人力资源或者客户关系管理方面的相关工作。也就是说，在中国的创业公司来说，这方面是一个空白。

在计算机视觉研究和一些创业企业的关系上，我们可以看到有一些公司他们处理得非常平衡，比如在美国、英国和中国 ，而有些地方并不是特别平衡，像以色列的计算机视觉研究就非常少，而创业公司却很多。还有像德国、法国、日本，他们做了很多研究，却没有一定数量的创业公司。

我经常和这些创业公司交流，发现他们基本上使用四大战略： 首先要针对现有数据流做出更好的算法来，然后从中提取出新的数据 ，比如拿到了监控摄像头的视频流，就可以提取出时尚潮流相关的信息。 还有就是做出一些新的商业模式 ，并在一些新地方放置摄像头 ，比如说在农业机器人里装一些摄像头，这样它们把除草剂准确地喷在杂草上，以减少大约95%的除草剂使用量。所以，这些方面的创新有许许多多的机会。

我们将生活在一个到处都有摄像头的世界，包括系统中和经济上的需求都会驱动本地智的发展，将有很多非常棒的神经网络计算将会出现在边缘侧和云上，也会有许多不同的硬件平台，在垂直应用方面也会有很多创业公司出现。特别是在中国，我认为将会看到更多公司去关心那些服务水平较低的市场门类，我也不建议创业公司都去做监控方面的相关工作。当然我们也要考虑在保护隐私性、安全性和稳健性方面所做出的重要权衡。

非常感谢，我很高兴能和大家做关于神经网络的探讨。