专栏名称: 战略前沿技术

【战略前沿技术】紧紧围绕“技术创新”和“管理创新”双轮驱动，聚集前沿科技以及孕育产生前沿科技的政策环境、体制机制和管理模式等，密切追踪科技前沿热点，敏锐捕捉战略前沿技术，传播前沿科技资讯。欢迎点击订阅！

人工智能给产业发展将带来什么惊喜? | 人工智能前沿技术与产业发展趋势

战略前沿技术 · 公众号 · 科技媒体 · 2017-07-21 08:41

正文

请到「今天看啥」查看全文

人工智能给产业发展将带来什么惊喜?

本文由微言创新(ID:InnoTalk）授权转载

作者：王倩郑树泉上海产业技术研究院

【编辑按】当人们还沉浸于电影《机械姬》中人工智能带来的余悸时，阿尔法狗已将这种震撼从电影带入现实，人工智能开始冲击每个人的认知。面对新产业培育和传统产业转型升级的要求，人工智能又能给其带什么意想不到的惊喜呢？

1.人工智能2.0

继移动互联网、大数据、互联网+之后，新一波的人工智能（相对于上世纪五六十年代）的浪潮再次涌来。人工智能 (Artificial Intelligence, AI) 是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。人工智能的研究领域包括智能机器人、虚拟现实技术与应用、系统仿真技术与应用、工业过程建模与智能控制、人工智能理论、计算机感知、计算机神经网络、模式识别与智能系统、知识发现与机器学习、自然语言处理等。自诞生以来，人工智能理论和技术日益成熟，应用领域在不断扩大，其实际应用涵盖了机器视觉、指纹/掌纹识别、人脸识别、视网膜识别、虹膜识别、语言识别、图像识别、专家系统、自动规划、智能搜索、博弈、自动程序设计、遗传编程、智能控制、机器人学等领域，始终是计算机科学的前沿学科。

近年来，随着互联网的普及、传感器的普遍使用、大数据的出现、电子商务的发展、信息社区的兴起，以及数据和知识与社会、物理空间和网络空间的互连和融合、新技术的出现，AI发展的信息环境发生了深刻的变化，AI迈向了AI2.0新的阶段。AI2.0的主要特征包括：深度学习数据驱动的直觉感知能力、基于互联网的群体智能和技术型人机混合增强智能，以及跨媒体计算。

AI2.0时代这些新技术变化与发展极大地拓展了人工智能的领域范围，为人工智能更深、更广的应用提供了坚实的技术基础，而智慧城市、智能医疗、智能交通、智能物流、智能机器人、自驾汽车、智能手机、智能玩具、智能交通、智能制造和智能经济的不断发展，为AI技术和应用的新发展方向提供广泛的市场需求和驱动力。

2.人工智能在工业领域的应用

国际著名咨询公司埃森哲日前发布了 2017 年最新的人工智能报告，聚焦 AI 带来的产业创新的行业利润。在一系列报告中，埃森哲专门针对中国作了一篇题为《人工智能如何驱动中国的经济增长》的报告，显示当 AI 被视为生产的新因素，而不仅仅是生产率增强剂时，AI 将促进中国生产力大幅增长。到 2035 年，AI 有可能在中国的经济增长率上增加 1.6 个百分点。其中人工智能对制造业带来的影响最为显著。

目前，人工智能在工业领域的应用主要包括如下几个方面：

（1）基于互联网群体智能模式的定制创新设计。此类应用使用如协同创新和设计、量身定制应用等产品和技术，建立基于互联网群体智能客户定制和创新设计平台，实现基于云群体智能的产品选择、体验、用户参与设计和关键行业的实时跟踪，另外AI 还能帮助公司基于设计目标和种种约束创建新的产品。Autodesk 以其计算机辅助设计系统 Dreamcatcher 开创了这一新的方法。使用 AI 算法，Dreamcatcher 利用云的力量创建数千个虚拟原型不断迭代，并根据其指定的标准比较其功能、成本和材料。Dreamcatcher 以一种形状适合的材料开始，逐渐凿掉不需要的部分。去掉这些部分后，整体性能的改变会被算法“记住”，这样算法就能够理解每一块材料对性能的贡献。在医疗行业，Dreamcatcher 已被用于设计一种加速恢复和组织再生长的面部植入物。在汽车行业，AI 驱动的产品被用于开发新的跑车。

（2）合作研发群体智慧空间应用。此类应用使用协同、并行和集成系统方法来构建一个支持大数据处理、知识协作和创新聚合的群体智能空间，针对重点行业、企业和个人用户开发各类协同研发空间，鼓励这些用户通过互联网大众采购就研发挑战进行合作，拓展研发任务。

（3）智能工厂。大数据和大量基于知识的智能技术可能有助于实现智能调度和规划、过程参数优化、智能物流管理和控制、产品质量分析和改进、预防性维护、生产成本分析和估算、能耗监控和智能配置、生产流程和程序的监控，以及整个生产圈的综合车间绩效分析和评估。工厂运行控制中心和智能调度系统的建立，可能有助于实现云制造模式，以加快生产过程、实现企业和生产的智能管理。感知、机器学习和跨媒体的智能过程可以实现自主决策，以支持结合虚拟和现实的生产优化。

（4）人机材料合作车间。此应用使用人机材料合作智能机器人、智能优化技术处理代码，智能设备保障、智能监控、智能物流、云质量保证、云管理和云计划等技术和产品，构建智能设备、生产线、加工控制和车间决策系统，在智能车间操作中心的帮助下，实现人、机、材料的整合。

（5）自主智能制造单位范式。此范式使用先进的技术和产品，如基于先进的自主无人系统的智能制造分销和规划、在线检测、零件识别和定位、事故报警等，在基于先进的自主无人驾驶系统的控制中心的帮助下，建立智能设备、加工设备、在线监控系统、智能工作场所、安全报警系统和自动装卸设备。

（6）智能协同保证和供销服务应用。需要建立知识驱动的合作保证和供应/营销/服务平台，以收集物流、供应链、仓库和市场数据，然后利用神经网络对数据进行分析，优化供应链物流路径规划，通过预先交付、前端仓库和用户需求与产品特性的匹配分析，改进精简物流和精准营销。

（7）预测性智能运维。此类应用通过使用人工智能方法，如神经网络、隐马尔科夫等，对企业积累或外部相关的各类数据的变化趋势进行预测，以便及早采取应对措施，拓展公司业务或解决问题、排除危险与风险，达到为企业增加营收或节省大量人力、物力、财力的目的。如Google通过将DeepMind人工智能系统应用于数据中心，使用神经网络来预测耗电量变化，据其操纵服务器和制冷系统等相关设备，提升设备分配效率、降低耗电量，电力使用效率提升了15%，预计未来几年内将节约数亿美元电费。

作者简介：

王倩，上海产业技术研究院工程大数据服务创新中心架构师，主要从事物联网及工业大数据研究及应用，如公共出行路径分析、企业创新资源分析、商圈用户画像、食品安全舆情等众多大数据应用案例规划设计。并多次参与科委、经信委重大课题，曾获上海“十三五”规划前期研究公开征集课题成果奖三等奖，参与编写书籍《工业大数据：架构与应用》。

郑树泉，男，教授级高级工程师，上海产业技术研究院工程大数据服务创新中心主任，《工业大数据：架构与应用》作者，承担了“Ada开发环境”等多项国家科研项目，获国家科技进步奖，在英特尔惠普美标等多家著名跨国公司从事IT研究工作。近年参加多项大数据研发课题，具有较强的大数据分析能力，并发表论文多篇，并作为负责人申请6项专利。

邓志东：人工智能前沿技术与产业发展趋势

来源：新智元，作者：邓志东

【导读】感谢清华大学计算机系教授邓志东向新智元投稿，他在《人工智能前沿技术与产业发展趋势》报告中指出，深度学习是人工智能的最新突破，一定要和大数据结合起来，做数据驱动下的感知智能产品研发，认知智能是前沿研究，支撑人工智能应用的硬件引擎也很重要。邓志东认为，弱人工智能的产业发展正处于爆发期，大家可以开始做工程化的应用产品开发了，私有大数据和深度学习芯片是制胜的关键和法宝。

【作者介绍】邓志东，清华大学计算机系教授，博士生导师。兼任中国自动化学会理事，中国自动化学会智能自动化专业委员会主任。

我报告的题目是《人工智能前沿技术与产业发展趋势》，主要涉及四个方面的内容：一个是深度学习——人工智能的最新突破；第二个是深度学习方法一定要和大数据结合起来，即大数据驱动下的感知智能产品研发；第三个是举一反三的认知智能前沿研究；最后一个是支撑人工智能应用的硬件引擎。

深度学习：人工智能的最新突破

我们首先来看一下深度学习这一人工智能的最新突破。刚好60年之前，人工智能有一个定义，即把人工智能视为研究与设计智能体，这个智能体要能感知环境，要能采取行动，并使自己成功的机会最大化。所以它包括三个方面的内容：一是感知，二是决策——决策也就是认知，三是行动。首先很明确，现在人工智能是通过学习，而不是编程来实现的。

人的大脑里面肯定没程序，我们一定是通过学习，来获得视、听觉的能力，还有记忆、推理、规划、决策、知识学习与思考等，这些认知能力也都是通过学习而非编程得到的。总之就是所谓的习而识之。

人工智能可以分类为感知智能、认知智能和创造性智能三种，这是我们的观点。感知智能，简单说就是对人的直觉（intuition）能力的模拟，这主要涉及人的视觉、听觉、触觉等，这属于感知部分。还有一部分是认知智能，即对人类深思熟虑行为的模拟，比如人的推理、规划、决策、知识学习。另外就是创造性智能，包括人的灵感和顿悟，这一块显然还没有开始这方面的研究。

人工智能是一个影响面极广的共性科学问题，同时也是一个战略性前沿技术。它的突破从2006年开始，可以说人工神经网络由此进入了第三次复兴。

1970年、2000年前后人工神经网络置身寒冬，在人工智能领域中是被边缘化的。2012年的时候因为和大数据结合，又考虑了GPU硬件加速这个计算引擎，所以真正取得了全球的瞩目。2013年开始，国际科技巨头高强度深度介入，这是人工神经网络前两次研究热潮中从没发生过的。

现在大家几乎天天都能看到各种人工智能的新闻，许多IT巨头都决心用人工智能重塑企业的产品线，实现企业产品结构的转型升级。未来2到5年，人工智能还将给我们这个世界带来更多深刻的改变和惊喜。

人工神经网络本身可看成是对生物神经系统的模拟或者近似。方法有两种，一个是对外部输入输出的模拟，一个是对内部机制的模拟。它的发展里程可归结为“三起两落”。最早于1943年就出现了MP模型，目前的大部分神经网络都还在使用这种人工神经元模型。1957年Rosenblatt提出了Perceptron（感知机），这是第一种人工神经网络，因此Rosenblatt也被称之为“人工神经网络之父”。所以说，人工神经网络至今只有59年历史，而人工智能是60年历程。

这后面还有一系列里程碑式的结果，比如20世纪80年代出现的掀起第二次人工神经网络研究热潮的Hopfield网络和BP网络。30年前，在20世纪80年代中后期、90年代初期，人工神经网络也如同现在一样，那个时候非常热，也有无限美好的憧憬。

当时各行各业都去做神经网络，不过与现在不太一样，都仅限于学术圈和研究机构，企业参与很少。后来发现这些神经网络并非想象那样，能力不行，做不了多少事情，因此神经网络研究一下又跌入严冬。

现在这一轮复兴，跨国企业，比如目前做得比较好的Google（DeepMind、Brain）、Facebook、微软、IBM Watson、Amazon、百度等，全都进来了。还有一个趋势比较明显，就是企业逐渐成为人工智能研究的第一梯队，产业与学术研究的距离不断缩短，国内外都这样，非常明显。我举一个例子，现在许多公认的顶级国际会议论文都出自于Google、Facebook、微软这样的跨国企业，而并非高校和政府科研机构。

除了企业以外，还有两大国际学术研究中心，一个是以Geoff Hinton教授为领军人物的加拿大多伦多大学，另一个是以Yann LeCun教授为领军人物的纽约大学。事实上，人工智能领域有一个以Hinton为首的人工神经网络学派，主要包括Hinton、LeCun和Bengio，是全球深度学习研究的三大灵魂人物。

具有完全监督学习能力的深度卷积神经网络发展至今，Yann LeCun居功甚伟。1987年LeCun取得博士学位，曾是Hinton的博士后，在AT&T贝尔实验室工作了14年，2013年12月9日受聘于Facebook，创建了著名的Facebook人工智能研究院（FAIR）。深度神经网络主要就是指深度卷积神经网络（CNN），这是目前在某些垂直细分领域惟一能够达到人类水平的神经网络计算模型，其他如深度信念网络（DBN）和深度自动编码器，都达不到这样的高水平。

卷积神经网络的最初版本实际是由一个日本人福岛邦彦提出来的，当时叫认知机与神经认知机，20世纪70年代就有这个模型，目前卷积神经网络中的卷积、池化、感受野、ReLU等概念与激发函数在这些模型中就有了。1989年LeCun将误差反向传播引入神经认知机，使后者获得了监督学习能力。1995年和Bengio将其命名为卷积神经网络，2006年叫深度神经网络。他还创建了手写体数字识别数据集MNIST，2006年做到了0.39%的错误识别率，性能超过传统计算机视觉方法很多。

深度CNN具有强大的分层特征表达能力，而且特征是自动学习得到的，不是人工设计的，包括底层、中层、高层特征，而且通过感受野的提高可同时获得局部和全局特征。就某个特定的应用场景，结合大数据和人工智能硬件引擎，既然它的分类识别精度能够达到人类的水平，自然就可以进行工程产品的开发了。

大数据下驱动下感知智能产品研发

让我们来看看大数据驱动下感知智能产品的研发。

深度CNN标志性的突破出现在2012年，Hinton带领他的两位博士生，在2012年的ILSVRC 比赛中获得了冠军。ILSVRC 比赛相当于什么呢？可以理解为计算机视觉物体识别中的“世界杯足球赛”，每年都举行。其训练与测试数据集ImageNet有1500万幅图片，涉及22000种物体的分类（2011年秋版本），如猫、狗、大象等等。他们当时使用了2块GPU加速，训练了一周，取得了15.3%的Top-5错误率。而传统视觉方法的最好结果是26.2%，2016年这个结果已经下降到3.08%，比人类的5.1%好了不少。创新之处就是将深度卷积神经网络与大数据（1500万幅图片）和GPU Cuda并行编程结合起来了。可以说由此揭开了深度学习在计算机视觉、语音识别和自然语言理解中大规模研究的序幕。

2013年开始产业界真正高强度深度介入。很多标志性的事件，比如说，2013年3月Hinton受聘于Google（包括Google收购其3人初创企业DNNresearch）。2013年12月9日LeCun获邀受聘于Facebook，创建并执掌Facebook的人工智能研究院。2014年1月Google以5亿多美元收购Demis Hassabis的人工智能创业公司DeepMind，2年后该公司推出了引起全社会高度关注的AlphaGo。2014年5月吴恩达受聘于百度，担任百度首席科学家等。

大数据驱动下感知智能产业的框架结构：一是应用层，也就是人工智能+细分领域，比如说无人驾驶、机器视觉或者语音识别；二是技术层，涉及模型/算法，开源代码；三是基础层，就是大数据，计算引擎/深度学习芯片这两点支撑。深度学习的市场图谱，包括四个方面：技术巨头，开源代码、大学研究，还有半导体公司——做芯片的，主要是做计算引擎。

什么是大数据？我就说一个观点。我们说大数据通常体量巨大，一般不能用常规的统计学与平稳随机过程方法来处理，因为已经不满足i.i.d独立同分布假设了。而且通常只关注整体的关联关系，而不是因果关系。从这个角度来说，现在很多所谓的大数据分析都是炒概念，其实就是常规的统计分析或者说数据挖掘，不是真正含义上的大数据分析。

真正意义上的大数据分析是什么呢？四个V特别重要，数据体量巨大，从TB级别上升到PB级别；数据类型众多；价值密度低，但商业价值高，也就是数据中大量都是垃圾，垃圾里面找金矿，很少很少，去找这个东西，这个是不能用传统方法处理的，因为大部分是非结构化和半结构化数据。事实上，结构化数据用传统数据挖掘手段就可以处理，现在很多人其实干的是这件事情。

对深度学习来说有很多开源代码框架和工具集，比如谷歌的TensorFlow，加州伯克利的Caffe，Bengio的Theano，Facebook的Torch，微软的CNTK，都开源了，目的就是为了形成一个人工智能产业生态。

ImageNet有1500多万张照片，还有Caltech-101，Caltech-256，CIFAR-10，CIFAR-100，MNIST，US-PS，SVHN，还有人脸识别库LFW等等，这些都是公开的，而且公开的数据集也逐渐增多，但它们是属于研究性质的。

真正有价值的私有大数据，其重要性如同原油一样属于战略资源，被跨国企业拥有和贪婪追求，这个重要性特别大，国内外的差距在不断加大。

我们知道，深度卷积神经网络采集与喂食的大数据越多，越能获得更好的直觉模拟。现在需要更大的数据，这个模型真正的进展，数据越多越好，这个是以前完全不能想象的事情。举个例子，Google的无人驾驶汽车它的总行驶里程已超过241万km，还有特斯拉六个月就采集了超过7500万km的大数据，每天都在大量采集数据。

对算法公司来讲，无论是采用以前的传统计算机视觉还是现在的深度学习方法，企业最大的优势之一，就是它拥有的大数据优势，例如做ADAS产品的以色列标杆企业Mobileye。既然要做大数据，就要对它进行清洗和标签。为此一定要选择一个特定的应用场景，或者说一定要做一个非常细的划分，垂直领域里面还要有细分领域，这样才有可能得到各种工况、各种情形下的完整大数据，才可以进行标签等等。

在移动互联网时代，大数据的采集可以采用“众集”的方法，标签可以采取“众包”的方法，比如说现在Google有54辆车，已经开始考虑到大数据中潮湿情况怎么办，多雨情况怎么办，还有高温、多尘等等，商业化进程不断推进。

目前使用的完全监督学习的深度卷积神经网络有一个缺点，要求配合使用大数据。换句话说，要认识飞机，必须将全世界所有飞机的照片都给他看，包括不同气候条件下，不同时间段，不同地方与背景、姿态等等，都要给它看；做无人驾驶则必须要考虑到各种天气、各种道路、各种时间段的大数据等等。这是现在这个方法的缺点。人可不是这么干的。人要认识一个东西很简单，要他看两、三架飞机他就把所有的飞机都认得了。这就是小样本学习或者说是“举一反三”。

在大数据和计算引擎的驱动下，基于深度学习方法的视觉物体识别能力，在许多Benchmark评测中，正在达到或超过人类的水平，语音识别再过2-5年也能达到人的水平，文本理解也比过去飞速进步了许多，许多确实可以进行工程产品的开发了。

我们举几个例子，2012年以后深度学习成为视觉物体识别的主流方法，2014年以来，又成为人脸识别的主流方法；同时大数据成为性能提升的关键。在ILSVRC 比赛中，从2013年开始就再也没有传统机器视觉方法了，全部是深度学习方法；就这个问题，人的水平是5.1%，微软去年初的4.94%第一次超过人类的水平，去年底该比赛的冠军也是微软，错误率降低为3.57%，目前全世界最好的记录是Google的3.08%，都是企业取得的成绩，这种趋势非常明显，因为这些科技巨头才拥有高效的研发团队和计算资源。

人脸识别也是这么一个故事。针对LFM人脸识别数据集，深度CNN超过了人类的识别能力，香港中文大学的汤晓鸥团队第一次超过了人类97.53%的正确率。百度现在做的最好，99.77%，第二名是腾讯的优图，99.65%，第三是谷歌的99.63%，已经超过人不少了。

至于基于深度学习的视觉物体检测与定位，目前也可以做到像素水平的分割。例如，这是长颈鹿、斑马，进行像素水平的物体分割，再分类识别；分类做的很好了，比人做的还好。

还有一个标志性结果就是把深度卷积神经网络与再励学习结合起来，应用于神经动态规划问题。AlphaGo学术上就叫神经动态规划问题，这个问题很多年以前就有研究。现在唯一的区别就是有了大数据，有了深度卷积神经网络，所以叫深度再励学习。其实在AlphaGo之前，在去年2月份，Google的DeepMind就有了深度再励学习的结果，发表在《自然》杂志上，只不过没有引起那么大的社会关注。利用深度再励学习发展的深度Q-网络，用于玩Atari像素游戏。49种游戏里面，不是靠编程，而是靠学习的方法去建立深度Q-网络；这49种游戏，包括太空入侵者、功夫大师等等，学49种游戏，一个职业选手在那玩，它就在边上学，看屏幕上的像素和评分，输出是一个虚拟的游戏操纵杆；看像素怎么运动，打多少分？学完以后49种游戏里面，29种超过职业选手水平；这条线是人类水平，假设是100分“智商”，计算机的评分最高达到2500多，比人还玩得好很多，它完全通过学习的方法，这是与IBM深蓝不同的。AlphaGo这个也是发表在《自然》上，也是封面论文。这个事情我就不说了，因为全社会都在热烈讨论。把人类战胜了，而且以后看起来人类也很难再战胜它，因为它可以学习，每天都在学，很可怕。

总之，深度卷积神经网络在量级上开始与生物神经系统，比如说皮层上的功能柱接近了。已经有几十万个神经元，训练样本几亿、几十亿，未来可能还能达到上百亿的大数据，这个需要很强的计算硬件支撑。神经网络的突触连接权最多已达到10亿，微软的ResNet网络，深度为152层，甚至可以做到1000层；2万多种物体都可以识别出来，狗、猫都能认出来，叫出名字来，以后可以有更多种类的物体可以被识别，实现更宽垂直领域的通用人工智能。

现在看来，神经网络的发展历经“三起两落”，1970年、2000年前后是寒冬，什么事都做不了，在人工智能领域中被边缘化。现在一枝独秀，应该说主要是时代进步了，因为互联网时代我们才有可能采集大数据，然后采用“众包”的方法做标签。另外就是由于游戏的超速发展出现了强有力的GPU，采用GPU分布式集群系统后，才能为深度学习提供超强的计算硬件引擎。

深度卷积神经网络为什么那么好呢？因为它首先是一种仿生模型。但是必须指出，深度卷积神经网络，现在的方法是完全监督学习的，这个跟人脑是不相同的。人的大脑视觉皮层有两个通路，一个是腹侧通路管分类的，一个背侧通路是管定位的，应该说它们的学习是半监督的，LGN、V1等可塑性几乎没有。

另外，美国MIT麦戈文脑科学研究所用电极阵列完成的猕猴高级视皮层实验表明，生物系统的V4、IT皮层的特征映射图，与深度卷积神经网络非常接近，令人叹为观止。总之，作为一种感知智能模型，深度卷积神经网络迄今最好地模拟了生物视觉通路，在大数据和深度学习芯片的强力支撑下，具有强大的自动分层特征学习能力，在上述列举的细分领域超过了人类的识别能力。大数据下的感知智能的发展为环境理解与自然人机交流、人机协作和人机共融的进步，带来了历史性的机遇与挑战。

“大数据+深度CNN”，这是实实在在的进步，确实可以鼓吹大家着手进行以完全监督深度CNN为核心的人工智能产品开发了。它具有的达到人类水平的分类识别能力，前面已经说了很多例子了，比如谷歌DeepMind的AlphaGo与DQN，谷歌ImageNet，IBM Watson，微软同声传译，百度IDL集成模型（人脸识别）和Deep Speech 2（语音识别）等等，都见证了深度CNN的强大能力，极有可能催生一场弱人工智能革命，重塑很多产业。

AI成为目前全球最热的投资风口，像无人驾驶、自动驾驶、消费类机器人、VR/AR、认知商业、聊天机器人、智能个人助理等等。总而言之，人工智能技术与产业开始扮演着基础性、关键性和前沿性的核心角色，但我们叫“弱人工智能+”，可以加很多东西进去。“弱”是因为必须考虑特定的应用场景，人工智能离全面达到人类的水平还差得远。

认知智能前沿研究

第三个讲一下认知智能前沿研究。这可能意义更大，但目前不适合进行工程应用。我们前面说过必须要用大数据把所有飞机给深度监督学习模型看，它才会认识飞机。我们人是小样本学习或者叫“举一反三”，看到两三辆汽车就知道这是什么东西了。

“大数据+深度CNN”的感知智能的方法，我们叫“举三反一”，或者叫数据驱动的方法。但是感知智能的进步，我觉得这个是实现智能模拟的一个基石。我们人为什么会有智能呢？我们一张开眼，眼前的一切物体都分类了，没有这种“模式”识别能力就谈不上进一步的认知智能。

以前的人工智能研究就卡在这里，这个叫语义鸿沟，一直跨不过去。感知问题没突破，数据到语义之间没有突破，只是在符号层次研究逻辑、推理等“专家系统”。从今以后，我们可以在这个基础之上，在新的起点上再做语义水平的认知智能研究了，所以现在相关的研究非常之多，也是非常激动人心的。

不过需要提醒的是，现在还是前沿研究阶段，未到做产品研发阶段。例如高考人工智能机器人、智能金融、智能医疗、智能新闻写作等等。还有IBM的沃森医生等认知商业。还有想法向量，更多种类的物体识别，比如说这是狗，各种各样的狗我都能认识，哪怕有遮挡，姿态发生变化，不同背景等。然后再把各种“概念”或想法向量联系起来，也是通过学习的方法进行时空递归，进行长短期记忆和与记忆的交互式学习等，不是通过编程。再加上注意力机制、记忆整合、通道整合等，还包括知识蒸馏、知识迁移。现在比较火的还有长短期记忆网络（LSTM），这个网络是端到端的序列学习，它里面也有非常好的模拟，例如具有学习能力的神经元门控机制的模拟。

学习方法有三种 ：监督学习、再励学习和无监督学习。再励学习（reinforcement learning）也称强化学习或称增强学习，“再励”这个术语最初来自于心理学。你做出决策后跟环境交互，最后的结局你失败了或成功了，失败就要受惩罚，成功就要受奖励。人和动物的局部行为学习方式，就是这样的。这方面的研究很早就有了。

现在看来，深度卷积神经网和再励学习，这两个是成功的，它们的结合更成功。深度监督学习，大数据一定要有标签，选定细分领域这是有可能的，如果领域选大之后很难做到。AlphaGo有深度监督学习，也有深度再励学习，就是自己跟自己对弈学习，自己跟环境交互得到惩罚或者奖励。这样通过与环境反复的交互，重演“长记性”。

最重要的是深度无监督学习，这个现在还没有成功，这个也是大家最感兴趣的，更像人类“举一反三”的学习方式。如果这个突破以后，我们也许就不需要那么多的大数据了。大数据成本太高，而且很多情况下得不到。我们很多技巧性或过程性的东西靠经验或与记忆进行交互式学习，这种经验学习就是深度无监督学习研究的内容。

深度无监督学习是人工智能的“黑科技”。一个人看几辆火车，你从语义上告诉他这个东西名字叫火车，他就知道了，他就马上联系起来，全世界的火车他都认识了。实际上，你不会告诉他火车是什么什么物理特性，是什么什么外部描述，你告诉他火车这个“名称”就行了，所以它首先要进行无监督学习，然后才是跟语义结合起来，从而轻松地获得技巧和常识。

不幸的是，这些研究结果都没有像深度卷积神经网络一样，具有一定的脑科学基础。

深度无监督学习、深度递归神经网络，包括长短期记忆网络（LSTM），在脑科学上都没有理论与实验依据，所以很难说短时间内会出现强人工智能。我想一定是这样的趋势，先做弱人工智能，做图象识别、语音识别或者文本理解，再逐步把垂直领域扩大，变成一个通用人工智能，再扩大到全方位，此时什么能力都比人强了，它可以看懂、听懂，同时还可以替你做决策，替你做情感分析与交流，完全代替人，这种强人工智能，现在看来相当长一段时间之内完全不太可能实现。

另外，关于人工智能是否能让机器拥有意识？其实人脑是有奖赏机制或有这样的功能模块的。你做一件事情感到很愉悦、很幸福、很成功，这就是一个评价机制，这部分我就不展开了。总之，大脑里肯定是没有编程、没有符号、没有灵魂的，神经信息的载体是神经元的发放序列，同时它是通过学习而不是编程获得的感知与认知能力。

支撑人工智能应用的硬件引擎

最后再介绍一下人工智能芯片。前面已反复指出，大数据和人工智能芯片是两个基础点，可以说支撑了人工智能技术与产业的迅猛发展。前面的报告介绍了Hadoop、Spark和Petuum等高性能分布式CPU/GPU集群系统的研究。

作为支撑人工智能应用的硬件引擎，我想强调如下三个方面的应用：一是基于超级GPU或者TPU集群的离线训练，这是必不可少的。比如说训练1000个小时、2000个小时，用了这个超算系统后10分钟可能就解决问题了，这是一定要有的，但这块主要依赖于GPU和TPU，功耗太高、成本太贵。例如2000块GPU大致需要1个亿的投入。二是基于云平台的在线应用，这可以用FPGA来做，既可以降低成本，也可以大幅减少功耗。三是直接进行终端应用。

在超级GPU或者TPU集群服务器方面，英伟达（Nvdia）的深度学习芯片Tesla P100，具有150亿个晶体管，运算速度达到21.2万亿次，研发预算超过20亿美元。利用P100构建的超级计算机DGX-1速度达到170万亿次。因为卷积神经网络本质上是张量（Tensor）处理，Google数据中心研发的张量处理器（TPU），是它的秘密武器。它对CPU计算能力要求不高，是专门为深度学习定制的ASIC。无论是GPU还是TPU，我们中国企业的机会不多，技术门槛太高。实际上，GPU或TPU的成本太贵，功耗太高。我们的机会就在FPGA上面，也就是进行基于FPGA的深度学习芯片（DPU）的研发。相对于GPU。不但灵活度更高，成本很低，而且其能耗比可提升至少1000倍。对于基于云平台的在线应用或者移动端应用，拿FPGA来做，它的成本、功耗、体积都有很大的优势，这或许是我们惟一能够做的事情。

还有一类功耗更低，且更有前瞻性的是类脑芯片。包括两种类型：一是利用传统CMOS工艺进行生物突触模拟，就是用几个晶体管去模拟突触连接权；二是直接使用新型忆阻器件去模拟生物突触。IBM的TrueNorth和高通的Zeroth是前一类神经形态芯片的典型代表。

IBM的TrueNorth，2014年8月发表在《科学》杂志上。它有什么特点呢？这个芯片里面有100万个发放神经元，模拟了2.56亿突触连接。人脑的神经元就是发放的，可以理解为很多个脉冲。以前觉得发放神经元没有什么用，现在发现由它组成的神经网络，功耗很低，TrueNorth类脑芯片才只有63个毫瓦！我们知道人脑的全部功耗只有区区20瓦，但皮层神经元的个数却有140亿。IBM最近还有一个实验，它使用48块TrueNorth芯片构建了一个小型数字化鼠脑，相当于有4800万个发放神经元，这个数字化的鼠脑可以进行深度学习，可以识别图片和语音，也可理解一些自然语言，还可通过在线增量学习以适应新环境。

除此之外，还有一个更新的、比IBM和高通类脑芯片功耗更低的基于忆阻器的类脑芯片。忆阻器也叫记忆电阻，是硬件模拟生物突触的理想方式。简单说，忆阻器随流经的电荷的变化其阻值就会发生变化，而且在断流时还具有阻值记忆功能。1971年提出忆阻器设想，2008年的时候惠普用纳米薄膜把它制备成功了。最新的结果是2015年加州大学等研制了一款基于Crossbars的忆阻类脑芯片，发表在2015年5月的《自然》杂志上。它的特点是集成度更高，读写速度更快，尤其是功耗会更低更低。当然前面和后面这两类人工智能芯片，技术门槛特别高，我们能做的事情可能不多。

最后是三句话的结语。第一，弱人工智能的产业发展正处于爆发期，大家可以开始做工程化的应用产品开发了，深度卷积神经网络确实是非常大的进步，尤其是得到大数据和超强计算能力的支撑。第二，即使是深度卷积神经网络的一点点进步，也会给人类社会进步带来巨大的变革。第三，私有大数据和深度学习芯片是制胜的关键和法宝。

【作者介绍】邓志东，1991年获哈工大博士学位。2000年起担任清华大学计算机系教授，博士生导师。兼任中国自动化学会理事，中国自动化学会智能自动化专业委员会主任。曾任国家863计划智能机器人主题专家组组长助理（1998-2001）。目前的研究方向：人工智能、深度神经网络、计算神经科学，先进机器人、无人驾驶汽车等。曾从事的研究领域：虚拟现实（1998－2001）、无线传感器网络（2001－2009）、计算生物学（2002－2010）。

一网打尽系列文章，请回复以下关键词查看：

预见未来 ：预见2016 | 预见2020 | 预见2025 | 预见2030 | 预见2035 | 预见2045 | 预见2050 |

前沿科技 ：颠覆性技术 | 生物 | 仿生 | 脑科学 | 精准医学 | 基因 | 基因编辑 | 虚拟现实 | 增强现实 | 纳米 | 人工智能 | 机器人 | 3D打印 | 4D打印 | 太赫兹 | 云计算 | 物联网 | 互联网+ | 大数据 | 石墨烯 | 能源 | 电池 | 量子 | 超材料 | 超级计算机 | 卫星 | 北斗 | 智能制造 | 不依赖GPS导航 | 通信 | MIT技术评论 | 航空发动机 | 可穿戴 | 氮化镓 | 隐身 | 半导体 | 脑机接口

先进武器 ：中国武器 | 无人机 | 轰炸机 | 预警机 | 运输机 | 战斗机 | 六代机 | 网络武器 | 激光武器 | 电磁炮 | 高超声速武器 | 反无人机 | 防空反导 | 潜航器 |

领先国家 ：俄罗斯 | 英国 | 日本 | 以色列 | 印度

前沿人物 ：钱学森 | 马斯克 | 凯文凯利 | 任正非 | 马云 | 奥巴马 | 特朗普

专家专 栏：黄志澄 | 许得君 | 施一公 | 王喜文 | 贺飞 | 李萍 | 刘锋 | 王煜全 | 易本胜 | 李德毅 | 游光荣 | 刘亚威 | 赵文银 | 廖孟豪 | 谭铁牛 | 于川信 | 邬贺铨 |

全文收录 ： 2016文章全收录 | 2015文章全收录 | 2014文章全收录

其他主题系列陆续整理中，敬请期待……

“远望智库”聚焦前沿科技领域，着眼科技未来发展，围绕军民融合、科技创新、管理创新、科技安全、知识产权等主题，开展情报挖掘、发展战略研究、规划论证、评估评价、项目筛选，以及成果转化等工作，为管理决策、产业规划、企业发展、机构投资提供情报、咨询、培训等服务，为推动国家创新驱动发展和军民融合深度发展提供智力支撑。