作者: 于汉超,汪峰等 来源: 科技导报
人工智能(
artificial intelligence
,
AI
)
从
1956
年概念提出经过
60
多年的发展,其理论、技术和应用都取得了重要突破。近
10
年来,随着大数据、云计算、互联网、物联网等信息技术的发展,
AI
技术成功跨越科学与应用之间的“技术鸿沟”,突破了从“不能用、不好用”到“可以用”的技术拐点,进入了爆发式增长的红利期,人工智能已成为推动新一轮科技和产业革命的驱动力,将是未来
10
年最具变革性的技术。
人工智能正在深刻影响世界经济、政治和社会发展,国际社会和中国政府都高度重视人工智能发展。
2017
年
7
月
20
日,国务院发布了《新一代人工智能发展规划》,将新一代人工智能放在国家战略层面部署,指出中国人工智能整体发展水平与发达国家相比仍存在差距,缺少重大原创成果,在基础理论、核心算法以及关键设备、高端芯片、重大产品与系统、基础材料、元器件、软件与接口等方面差距较大;科研机构和企业尚未形成具有国际影响力的生态圈和产业链,缺乏系统的超前研发布局;人工智能尖端人才远远不能满足需求;适应人工智能发展的基础设施、政策法规、标准体系亟待完善等问题。
在国内,人工智能技术目前已被广泛应用于语音识别、计算机视觉、机器人、语言处理等领域,代表性产品包括科大讯飞的“晓译翻译机”、中国科学技术大学的智能机器人“佳佳”、京东集团的
JIMI
智能客服等。作为技术革命量级的人工智能技术,还存在基础理论欠缺、数据需求大、能耗高、泛化性能差等诸多瓶颈,人工智能作为未来
30~50
年甚至更长时间发展的技术,一切才刚刚开始,目前只是万里长征第一步。本文基于目前国内外人工智能的发展态势,着眼于提升中国人工智能未来发展的竞争力,探讨发展中的若干紧要问题并提出相关建议。
“人工智能”于
1956
年首次被提出,并开始在西方国家得到重视和发展。与世界发达国家相比,中国的人工智能研究起步较晚,而且发展道路曲折坎坷,历经了质疑、批评甚至打压的十分艰难的发展历程。直到
20
世纪
70
年代末,中国的人工智能才逐渐走上发展之路,比发达国家少积累了近
20
年时间。
目前,中国在全球人工智能发展过程中做出的原创性基础性贡献还不多。从学科创立初期的赫步定律、图灵测试,到近几年的深度学习算法、
AlphaGo
等重要的基础理论和重大成果,中国所做贡献不多。西方国家普遍重视基础研究和理论创新,
Google
的
DeepMind
团队拥有
400
余名跨学科科学家,每年投入几亿美元,仅
2016
年就在《
Nature
》上发表
2
篇重大成果;
Geoffrey Hinton
专注神经网络
40
年,使深度学习成为人工智能复兴的关键。而中国更多地聚焦在应用层面,缺乏基础理论积累、原始方法创新和重大原创性成果。
牛津大学的报告《
Deciphering China's AI dream
》(《解密中国
AI
梦》)比较了中国和美国的人工智能在硬件、数据和算法等方面的能力,报告指出,中国综合
AI
潜力指数只有美国的
1/2
,且中国除了在数据方面有明显优势外,在硬件和算法等基础研究领域还有很大差距。科研方面,虽然中国发表的
AI
论文数量巨大,但从
Google Scholar
的引用数据看,北美和欧洲的科研人员依旧在人工智能学术界更有影响力。因此,中国人工智能基础研究的总体水平跟世界的领先水平还有较大差距。
人工智能基础研究是人工智能科技可持续发展的基石,是人工智能及其应用蓬勃发展与全面升级的原动力。因此,建议强化对人工智能基础研究的支持,加强人工智能在硬件和算法等基础层面的原始创新。强化跨学科交叉创新研究,吸引更多的跨学科科学家进入人工智能领域开展探索研究。重视和加强人工智能前瞻性基础研究,扩大人工智能领域青年基金或科研项目的资助比例,对优秀青年科学家进行持续支持。经过长期努力和积累,使中国人工智能基础研究水平走向国际先进行列,解决原始创新能力不足的问题。
人工智能技术生态包括数据平台、开源算法、计算芯片、基础软件、计算服务器、垂直应用等。
Google
、
IBM
、
Microsoft
、
Facebook
等全球科技巨头正积极推动自主研发人工智能技术的生态建设,抢占人工智能相关产业制高点,并投入重金收购企业、招募人才和研发核心技术,力图掌握人工智能时代的主动权,引发人工智能产业竞争白热化,并逐步向生态化发展。
3
个明显的趋势分别体现在:(
1
)汇聚高端人才,组建
AI
攻关团队。例如,
Google
公司的
DeepMind
。(
2
)基础平台开源化。例如,
Google
公司开源了人工智能基础平台
TensorFlow
和无人驾驶模拟器。(
3
)关键技术硬件化。例如,
AI
芯片定义了
AI
产业链和生态圈的基础计算架构,具有战略地位,
IBM
公司发布了类脑计算芯片
TrueNorth
、
Google
公司发布了
TPU
等。
而中国人工智能相关的单元技术多、综合成果少,缺少最优化资源整合,碎片化的技术还没有形成人工智能生态体系。以中国人工智能的基础研究为例,其研究工作主要分布在大学和科研机构,具有很多单点优势,但研究工作与队伍呈现条块化、碎片化、重复化的现象,缺乏系统性的融合,难以形成巨无霸的平台、团队和成果。相比国外形成了完整技术创新和产业创新链条的产学研集大成的机构,这种基础研究领域的分散、技术和产业领域的分割现状,导致中国人工智能的综合优势未能得到体现和发挥。
建议前瞻性地从人工智能科学的角度出发,更加全面地认识人工智能未来的发展,立足国家发展全局,系统地梳理人工智能科技的内涵、外延和总体发展脉络,找准突破口和主攻方向,打破条块分割,集中力量办大事,把握发展的主动权。同时,突破体制和机制障碍,整合中国人工智能领域顶尖人才和研究资源,协同建立跨学科人才培养环境,推动原创技术驱动的
AI
技术生态形成,并同应用驱动的
AI
产业生态对接,协同推进人工智能的理论研究、技术突破和产品研发应用,促进中国在国际人工智能领域的科技创新发展,跑出中国人工智能可持续发展的加速度。
与个人
PC
时代、互联网时代一样,在新一轮人工智能的发展过程中,中央处理器(
CPU
)、图形处理器(
GPU
)、现场可编程门阵列(
FPGA
)等高端芯片以及核心器件、电子设计自动化(
EDA
)软件等基础软件的发展将发挥重要驱动作用,未来也很有可能因某些基础软硬件的重大突破而颠覆现有的智能计算体系和框架。因此,
AI
基础软硬件对于人工智能发展的重要性不言而喻。
从总体上看,目前
AI
基础软硬件仍由欧美国家大型企业主导,中国人工智能在基础软硬件方面的缺失会导致在技术上和应用上“空心化”的风险。虽然中国近几年涌现出了“寒武纪”等人工智能处理芯片,但用于
AI
芯片设计的基础半导体器件仍主要由
NVIDIA
、
IBM
和
Intel
等国外企业生产和垄断。目前,中国微电子
/
光电子研发的原创性和基础能力较弱,位于产业链源头的核心微电子
/
光电子芯片和高端光电子器件严重缺失,尤其是处理器、存储器和集成化的光电子器件几乎依赖进口,已成为制约中国人工智能发展的“卡脖子”问题。
因此应充分重视
AI
基础软硬件对人工智能发展的作用,建议国家设立专项对其进行重点支持,推动人工智能基础软硬件的协同发展。通过提高人工智能系统的感知和数据挖掘能力、研制针对人工智能软件系统专用的硬件和体系架构等,构建中国智能时代的以基础软件、高端芯片和核心器件等关键软硬件为基础的新一代智能信息基础设施,尽早摆脱
AI
基础软硬件依赖进口的现状,全面支撑各领域的智能需求。
人工智能技术平台堪比计算机时代的操作系统,是生态系统中最为重要的一环,就像“
Windows+Intel
”、“
Android+ARM
”一样,人工智能领域的生态系统一旦形成,将会给后来者形成难以逾越的生态壁垒。
截至
2018
年
2
月,
TensorFlow
全球下载量已超过
1000
万次,遍及
180
个国家和地区,其中,中国的下载量超过了百万次、约占全球总下载量的
10%
,且已被京东、小米等国内多家公司使用,围绕其构建的生态环境也将逐步形成;
Facebook
、
Microsoft
和
IBM
等公司也都在竞相打造基于深度学习的人工智能技术平台
Torchnet
、
DMTK
和
SystemML
等。而中国尚未形成具有国际影响力的人工智能技术平台,在国际人工智能产业界缺少话语权。
建议国家加快布局、构建具有国际竞争力的人工智能技术平台,抢占人工智能时代的主导权。鼓励科研机构和企业开放人工智能技术平台,将分散的数据汇聚起来,加速相关科研与行业的发展。
未来人工智能领域的竞争主要是
AI
人才之争,主要体现在以下
2
个方面。
1
)目前中国每年
AI
人才缺口超过
100
万,与此同时,现在高校
AI
人才的培养主要依托于计算机科学与技术、控制科学与工程、电子科学与技术等一级学科开展,
AI
人才培养跨度较大,难以形成目标明确、体系完善的人才培养体系。而美国的
AI
人才培养体系历史悠久,拥有数学、统计、机器学习、数据挖掘和机器人等多个细分领域,就
AI
基础研究的人才结构而言,美国仍领先于中国。
2
)中国人工智能人才的数量仅次于美国,但与美国、英国、德国在顶尖人才的数量上还有较大差距,中国领先的人工智能企业主要还是依赖从海外回来的华人顶尖人才。中国在
AI
核心算法方面远远落后于英美同行的一个主要原因就是缺乏顶级的
AI
人才,既缺少像
Hinton
一样坚持
40
年专注于神经网络研究、使深度学习成为人工智能复兴关键的
AI
学术领军人物,也缺乏像
Google DeepMind
这样的顶级团队,该团队拥有
400
余名跨学科科学家。中国在
AI
人才培养的数量和质量上远远不能满足人工智能发展战略的需求,这将对中国未来
AI
产业的发展产生重要影响。
建议大力加强
AI
人才的培养与引进。在
AI
人才培养方面:在人工智能领域推动高校的教育改革,设置人工智能相关的一级学科,建设人工智能学院,构建完整的
AI
人才培养体系,实现
AI
人才培养的专业化、规范化和规模化。在
AI
人才引进方面:统筹利用好国家的各类人才计划,加强人工智能领域优秀人才特别是优秀青年人才的引进。
国际学术机构正积极布局人工智能源头的基础理论创新,学术界将重新争夺
AI
革命话语权。
AI
前沿基础理论是人工智能实现技术突破、行业革新、产业化推进的基石。在此发展的临界点,要想取得
AI
革命的话语权,必须在人工智能重大基础理论和革命性技术方面取得重大突破。位列全球大学人工智能影响力排名第一的麻省理工学院(
MIT
),于
2018
年
2
月
1
日启动了针对人类和机器智能的
MIT Intelligence Quest
计划,重点探索对人类智能的新认识和让机器有效学习的新方法等。
当前人工智能正处于从“不能用”到“可以用”的技术拐点,但是距离“很好用”还存在诸多瓶颈,如数据、能耗、泛化、可解释性、可靠性、安全性等,人工智能基础科学和技术应用还有广阔的发展空间。人工智能未来的主要发展趋势包括:(
1
)从专用人工智能到通用人工智能;(
2
)人机混合智能,这将是未来的主流智能形态。中国应在通用人工智能和人机混合智能的前沿性基础研究方向上加快布局,构造下一代智能产业的源头。
通用人工智能
从可应用性看,人工智能大体可分为专用人工智能(即面向特定领域的人工智能)和通用人工智能,人工智能的近期发展主要集中在专用人工智能领域。专用人工智能由于任务单一、应用背景需求明确、领域知识积累深厚、建模计算简单可行,形成了人工智能领域的单点突破,在局部智能水平的单项测试中超越了人类智能。例如,
AlphaGo
在围棋比赛中战胜人类冠军李世乭和柯洁,微软语音识别系统
5.1%
的错误率比肩专业速记员等。
真正意义上完备的人工智能系统应该是一个通用的智能系统,而通用人工智能研究与应用刚刚起步,依然任重道远。通用人工智能是面向未来、具有战略意义的人工智能发展方向,引起了世界大国政府、企业界、学术界的高度关注。以人类综合性智能水平为目标,发展具有感觉、行动、记忆、学习、推理、规划、注意、激励、情感、社会交往、沟通、创造等多种能力的通用人工智能理论、方法、技术和系统,在感知、思考、社交、行动、规划、注意、情感等多个维度上逼近人类智能水平。
人机混合智能
在人与机器之间实现信息的高效共享,从而最大限度结合生物脑和计算脑的优势,最终形成超越“人的智能”和“人工智能”的高级混合智能,将是塑造未来社会形态的颠覆性技术之一,也将对未来的医疗、教育等领域带来根本性变革。
人机混合智能将从突破新一代具有神经环路特异性的高速闭环脑机接口为切入点,进行人机信息共享和处理资源的优化配置,使脑与计算机之间可进行大带宽直接通信,极大提升人脑的感知、认知、学习、记忆等核心能力,实现人脑对于外骨骼机器人等外部设备的自由支配,从而实现高级混合智能,将是未来的主流智能形态。
基于国际人工智能发展现状,针对如何进一步提升中国人工智能未来发展的竞争力,提出了
6
个方面的建议:(
1
)增强原始创新能力;(
2
)加强系统性的顶层谋划和设计;(
3
)摆脱
AI
基础软硬件依赖进口的现状;(
4
)重点建设国产
AI
技术平台;(
5
)加强
AI
人才培养和引进;(
6
)加快超前布局
AI
前沿研究。希望通过加强上述建议的相关工作,能够加速中国人工智能的创新发展,进而为工业制造、金融、能源等行业的革新添砖助力。
参考文献(略)
本文作者:
于汉超 ,汪峰 ,蒋树强
作者简介:
于汉超,中国科学院前沿科学与教育局,博士,研究方向为信息科学及科研管理。
注
:
本文发表于《科技导报》2018 年第17 期,敬请关注
。
驾驭数据智能,领跑数据智能时代(附报告全文+解读)
数据观
最新消息,近日,TalkingData联合中关村大数据产业联盟、中国国际大数据大会组委会共同发布《2018年数据智能生态报告》。
《2018年数据智能生态报告》梳理了当下中国数据智能市场的发展历程和未来走向,给出了数据智能的定义和时代的特性。本报告细数了数据智能时代的本质,分析了数据智能市场行业全景及痛点,并为不同类型的企业提供应对策略,倡议积极推动行业合作,共建数据智能平台。
对此, TalkingData CEO助理、腾云大学校长、中关村大数据产业联盟数字生态行研中心首席研究专家杨慧博士对报告进行了详细解读,针对数据智能的发展趋势给出相应的应对策略,帮助企业更好驾驭数据智能,领跑数据智能时代。
现今无论是互联网企业还是传统行业的企业,都非常重视对于数据的收集、处理、算法的精炼以及最终对数据价值的应用。但是如何在这样一个以数据智能时代中,采取有效的措施和行动真正实现数据价值的提炼,利用数据智能去改变企业决策、改善人类生活?这是我们需要共同来探讨的。
著名图灵奖得主Jim Gray提出的四大范式,可以很好地帮助我们梳理科学的演进。其中前三大范式,在人类文明发展的历史长河中帮助我们更好的记录、归纳和模拟现实世界;而进入数据智能时代,在机器学习、分布式计算等技术发展的基础上,数据逐渐呈现出高维度、高阶态、异构性的形势,能够对海量数据进行分析、处理和挖掘,并且通过建模、工程等方式来解决实际的预测和决策问题,最终实现决策的行动,则为“数据智能”。
数据智能也和数据科学、数据工程、数据分析等概念息息相关,但数据智能作为一个独立的概念,和其它几个名词最大的区别在于:
数据智能的目的是“预测”和“决策”,而非“分析”或者“展示”。
由于数据智能指向决策,所以用来判断数据智能的效率和价值就在于其决策的结果产生的可衡量的商业价值。
数据智能产出的过程中需要一个强有力的能够承载和调动一系列智能数据、核心模型以及面向不同情境的数据处理能力的数据智能平台。
最终呈现出有封装的、有交互界面的可以一定程度上替代人工决策的数据智能产品。
从商业和经济的本质上来说,数据智能平台指数级地加速了数据和人的智慧,其价值体现在两个方面:第一方面体现在聚合效应,即从数据源到数据加工、数据分析、数据应用最终形成数据产品过程中,实际上遵循价值“微笑曲线”;数据智能通过聚合各个环节的剩余价值,从而提升整条价值链的价值。
第二方面体现在加速效应。在数据的获取和应用的这些环节,数据的价值链已经从单一的线性结构逐渐演变成为模块与模块之间互相交叉融合的复杂架构。数据的每一个环节都都能够得到数据智能平台的加速,产生更多价值。综上,通过打通数据价值链,可以集中剩余价值、降低数据成本、提高资源配置,从而获得数据智能所带来的价值红利。
数据智能平台/数据中台的使命有两件事:帮助企业更好的“看现在”——对现有数据的治理;帮助企业更好的“看未来”——对数据价值的挖掘对未来的预测;“看现在”的目的最终是为了更好的“看未来”,这是因为在数据智能时代,数据的量级和异构的程度都极其复杂,千里之行始于足下,因此这是企业实现数据智能的第一步,也是决定数据智能价值实现最为关键的基础。具体进一步来说,这两个能力拆开后又包括了以下这些能力要素:为了更好“看现在”连接、共享、安全;以及为了更好“看未来”的管理、科学与工程。
1、连接,提高数据维度及饱和度。
连接不强调对数据的拥有,而强调能够触及和返回的数据的广度、丰富程度。将不同来源的数据汇聚和连接起来形成更丰富的数据维度,是数据智能平台的使命。
2、共享,通过OPAL实现数据价值流转。
共享能力是评估一个数据智能平台是否合格的首要标准。共享不代表要完全的透明,而是通过像
OPAL(Open Algorithms,开放算法库)
这样的技术框架去构建一个合理的、区分权限的、能够保护数据同时让知识的价值流转的机制。
3、安全,推动数据安全合规标准的建立。
安全合规是重中之重。一个数据智能平台是中立的、合法合规的,它中间涉及到的各项任务都应该是安全且合规的,具有安全管理、用户管理、平台接入与使用的审计、调优和保障高可用性和容灾的能力。
4、管理,实现企业的数据资产化、资源化。
管理是数据智能平台实现价值的起步,让数据的排列有序、结构趋同,可以被进一步的分域、保存、备份、重新组合,形成更多的协同价值。
5、科学,提升决策的科学性与准确性。
数据科学是探索数据价值的流程,也是数据价值被挖掘的核心过程。数据的价值不是一次成型的,数据价值的挖掘依赖与不断假设、分析、验证、校准的反复迭代过程,最终才能凝聚沉淀成模型和解决的方案。
6、工程,实现数据价值的快速转化。
数据能够直接变成决策,中间需要工程来构建环境,实现汇聚、仿真和自动化。工程这个因素将数据和算法、工具和能力有机的结合起来,最终形成一个封装的、内部自成体系的数据智能产品。
有了以上六个能力因素,数据智能平台才得以成为一个独特的平台,也成为企业想要快速构成数据智能产品、实现客户价值的必需平台。
随着互联网技术、人工智能等科技的飞速进步,数据量级的增长、计算能力的提升、存储的便捷化等推动数据智能市场蓬勃发展。数据市场从以传统IT企业为代表的软件时代,到以互联网企业为代表的数据时代,再到以数据智能企业的生态时代,数据的支撑和驱动因素越发成熟。随着终端的智能化、数据异构化、商业问题复杂性的提高,数据智能市场也向着万亿级别的市场规模进发。
对企业客户来说,企业数字化转型的不同阶段面临着不同痛点问题,但是总结来说会有如下几类:
第一、业务管理者或高管不知道怎么构建数据业务 / 数据能力;
第二、缺人,缺人,还是缺人;不知道从哪里获取这类人才,或者人才掌握的是上一阶段发展所需的知识;
第三、客户没有透彻地理解数据能力和企业业务能力之间的关系:无法与客户商业决策所对应的商业指标绑定;
第四、相应数据虽形成闭环但是数据闭环本身太小或者太过封闭,能够解决的问题过少、过小。
客户侧出现的问题,体现了整个数据行业目前面对的深层次问题。那么为什么要有数据智能平台呢?有数据智能平台的在位企业才能帮助客户解决上述问题。对于数据行业的从业者来说,数据获取已经不是问题,但是单一数据源的维度价值有限、数据需要共享才有价值;其次,数字业务推陈出新速度非常快,各数据源及应用厂商各自造轮子,很难形成规模优势,缺少行业的分工和合作;法律法规包括网络安全法、个人信息保护规范等还在不断完善,数据安全成为桎梏所有数据价值共享的主要鸿沟;数据与商业场景割裂,缺乏行业洞察,很难进行有效转化;最后,专业数据人才缺乏,大多数都集中在数据行业的从业企业中,留给传统企业进行数字化转型和提升的人才十分有限。目前高校等培养机构供给还处在缓慢加速的过程中,行业人才空缺加大。因而需要这样一个数据智能平台来通过能力的共创、复用、沉淀等,促进企业前端业务或者数据智能产品的效率、协同和创新。
为了解决以上的痛点问题,无论是对于客户企业还是对于数据行业的在位企业来说,都需要出现一家企业、一个团队来主导数据智能平台/数据中台的建设,这个新的数据智能平台/数据中台的存在,才能打破传统价值分工、重构数据行业的生态全景,全面提高行业的价值产生的能力。
大数据行业诞生以来,大多数企业在不同的商业模式上进行试水。如果把整个行业分为标准化/产品化、客制化/服务化的纵向坐标以及数据和软件工具的横向坐标,究竟是将数据作为护城河,还是产出成型高效的软件应用工具,如何在数据加工程度和软件工具、客制化和标准化中找到一个平衡,也是当下数据企业思考与探索的问题。我们可以以此为维度,分为以下六种商业模式:数据源、数据交易、市场智能、SaaS、数据产品和解决方案。处于不同商业模式的企业在整个数据智能行业中的身份与角色也不尽相同,他们有着不同的速赢关键因素和策略(见报告详解);但是
在智能数据时代,这些不同类型的企业都在不约而同的自主发展数据智能平台,或者与行业中的数据智能平台形成深度的合作
。
更多的合作呼唤更灵活的合作方式。不同于普通的平台类企业,数据智能平台需要同时包含数据、工具、算法和服务多个要素,不同要素的组合需要用不同的商业模式进行变现,甚至会改变价值分布、突破传统的、单向的客户关系甚至是竞争关系。因此数据智能平台需要更加开放和灵活的商业模式支持不同行业、不同业务和不同定位的合作伙伴进行合作,形成协同作用。突破传统的技术合作伙伴或者是联合建模合作伙伴、数据智能产品合作伙伴的合作方式,真正跨越简单的客户的概念的新型客户类型,与数据智能平台/数据中台类企业构建按照效果分成的成效合作伙伴关系。