专栏名称: AI数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

AI之路第一步：纵论数据驱动的AI基础设施——下一代数据网（附PPT下载）

AI数据派 · 公众号 · · 2018-10-26 07:30

正文

来源：Teada

本文约 4300 字，建议阅读 10+ 分钟。

本文整理介绍了下一代数据网的“数据视角”主张、“云网链一体化”解决方案和赋能方案。

[ 导读 ] 2018年10月18—19日，第五届中国国际大数据大会在京举办。下一代数据网加速器CEO、大数据基础设施研究中心高级顾问曾光受邀出席，曾光 先生在人工智能主题峰会发表了题为 “数据驱动的AI基础设施” 的演讲，从数据视角分析了中国人工智能之路的发展阶段，论述了人工智能应用背后的基础设施的含义、体系架构 ，并介绍了由清华大学数据科学研究院、南京图灵人工智能研究院与企业共同构建的数据驱动的AI基础设施——下一代数据网的“数据视角”主张、“云网链一体化”的解决方案和赋能方案，呼吁业界共建“下一代数据网”基础设施，为中国的AI之路走出坚实的第一步。以下是曾光先生的演讲全文，我们做了不改动原意的编辑。

公众号回复 “181026” ， 获取演讲完整PPT

现在走上讲台是非常有挑战的，我刚才一直就在琢磨有没有一个APP可以用人工智能的方法对抗大家肚子里边的声音。我们的下一代数据网是清华大学数据科学研究院倡导的，由南京图灵人工智能研究院支持并投资的项目。我们这个项目在今年的6月份刚刚开始，接下来是怎么样把人工智能用基础设施的方式支持好、赋能好， 所以我演讲的主题是 “数据驱动的AI基础设施”。

数据视角下，人工智能的发展

尚处于“深山老林”阶段

所谓数据视角。人工智能、物联网、大数据，它们之间到底有什么样的联系？我们是不是要成为一个杂家，把所有的事情都学好呢？作为工程师出身的人来说，实际上可以这么看，所谓的人工智能是把数据和计算机的能力综合在一起而产生的。算法，包括现在的机器学习，它实际上是一种算法的变形。所有的 计算机能力都是通过算法来实施的 ，如果没有数据作为“饲料”喂到计算机这样的小怪物里边，它的智能是出不来的。

所以我倒不担心再过十年就会失业，我想无论是人工智能、大数据，还是物联网必须要根植于社会，根植于所有的知识分享，也根植我们今天在座所有人的技能还有你的意愿。所以有句话叫有多少人工就有多少智能。我是非常同意这个观点的。

今天人工智能走到哪一步了？我的看法，从数据的角度还在深山老林里。 为什么这么说？看看我们人工智能的从业人员每天都在做什么？前两天有一个10w+的帖子是讲人工智能的数据预处理，在河南还有西北有很多非常小的公司，他们每天用送菜籽儿油，送洗衣粉的方法收集一些用户的数据。为什么这样做？和美国相比为什么我们的人要从根儿上做起？相当于在一个生态里边我们既没有路也没有管道，我们要从头做起，就好像一个现代人落到了原始丛林里边一样，想找个吃的都是非常难的。所以我们的观点是 没有数据的基础设施谈何人工智能？

何为支撑人工智能应用的基础设施？

所以这里就引出我们第一个概念，就是所谓的下一代数据网是什么？比较准确地表述它是 数据驱动的AI基础设施 ，它有几个层面的含义：

第一，它是IT的设施、是资产，是看得见摸得着的。 是不是看得见摸得着的计算机就能产生智能？显然不是，所以， 第二，它要有运营维护体系 ，必须有人看着它，让它不断电不断水，而且还能正常的运转起来，设施才能发挥服务的作用。 第三呢，必须有创新体系 ，我们今天有非常强大的能力，但是能力用来做什么？就是刚才几位嘉宾讲的，我们有创新的应用，对交通、对医疗、对金融都有了与过去十年、二十年截然不同的需求，所以这些需求是怎么样和人工智能结合起来？这就需要我们有创新的思路。

所以，一个基础设 施是有三个层次的，具像说来就像左边我们希望像自来水管一样的管道系统 ，只要你拧开水龙头哗哗哗的就出来了，如果我们有像自来水管一样的机制，你只要是轻轻的拧开”水龙头”，大数据就能哗哗哗的流出来。在这样的水管旁边，无论你架什么样的人工智能引擎，无论你上什么样的人工智能应用，对于我们从业人员还有对于产品设计来讲都是非常有利的，这样也会特别快的加速未来人工智能进程，这就是下一代数据网的概念和愿景。

要想实现下一代数据网的愿景，有很多的事情是需要去做的。我们一方面是要从整个的领域里面能够把它范畴化，另外一方面，因为通信的七层协议，人工智能还是离不开IT的，IT有从一层到七层（协议），技术上讲每一层都有每一层的工程师，但是即使是在大型企业里边做应用的工程师、做合作infrastructure（基础设施）的工程师，他们之间也是很难达成一致的。一般来讲都需要老板把底层工程师和应用工程师凑在一起，那么如何能够让在IT（协议）不同层面的工程师和技术人员，他们有一个共通语言？ 所以这就是我们分出的“软件定义数据”，还有“数据驱动网络”，这样不同层次的工作。

刚才大致讲了所谓大数据“自来水管”的概念。从体系架构上讲，数据驱动的AI基础设施—— 下一代数据网解决什么问题？

相信最近从业人员应该会接触到一些在通信网络上经常有爆发性的网络拥塞。为什么是这样？在清华大学有一些同仁正在做医疗的机器学习，所以举一个简单的例子。如果我们一个人的CT片子用通常的医疗设备扫描出来，它需要5G的片子10张。也就是说，过去可能到医院去只要扫出来片子存到本地的服务器上，这个医生能够在本地的服务器上看到这个片子就可以。但是今天要把这个片子传到可能在另外一个地方，甚至是传到几个地方去，然后用机器去做图片，那就给通信网带来了非常大的挑战。

所以，我们的浅层问题是通信方面的问题，刚才华为、中兴几位专家给出了很多好的技术方案的建议，这个技术方案的建议，解决的无非是两个问题。一个叫做 大象流 ，因为机器学习或者因为计算机的超强能力已经把很多的数据变成大象一样的动物，在我们通信网上不断地移动。显而言之，如果在通信网上的一些中小型的数据包—— “蚂蚁雄兵” ，比方说通常的邮箱或者甚至像物联网当中发过来的几K、几十K的小包和这样的大象拥堵在一起，显然我们的通信网是不堪重负的。

——从目前无论是运营商还是电信设备提供商，它给出来的解决方案更多的是如何扩容，如何智能地根据流量来扩容，但是 下一代数据网强调的一点就是在通信里面应该引入一个数据的视角。 因为大象流和蚂蚁雄兵在数据的价值上是完全不一样的，可能那个大象流少掉了一部分的数据流量，但是并不会减少更多的价值。所以引入数据视角以后，我们的数据模型问题就迎刃而解了。

这里面我就不详细展开了，我们必须在深层次去建立通信和信息产业新的基础设施观点，也就是说建立数据驱动的架构和运营体系。只有从认知上把我们原来的通信视角变成数据视角，可能我们今天日益产生的底层通信方面这些矛盾才能彻底的解决。

AI基础设施——下一代数据网的构成：

云、网、链一体化

下一张数据网是清华数据科学研究院和图灵人工智能研究院，把多年的研究成果倾注进来形成多项产学研结合的成果。 下一代数据网也是生逢其时： 一个是国家战略非常强调国产的技术，一个从技术趋势上讲有很多的行业的痛点，而且有“大人物”新兴的需求，还有外部的因素，包括知识产权的纠纷、贸易纠纷也加剧了目前对于核心技术的呼唤。

如果我们能够有以一个基础设施来支持人工智能爆发性的增长，这样的基础设施应该是什么样的？ 我们在这里给出来初步的描述： 云网链一体化 ，也就是说，要云、要有网、要有链。云网一体可能是大家比较熟知的概念。现在无论是混合云还是云的高速通道，像这样的一些混合解决方案已经很常见了。但是，目前为人工智能赋能的基础设施，根本性的问题还是没有解决。

现在在云的方面，从数据的视角，知识分享是没有解决的，我们并没有一个数据目录或者说数据开放的目录能够引导到底有哪些知识，有哪些数据可以去使用。刚才闫总提到了，美国现在在人工智能或者在大数据方面有一个飞速发展，但实际上在政府的引导方面做了非常多的工作。

比方说，作为国家或者作为哪一级的州政府都有开放数据的网站，在网站上有很明晰的目录找到到底哪些数据可用。在中国目前有几个大数据的交易所，数据院本身也是交易所的参与成员，但是花了很多的时间，现在效果并不是非常明显。 这种规则意识现在还没有得到全社会的认可。

网络

在中国电信运营商是三大运营商，虽然我们可以提供很稳定的电信运营服务，但是电信运营上面的应用方面。比方说，数据从业务划分上不是电信运营商所考虑的核心任务，目前虽然有增值业务的部门可以去承接客户的一些需求，但是从根本上现在的网络还不是很灵活。像如果有大象流过来，我们需要有临时性，哪怕是一天的带宽运营提升，现在三大运营商都无法支持的。

在人工智能方面，我相信未来这样的数据带宽可调节，还有数据服务的动态支持一定是未来的趋势。

AI之路第一步：纵论数据驱动的AI基础设施——下一代数据网（附PPT下载）

正文

请到「今天看啥」查看全文