文 | 拓扑社 记者 成琨
随着数据价值越来越受到企业的重视,数据分析成为了十分重要的一环,而
OLAP(Online Analytical Processing)作为一种数据处理技术,被用于支持复杂的分析操作,可以根据分析人员的要求快速、灵活地进行大数据的复杂查询处理,并以一种直观而易懂的形式将查询结果提供给决策人员,以便进行后续的管理工作。
我们熟悉的Oracle、SAP等为企业提供的是基于CPU的OLAP数据库,而MIT计算机科学和人工智能实验室(CSAIL)的前任研究员Todd Mostak将他将传统数据库管理系统中的运算核心——CPU替换为GPU,研发出了一种全新的分析型数据库MapD。
直观来说,
MapD可以在数百毫秒的时间内处理数以亿计的数据点,相比传统的数据库管理系统快了100倍。这意味着,企业可以近乎实时对大批量数据进行处理分析。
可以看到,
GPU数据库已经成为了硅谷近半年来的技术投资风口,MapD在今年3月完成了2500万美元B轮融资,累计融资3700万美元。此外,另一家美国GPU数据库公司Kinetica在6月29日宣布完成5000万美元A轮融资,累计共融资6300万美元。这个风口意味着什么?GPU数据库的价值有多大呢?
拓扑社获知,在国内也出现了一家名为
Zerone的创业公司,专注于研发新一代基于GPU硬件加速的、面向人工智能的OLAP数据库系统。其创始人星爵(应采访者要求使用花名)是大数据、人工智能和分布式计算领域的专家,创业之前,他长期任职于数据库领域巨头Oracle美国总部,负责其数据库系统产品的核心研发工作,他作为奠基人之一研发的Oracle 12c版多租户数据库模块和容器数据库模块已经为公司创造了超过10亿美金的营收。
拓扑社记者与星爵进行了一次访谈,聊了聊他对国内
GPU数据库创业市场的看法,以及Zerone在该领域的一系列创新。
抓住数据库领域新的创业浪潮
拓扑社记者:
您选择GPU数据库这个创业方向,是看到了什么机会呢?
星爵:
在数据库领域从业多年,尤其在
Oracle工作了很长一段时间,发现数据库领域很久没有一个大的革新了,包括后面的Hadoop或者是NoSQL,做了十多年以后,其实对Oracle、SAP没有形成本质上的威胁。我认为,在人类科技的发展过程中,有一个大的规律可循。
吴军博士在《浪潮之巅》里提到,
“近一百多年来,总有一些公司很幸运地、有意识或无意识地站在技术革命的浪尖之上。在这十几年到几十年间,他们代表着科技的浪潮,直到下一波浪潮的来临。对于一个弄潮的年轻人来讲,最幸运的莫过于赶上一波大潮。”
举例来说,在电信网络领域,
AT&T、Alcatel是基于程控交换网络的代表,而Cisco、华为是基于IP交换网络的代表,这是两种不同的硬件结构体系,两代完全不同的技术。程控交换网络垄端了七、八十年几乎没有敌手,但当Cisco出现后,只花了十年就打败了AT&T。再比如人工智能领域,
上一代企业是基于规则推导的智能,而
Google的DeepMind是基于深度学习,这同样也是一次新的浪潮。
在处理器领域,英伟达基于
GPU架构的多核处理器正在革新Intel基于CPU架构的处理器。
后面两个例子其实是相互关联的,
对于计算密集型的深度学习,传统的
CPU的运算能力达不到要求,但在GPU时代,可以认为计算资源是海量的。上一代基于CPU的企业是通过规则模拟,人为产生更好的算法,把计算量减少,而Google基于GPU,可以假设算力是无限的,更能轻松解决计算密集型的工作。所以我认为在数据库领域同样面临着新的机会。
拓扑社记者:
在您看来,数据库领域的新的浪潮是什么?
星爵:
在传统的OLAP数据库领域,要处理计算密集型的任务,如SAP、SAS、Oracle的产品都是通过更好的算法不断优化CPU的性能,最核心的制约是CPU的算力不够,所以需要节省运算资源。而到了GPU时代,算力得到很大的增强。我们发现,在数据处理领域抓住硬件的红利,基于超大规模的多核GPU进行处理,能体现出比传统CPU架构更好的性能。在新一代的硬件体系结构下,如何更好的去利用海量的计算资源进行数据处理,这是我们要做的事情。
根据我们对产品
beta版本的测试,已经能达到OLAP的数据查询性能提升30倍到100倍,人工智能的处理效率能得到5倍到30倍的提升,在进一步优化之后会越来越好。
拓扑社记者:
除了性能的提升,性价比方面如何呢?
星爵:
现在所有的人工智能训练都会在
GPU上进行,就是因为GPU的成本比CPU更低。对OLAP来说也一样,
GPU的性价比至少要比CPU高10倍,此外,在后期的能耗与运维成本方面,GPU仅为CPU的二十分之一。
从
OLAP到OLAIP,发掘增量市场
拓扑社记者:
OLAP的创业市场有多大呢?Zerone将如何来把握住这个市场?
星爵:
目前,
OLAP的全球市场是190亿美元每年,
预计到
2020年达到250亿美元,而我们看到了一个更大的机会。我们发现了一个全新的增量市场——OLAIP,预计到2020年能达到100亿美元。
OLAIP
提供了数据库系统和人工智能计算框架(
包括
TensorFlow、Caffe、MXNet等)之间的直接数据通道,将人工智能处理引擎融入数据库执行引擎,集数据存储、管理、分析、人工智能处理于一体。
拓扑社记者:
OLAIP这样一个全新的概念,要解决的实质问题是什么?
星爵:
对于人工智能需要用到的计算框架,比如
TensorFlow是在构建最底层的平台,但它与应用层之间有很大的隔阂,企业需要招一个懂深度学习的人来使用,成本非常高。以前数据分析师使用SAP或者SAS的工具,只用简单调用函数或数据包;但现在要用TensorFlow写一个模型,至少需要几百行代码,还不谈其他复杂的操作。一个工具的发展的趋势是越来越易用,这就是我们看到这个机会。
而
OLAIP一方面打通了从数据库存储层面到深度学习分析层面的数据交换的直接通道,另一方面,将深度学习引擎与数据库的核心执行引擎融合在一起,所以在数据库的核心引擎层面就可以提供基于Tensorflow的机器学习的功能。
目前,数据分析师如果要用人工智能的算法,需要先把数据从传统的数据库中导出,然后再写一套数据的转换与清洗的程序,第三步才是用深度学习的程序来进行处理。
经验证明,数据的导出与导入过程往往占用了
70%以上的工作时间,所以只有30%的时间在做真正有意义的事情。而OLAIP打通了从数据库到后面的数据智能分析的整个流程,为数据工作者节约了70%以上的时间。
拓扑社记者:
具体来说,OLAIP是如何实现打通整个流程的呢?
星爵:
如果把人工智能处理引擎比作火箭,深度学习需要对大量的数据进行分析,那么数据便是燃料。在现有的框架里,燃料与引擎是分开放置的,在使用的时候,先要把燃料搬运出来,然后通过一个管道传输到引擎,这会耗费大量的时间与人力。我们为什么能将引擎与数据相融合呢?深度学习都是以
GPU为核心的处理,现在的方案是把数据在CPU上做好处理,再导入到GPU 的显存中进行深度学习,两者是分离的。
而
Zerone基于GPU,数据的存储和处理都是以GPU为核心,所以省去了搬运数据的过程。
正是进入GPU数据库市场的好时机
拓扑社记者:
国外已经有MapD、Kinetica等发展得比较好的GPU数据库公司,但国内市场还比较空白,您为什么选择在这个时候进入呢?
星爵:
第一,从市场教育方面来看,从
2012年开始,以GPU为核心的服务器基本上已经家喻户晓的,一个企业要做人工智能,肯定会选择以GPU为核心的服务器,大家逐渐接受了“GPU比CPU性能更好”的观念;第二,从硬件条件的角度来看,以英伟达为代表的GPU的新一代计算框架下面,已经有很多的应用,包括人脸识别、自动驾驶、语音识别等,但是这上面还缺一块统一的数据库的应用。所以我们认为现在正是进入这个市场的好时候,而MapD跟Kinetica在2016年也发展得比较快。
我们其实从
2015年就开始研发,目前已经有了beta版本,而我也关注这个领域3年多了,十分看好以CPU为核心的新一代架构。
在中国,以
GPU、FPGA为代表多核计算已经到了一个临界点,企业、市场的认知度也到了临界点,之前我们一直在闷声做研发,但到了这个临界点,应该告诉市场有一家做基于多核架构的数据库公司出现了。
拓扑社记者:
那么第一批用户使用beta版本的反馈情况如何呢?
星爵:
我们正在与国内的一些企业联合做
POC测试
,已经得到了一些很好的反馈,我们的正式版本预计会在年底推出。
拓扑社记者:
Zerone的目标客户会集中在哪些领域呢?