议题1:存储行业是否已经夕阳西下?
议题2:AI是否已经被过度炒作?
这是先智数据北京代表处成立媒体见面会上,作为“趣味对话”环节的嘉宾之一,我要面对的话题。
四人趣味对话(主持人宋家雨),左起:狒哥,冬瓜哥,何晓峰,涛哥
先智数据取“先知”的谐音,对应其英文名ProphetStor。初次遇见ProphetStor是2014年10月在深圳举办的华为存储峰会上,听说其核心团队主要来自老牌存储软件公司FalconStor(飞康),成立于2012年,总部位于加州的Milpitas。再次近距离接触ProphetStor已是今年年中,国内资深存储专家董唯元以先智数据北京代表处总经理的身份与我们见面。
自左至右:先智数据北京代表处高级总监李晓芳、中国区总经理董唯元、市场总监王双玲
在对话环节之前,先智数据北京代表处高级市场总监李晓芳发表了“当人工智能遇到存储”的演讲——谈个存储都要扯上AI了,这还不是过度炒作?
Prophet或者说“先知”,都体现了对预测的重视,而“先智”更体现了智能的色彩。但是,存储究竟和AI(Artificial Intelligence,人工智能)有什么关系,还是要靠产品和技术说话。
ProphetStor目前主要有四个产品系列,不同程度的强调“AI融入存储”:带外存储资源调控平台Federator,可以通过机器学习,认知客户应用负载的变化模式,对应用的性能和容量的变化作出预测,并可以提前考虑资源到位;StellarFlash闪存阵列“包含了智能预测能力”;DR Prophet容灾保护方案“可以智能执行复杂的配置过程,以最少的人为干预来保护AIX、Windows和VMware vSphere应用程序服务器上的数据”……
ProphetStor产品家族
与AI关系最为密切的当属DiskProphet,其功能是对磁盘的故障进行预测,用现代化的方法为磁盘“算命”,化被动的数据修复为主动的数据迁移,从而大幅提升存储运维能力。
为了防止数据丢失,业界广泛使用副本或RAID/EC(Erasure Coding,纠删码)算法将冗余信息分布在多个磁盘上。当其中的某个磁盘失效,就要访问其他磁盘以重建这个故障盘上的数据,恢复到设定的冗余水平;否则,再有磁盘失效,就可能会导致数据丢失。
数据修复过程会占用大量资源,影响正常的系统访问,而且在此期间涉及重建数据的磁盘面临超负荷工作,可能进一步诱发更多的磁盘失效;降低数据重建的优先级可以缓解磁盘的压力,但会导致数据修复过程变长,反过来又增加其他磁盘失效的几率。
如果能够提前预知磁盘何时故障,在其失效之前将存储于其中的数据读出,写入到其他健康的磁盘上,变被动为主动,也就不用为数据修复过程中的种种风险担心了。
基于智能预测的主动式故障处理
给磁盘“算命”的实质是用算法处理大量磁盘的生命数据。DiskProphet分析的核心是神经网络算法——这年头不提神经网络、深度学习,简直就是不懂AI。可利用的磁盘生命数据分为两部分:一个是磁盘自身的S.M.A.R.T.(Self-Monitoring, Analysis and Reporting Technology:自监控、分析和报告技术)信息;另一个是磁盘工作的环境信息,包括CPU利用率、内存利用率、网络占用等负载模式信息,统称为Metrics。持续不断的采集这些数据,可以得到磁盘状态随着时间变化的趋势,和外部环境所产生的影响,供神经网络学习。
神经网络的分析能力并非与生俱来,刚搭建出来的神经网络只具备学习的潜力,还没有实际的分析能力,需要通过大量的实际数据样本训练,才会具备分析判断的能力。具体到DiskProphet,要经过六千万条的数据训练之后,才可以准确的给磁盘(也支持SSD)“算命”。
DiskProphet工作原理
DiskProphet的输出不仅仅包括磁盘寿命的预测,还可以根据实际应用负载变化情况给出相应的处置建议。譬如,DiskProphet发现某一块磁盘很可能在七天后发生故障,而未来的七天里只有两天是很闲的,五天很忙,它又算出了迁移这块磁盘上的数据两天就够了,于是给出建议,提前把这块磁盘上的数据进行迁移。如果管理员足够放心的话,还可以让DiskProphet自动操作。
这种能力对同时运转着上百万块磁盘的大型互联网公司意味着什么,不言而喻。他们既有大量的数据样本,也有足够的软件开发人员。所以,在百度、腾讯公司内部,也有作用与DiskProphet相似的软件——最大的区别,恐怕是买得到与买不到。
于是,自然而然地,议题1出现了:
存储行业是否已经夕阳西下?
对此,我表示部分赞同。
首先,前面的范围限定很重要,因为我们讨论的是存储“行业”是不是夕阳西下。如果只说存储,那么“夕阳西下”不存在,现在正是存储的黄金时代。大数据不用说了,就说AI,做训练没有数据是不可能的。
同意的部分,因为“夕阳西下”是个比喻,而比喻是门艺术,不能追求严丝合缝,关键看从哪个角度去解读。我部分赞同的地方就是我认为夕阳西下不是一个静态,而是动态的。有如日中天,就有夕阳西下,两者不是对立的二元论——还有早晨八九点钟的太阳呢。
所以,夕阳西下可以用来形容存储作为一个行业,目前暂时处于低谷的这么一个状态。但是明天太阳还会升起,存储行业又可以有一个全新的面貌,即所谓的螺旋形上升。
不赞同的部分,是我认为存储行业的低谷,应该没有黑夜那般漫长。
回过来说存储行业的变革,用“三十年河东、三十年河西”来形容居然还蛮准确的。我们讨论的存储行业兴起于上世纪80年代初,由希捷开启硬盘小型化,EMC的成立时间也差不多。然后是RAID技术的出现,真正由EMC主导的存储行业是从九十年代中期开始兴起的,但是其实我们可以把它追溯到八十年代初,至2010年前后SSD开始在存储行业颠覆传统上基于硬盘的存储,差不多就是三十年。
我们也可以看到这里面其实整个存储行业的形态,包括存储的形态发生的变化:从一开始的分散走向集中,集中到一定程度以后发现难以为继,又开始走向分布式。伴随着分布式的发展,从硬盘过渡到SSD,大家发现由于SSD的性能太强,计算和存储可能又要分开。因为一台服务器里装满硬盘,其实对它的计算是没有压力的;但是要把一台服务器里装满高性能的(如NVMe)SSD,再在上面运行业务,可能就会发现计算性能明显跟不上存储的性能,不如让多台服务器分享一个集中的SSD存储池,我们现在已经可以看到一些这种苗头。
也就是说,随着SSD的发展,越来越快、越成熟,存储可能又要走向一种集中的形态。以前被赶走的东西慢慢又回来了,譬如RISC和ASIC,太多技术的探讨这里不展开。总的来说,大家慢慢的会发现,其实以前存储行业的很多东西,尤其是软件会随着硬件的发展重构,但是思想和实践上的很多精髓是可以保留下来的,在新的时代作为一个集中的存储,其实还是要按照一些原先的原则去构建一些功能。所以我认为这可能是下一个存储行业大的浪潮开始之前的预兆。
另外一个是商业模式的问题。存储行业正在经历的困境,很大程度上与互联网公司有关,也包括“去IOE”这样的标志性事件。互联网巨头们的有些东西现在做得还不是很精细,但是关键在于他们的运作模式不同,自己作为用户,能够开发软件,而以前传统的企业用户最大的问题基本没有软件和硬件的开发能力。那些大型的互联网公司,他们最不缺的就是程序员,而且他们由于使用量太大,传统的软件销售方式,不管是按安装量还是按使用量收费,对大型互联网公司都不适用,他们更倾向于自己来做。同样是由于使用量太大,大型互联网公司还能在相当程度上介入(数据中心级)硬件的开发。
ProphetStor北美的客户(思科)提供的测试报告,该客户在北美有一个公有云,一直头疼故障发生后磁盘的性能下降问题,就用DiskProphet进行了预测。在思科的数据中心中连续测试了三个月,测试结果是平均准确率达到96.1%,最低也没有低于95%。这是2016年初的测试,据称DiskProphet的AI又进步了,现在的预测准确率可以达到98%以上