专栏名称: 数据化管理
零售业数据分析及研究者,【数据化管理】咨询顾问、培训师,自由职业。
目录
相关文章推荐
国泰君安证券研究  ·  微信小店“送礼物”带来哪些机会|国君热点研究 ·  2 天前  
中信建投证券研究  ·  中信建投 | 香港互认基金市场进一步扩容 ·  3 天前  
华泰睿思  ·  华泰2025年展望 | ... ·  3 天前  
上海证券报  ·  今夜,利好不断 ·  3 天前  
51好读  ›  专栏  ›  数据化管理

应该让数据“飞上天”,还是让它与企业“肩并肩”?

数据化管理  · 公众号  ·  · 2017-06-20 08:08

正文


在大数据时代,对庞大数据量的存储以及安全性的需求成为企业运营最有挑战性的课题。随着企业自身业务的多元化和应用负担的加重,云平台逐渐成为这个时代课题中最理想的答案。有需求就有供给,日前云平台种类也因应对企业业务的多元化的需求而变得日益丰富。因此,企业对云平台的灵活选择和搭配渐渐提上日程。那么,如果说多种云平台的采用和部署才是云计算正确的打开方式,企业又该怎样去选择适合自己的云平台呢?


或许这也正是一些公有云服务提供商致力于开发数据分析即服务(DAaaS),高性能计算即服务(HPCaaS)但却进展有限的原因。以大洋彼岸的协作式癌症云(Collaborative Cancer Cloud,简称CCC)为例,它是美国俄勒冈健康科技大学奈特癌症研究所正在部署的一个精准医疗云平台,目前已经在三个地点部署了一期系统,分别是位于波士顿的DANA-FARBER癌症研究所,多伦多的OICR癌症研究所,以及奈特癌症研究所,虽然分处三地,但却是一个实打实的私有云平台。



同样,由麻省理工学院、哈佛大学、波士顿大学、西北大学和马萨诸塞大学五所研究型高校共同研发的Massachusetts Open Cloud在推进中也没有选择纯粹的公有云平台,他们的策略是,在同一个数据中心内、同一个云平台之上,让各个层面的技术提供商都可以公平竞争和提供服务。由此,你能想象出AWS上有几十种虚拟机、几十种数据库、几十种存储系统供用户选择的情景吗?


同样是来自科研领域对云平台的需求,却是如此的不同,一个采用绝对的私有云,另一个却嫌现在的公有云还不够开放,还需要进一步调校。


或许这就是“多云”之“多”的精髓所在,这个多不是指用户一定要同时选择或使用多种云部署方式或云平台(公有、私有和混合),而是指不要给自己设限,要在多种选择中选择合适自己不同业务及工作负载需求的云平台。


科研用户选云:要充分考虑数据的体量及敏感性


从数据的维度考虑云战略和云平台的选择,前文提到的CCC云平台就做到了这一点。该平台的目标在于推进癌症领域的精准医疗科研,依照俄勒冈健康科技大学奈特癌症研究所生物物理肿瘤学副主任Joe Gray博士的话说,他们要尝试实现两个目标:提供针对不同癌症定制的治疗方法;支持研究计划识别各种癌症的抗击机制。


而CCC为实现这一目标面临的主要挑战,就是要处理规模无比庞大的数据,其丰富程度也超出想象。在只需做个基因测量就可对癌症进行精确检测的今天,仅一位患者就可以生成好几个TB的信息量。除了基因数据,还有临床数据、基因数据、各种图像以及有关癌症的生物学信息等等。而且要为每位患者提供个性化的精准医疗服务,就需要建立庞大的数据库,对每位个体所患癌症进行对比。为了具备足够的统计能力来识别相关模式,必须能够对比1万、10万甚至数百万患者的癌症,以真正地达到精确性。



问题是,如何才能高效地访问和利用全部数据?


首先,数据的收集、保护和解析速度必须足够快,才有助于临床治疗,耗费数月时间去等比对结果对治疗不利,这个过程必须在几天之内完成,事实上奈特癌症研究所与英特尔合作项目的目标是,到2020年一切都能在1天之内完成。因此在JoeGray博士总结出来的几大挑战中,数据集庞大位列第一。


其次是数据分析和处理速度,再次则是安全性、可扩展性和成本。医疗对于患者隐私的保护也是重中之重,不同医疗机构之间需要共享数据以制定更加精准的临床治疗决策,但又要能够保护患者隐私,考虑到道德因素,医疗机构可不希望大家能够集中访问患者信息。

经过精心设计的CCC,最终采用了这样的架构:采用联合计算模式,不再尝试集中数据,而是支持数据生成机构合理控制数据并协调,整合联合计算中心,允许诸多医疗机构无缝地将计算结果反馈给数据;硬件和开源软件经过优化,可支持数据的快速分析;在软件和硬件两个层面实现数据共享安全;同时设计了可扩展的存储数据库,以及共享的通用解决方案以降低成本。



同样在前文中提到的Massachusetts Open Cloud,则既面临数据的挑战,也有集成的难题,如波士顿大学云计算计划主任Orran Krieger所说,如果选择纯粹的公有云服务,就会发现,现在的公有云,迁移进去容易,迁移出来难,而且不同公有云平台之间的集成更是难上加难,以目前的状况,用户根本无法在两家云提供商之间迁移大量数据。因此Massachusetts Open Cloud也选择了一个比较定制化的,类似达成公有云和私有云合作的模式,除了上述原因外,也是因为它不希望被被某个公有云服务提供商所绑定,在应用和数据上有更多的主导权和话语权。


数据的安全、处理的性能和稳定也是生产者“刚需”


与科研机构面临的业务和应用负载需求相似,对生产制造行业的一线,特别是高度数字化、信息化、智能化的制造业企业来说,其研发、生产、物流运输、售后维护等关键业务流程,都是由数据将物理世界的生产实践与数字化界面上的决策和指令串联在一起的,对数据存储、传统和处理的性能要求都很高,很多环节上都是实时的或近乎实时的要求,且涉及到了很多关键业务系统。因此对他们来说,在考虑云策略时,数据的安全,数据处理的性能和稳定也都是“刚需”。


以北汽集团为例,由于要在“新能源业务”上遵循《北京市示范应用新能源小客车生产企业及产品审核备案管理细则》,实现对整车、动力电池、驱动电机等进行实时监测的能力,同时满足企业数据保存时间不少于3年,并执行备份以确保数据安全,进而为北京市新能源小客车示范应用安全有序开展提供有价值的检测信息等要求,北汽新能源于2012年搭建了可承载5万辆车、48TB存储空间的车辆监控平台。这在当时完全可以满足其远程监测需求,但之后销量逐年提升加剧了对原有平台的压力。于是北汽新能源期望实施新的监测方案,充分地利用数据,实现批次车辆故障查询分析、批次车辆质量问题统计、车辆故障点定位等功能,以求不断提升电动新能源汽车的研发和创新能力。



北汽新能源希望收集、存储和处理的这些数据,无论是对政府、车主还是它自身而言,都是宝贵的资源。但是从数据的维度来看,其安全,处理性能,都难以在公有云上实现。因此,它部署了一个自有的,基于英特尔架构的车辆监控平台,该平台能满足北汽新能源车辆监控平台的所有业务数据处理需求,可使其承载10万台新能源汽车的数据存储、管理、查询和分析,整个平台的可扩展能力将得到大幅度增强,使得北汽新能源可以灵活扩展监控平台的性能和存储能力以满足不断增长的数据量处理需求。


无独有偶,另一家先进的制造企业,航空维修领域的翘楚Ameco也采用基于英特尔架构的自有IT基础设施来实现航空维修系统的升级,也是因为性能和稳定性是该系统升级的首要考虑因素。该公司北京飞机维修工程有限公司IT部门负责人表示:公司不能接受系统长时间宕机,因为2000多名工程师需要访问系统,任何一个时间点都有多达800名用户同时在线访问。所有工程师非常依赖该系统调配飞机维护的相关信息,因为系统内存储着飞机的文件档案和历史维护与维修资料,还有工程师的任务工单,在工程师完成所分配的工作后还需对系统中的工单状况进行更新。


多云战略,随数据资产的重要性而定


正如这些发生在真实科研和生产制造一线的应有实例所展示的,用户考虑云战略和部署方式时,从数据资产的角度来考量是非常必要的。即使是那些因为资金和IT人才比较有限,不得不优先选择公有云实现快速起步的小型企业和初创公司,在业务和数据规模成长到一步地步,希望利用技术寻求差异化竞争优势、打算深入挖掘数据中潜在机会时,都有必要考虑是否要采取多云的策略,围绕关键且敏感的数据资产,构建自主可控的私有云或自有的IT基础设施,让其与承载着自家非关键业务和工作负载的公有云并驾齐驱,形成混合云的模式。


而这样的企业一旦生意做得更大,或者在现阶段已经是业务规模大到令人艳羡的企业,数据对于他们就会有更为重要的意义。毕竟国与国之间,尚且不能允许关键数据放在境外服务器上。企业与企业之间,同样也是将数据拿在自己手里更好。这时候就要以私有云为主,公有云为辅的混合云模式。而所谓混合云,就是平时以私有云为主,并不依赖公有云,但在需要更大弹性,满足突发需求时,可以无缝切换到公有云。



而这种多混合云战略也是英特尔一直推崇的。就英特尔自身来讲,英特尔IT在进行云策略的选择时,综合考虑了信息安全、控制、成本、位置、应用要求、容量和稳定可用等各方面的要求,确立了加速迈向联合、可互操作的开放式混合云的多云战略。通过私有云、公有云和混合云托管选项为英特尔内部的应用负责人们提供了丰富的选择和出色的灵活度。


企业如此推进云策略,才称得上是经过数据的维度思考了,对云平台的部署方式和战略意义也有了更全面、深刻的思考。