专栏名称: 云技术实践
关注云计算,云技术,云运维,云存储,存储,分布式,OpenStack,SDN,Ceph,虚拟化,运维,分享在云计算/虚拟化/运维项目实施中的资讯、经验、技术,坚持干货。
目录
相关文章推荐
高可用架构  ·  Java方法设计原则与实践:从Effecti ... ·  4 天前  
架构师之路  ·  架构设计中的后台任务:3种场景,2.5种触发 ... ·  3 天前  
架构师之路  ·  高可用架构:fail-over的三种经典模式 ... ·  5 天前  
51好读  ›  专栏  ›  云技术实践

500亿云数据中心被病毒勒索,如何在59秒内恢复

云技术实践  · 公众号  · 架构  · 2017-05-19 13:07

正文

Wannacry1.0勒索未完,变种2.0开始以3600台每小时速度席卷全球


2017年5月13日,Wannacry病毒正以洪水之势扑向全球,截至到2017年5月16日,全球共计150多个国家、20万个设备受到影响,包括医疗、能源、交通运输、教育、金融、通信、制造行业、公共安全等都受到了大规模冲击,数据丢失,业务中断。仅国内就有近3万个机构和企业受到攻击,小到个人,大到政府机构,甚至连公共安全部门都不能例外。此次事件已经直接威胁到了全球政治和经济秩序的安全。目前病毒正在变种中,新的一波冲击正以每秒3600个设备的速度攻击全球……



为什么受影响之大?


这次病毒很快就袭击到全球的网络,除了措施、工具、系统未落实外,很重要的一点还与采用的IT基础架构硬件和软件相关。 



传统IT数据中心,为什么在遇到病毒破坏后的数据恢复慢?



传统的IT数据中心,通常是由各式服务器、存储、网络设备、安全设备、各类应用软件、磁带库等构成,样子如下:


  

在普通的服务器或者桌面电脑上开展业务,拿服务器举例(办公电脑上相对简单一点,但复杂度也不低),大部分IT部门,通常包括如下几个步骤:


a) 部署服务器到数据中心

b) 安装部署操作系统

c) 升级操作系统到最新的补丁状态

d) 安装数据库系统

e) 安装应用服务器软件

f) 安装周边支撑和工具软件

g) 安装业务软件

h) 调试系统

i) 进入生产状态


一旦病毒入侵,把a-i 任何状态的数据(包括软件配置/软件执行程序/库等)破坏后,要进行大量的软件恢复工作后,再进行数据恢复比对、核查。这一步的前提还是在有备份数据的情况下。如果被Wannacry或类似恶意软件锁定,首先解决的是怎样找到可用的、正确的数据。要确保有数据,就得有数据保护机制,特别是数据备份、数据容灾体系的建立。


目前针对物理机体系的数据保护软件,通常采用如下方案构成:


一套保护软件 (可能是厂家A)

一组服务器,通常2-3台起(厂家B)

一组存储(厂家C)

一套归档设备,如磁带(厂家D)



如果要加强数据容灾,还得在异地部署一套对等设备,中间再租用专线。


挑战出来了,通常这类方案特点:


- 由于设计复杂性、软硬兼容性测试,部署实施周期都在几周-几月

- 使用门槛高,导致在出现紧急恢复时候,时间太长。因为各种情况要考虑运行环境修复处理,数据校验比对,无法进行快速恢复,甚至都不敢恢复业务

- 包括近1-2年银行在内的故障事件表明: 异地容灾,安慰居多,能用的少


本质上是基础架构决定了上层数据保护的复杂性,数据恢复时间高达数小时到数天。这个时代的厂商要花大力气解决各种兼容性问题,需要经历很长的时间,投入大量资源,方案才能进入成熟期。这就是为什么,在存储备份领域,一直是国外的大型IT厂商主导。即便这样,也很难快速解决病毒对数据破坏的威胁。因此传统方案研发重点主要在以下几点:


-大量硬件,系统软件、应用软件的兼容性研发

- 数据规模相对小,考虑的是单机的可靠性稳定性,大规模扩展不是考虑重点

- 通过在物理服务器内部安装客户端软件,提高备份速度

- License化各模块,变相提高部署管理的复杂度,增加服务收入


复杂的体系设计,只会让病毒无形中放大了影响时间。总之,恢复慢重要的三个原因是:


- IT系统物理服务器居多,构建复杂,业务流程复杂

- 数据保护系统设计复杂,功能使用路径长

- 恢复方案主要是通过回写数据完成,越大越慢!

云化数据中心正加速重构重要的生产环境


正因为传统数据中心时代,随着业务和应用的不断发展,基于传统的IT模型导致IT规模增大,出现以下问题:


- 数据中心空间不够用

- 高能耗

- 维护成本高

- 各种安装部署复杂


导致IT不能够快速响应需求,越来越多的政企环境开始演化为虚拟化/云化结构,提供了资源利用率和管理的灵活性,这种架构面对病毒,有更从容的保护方案可以应用。



我们先来看公有云市场,目前在此病毒勒索次事件中,受到的影响比较小,根本原因有两点:


a) 公有云在网络防护层面做了很多基础保护系统,上层的防护特性更好,门槛低、容易启用

b) 公有云运维技术团队较强,短期内可以快速反应,收敛病毒的影响


但也不能说,公有云就绝对安全了,安全是一个体系,涉及到平台、应用、用户。包括软件的设计、用户的行为、周边的安全环境等都在影响着数据安全。


在私有云市场,我们很幸运,VMware、微软等带动了商业虚拟化市场的全球应用,比例曾高达70%份额。KVM, XEN等开源虚拟化体系,在国家、大型企业、开源组织的推动下,正在一起重构传统IT架构。据主流机构预测,到2020年,中国云化数据中心市场在5000亿以上,说明IT决策者们看到了传统数据中心的各种问题,逐步在升级改造原有的数据中心。


病毒在虚拟化和私有云等新型高效数据中心威胁如何?


受影响的都会很低调,不会主动传播有损企业形象的事件。从技术架构上看,新型数据中心在资源、硬件容错、自动化迁移管理方面解决了不少问题,但病毒对这类数据中心威胁程度一样,上面跑的Windows、Linux等系统面临同等情况的威胁:系统文件、应用软件、应用数据都可能被恶意加密;如果虚拟化软件本身出现了被病毒利用的漏洞,那影响的将是一批业务系统。绝大部分情况,企业或机构的IT团队规模是远远低于公有云技术团队。在这种情况下,借力专业数据管理和保护方案就显得特别重要。


我们再回顾一下,云化数据中心在国内经历了3个阶段: 


阶段一:

2008-2010年之前,虚拟化属于初级发展阶段,这期间属于非核心业务时代,属于在摸索、测试阶段,应用场景大多是在开发、测试等非核心环境中。首要原因是虚拟化技术还比较新,IT人员掌握起来有一定难度,同时,PC服务器的性能还不足以跑虚拟机环境和重要应用。


阶段二:

2010-2014年,虚拟化进入逐步规模应用时代,包括一些内部OA、知识管理、邮件、内部IM等,由于SSD 、高速网络、内存、多核CPU架构的兴起,中等配置的PC服务器通过虚拟化可以足够满足一些基本应用的虚拟化要求,后期逐渐开始过度一些重要业务逐步开始应用。


针对传统数据中心的数据保护方案已经不能适应


阶段三:

2015-2017年,虚拟化增强架构/云化架构开始爆发,大部分客户需要的依然是服务器计算虚拟化为核心,并适度增加网络、存储调度与管理能力。由于硬件性能提高的同时,价格大幅度降低,重要应用逐步开始虚拟化,包括ERP、CRM、交易系统、财务、各行各业核心应用等。对系统可靠性要求极高的金融行业,也逐步开始在虚拟化和云化环境部署重要生产业务系统。


这就回答了为什么在2015到2017年之前,在国内很难有专注的虚拟化数据管理领域的公司出现,答案是:市场基础还不够,普通价位的PC服务器性能不够,性能配置强的成本太高。



过渡到第3阶段之后,云化时代有三个特点:


- 部署一套系统,分分钟可以完成,因此数据增长很快,数据规模急剧增大

- 业务进行了拆分,由原来多个业务集中到每业务一个或多个虚拟机系统

-业务由地理分散,开始进行了集中


因为以上的新特征,在原来已有的指标:RTO、RPO等级量化管理能力外,相应的也对方案提出新要求:


- 数据管理容量和性能要能按需扩展

- 能快速恢复系统,而不仅仅是应用、文件和数据

- 针对病毒这样的威胁,要求系统具备很强的容灾能力

- 更可靠,更安全,数据100% 能恢复

-管理、维护要很简单、灵活、便捷


针对以上需求,木浪云的创新思路: 融合与按需

基于WebScale模型架构,软件、硬件与云一体化融合数据管理方案,针对Wannacry勒索病毒等带来的威胁,无论数据规模多大,都能轻松部署,从容应对!



一体化融合保护

目标:

精简融合保护备份、恢复、异地复制、数据分析、搜索、云复制能力等,一个产品解决所有问题,简单易懂易用。


能力优势:

这种设计好处就在于:上手容易、配置快、管理简单、对管理员友好。

在最快情况下,无需专业备份或虚拟机管理员,普通毕业1-2年的IT工程师,在10-20分钟可以搞定一次部署,每次备份在1-3分钟可以完成,大幅度降低企业在运维管理方面的投入和开支。


针对Wannacry:

- 59秒内恢复

由于操作简单,底层有极速恢复支持硬件和软件体系,对于病毒受破坏的系统,仅需几十秒钟就可以恢复到健康状态。

- 无限独立可恢复版本

针对病毒威胁,产品设计上采用无限制独立版本系列,数百到数千个版本,可以轻松恢复到任意1个版本,粒度可以是系统,也可以是系统内部的文件、文档等,轻松应对病毒加密数据带来的威胁!


传统方案:

传统的方案需要周期在几天到几周,通常需要资深的管理员学习很长时间才能管理好。原因就在于,每一块都有自己的管理平台,风格不一,需要学习备份,存储,带库等等知识技能才能掌握。这也是传统方案成本高的原因之一。

带全局重删数据的存储管理


目标:

简单说:就是可以管理整个数据中心的数据。可以跨越多台木浪云软硬一体化产品,实现全局检测重复数据


能力优势:

- 最大节省90%成本

可以最大程度去除90%的重复数据,大幅度降低企业数据管理和数据灾备成本!规模越大,越有优势!

-提高防护率到100%

有了木浪云这种全局数据管理能力,无论多大规模的网络,从数百到数千规模的云化数据中心,都可以轻松自动保护全部业务系统, 提高数据中心整体防护率到100%


传统方案

我们知道,传统的方案支持的虚拟机规模有限,当支持更大规模虚拟机后,需要部署多套方案,而虚拟机底层磁盘本身数据重复度很高,部署越多,重复数据占用的空间越大,消耗的成本越高,也难管理。所以,传统的方案很难解决规模化虚拟化数据中心管理难题。

WebScale轻松扩展存储容量和备份性能

目标:

自动扩展系统,无需手动添加、删除、移动备份数据、备份任务等,系统智能管理负载,并进行全局平衡,大幅度降低运维扩容成本和难度。


能力优势:

- 设计模型,支持2PB保护容量

目前通过WebScale模型,设计上可以支持96个节点,管理多达2PB的保护容量。这是什么概念? 小到中小型企业,达到大型集团公司,云平台运营商都可以轻松支持。传统的方案如果支持大体量的数据中心管理,投入将会是木浪云的3-5倍!

- 集群最大并行备份任务 5000个

系统设计采用多节点并行智能调度方案,企业正常数据增长规模下,可并行支持5000个任务以上,解决超大规模云数据中心的保护难题;同时,任务在所有节点可以任意切换


传统方案:

分成两种情况,

1)软件方案通常不能进行全局数据管理,软件的扩展只是添加备份存储,全局存储性能和容量并不能同步扩展。这样就带来一个问题,软件方案只能解决一半的扩展问题,不能解决性能问题,并行能力弱。

2)如果是一体化,传统方案通常就是软件安装在一台服务器上,服务器内部通过Raid存储数据,并行能力弱。传统方案最大容量受限于服务器的硬盘槽位数。通常扩展的时候,系统需要停机重新调整存储架构,同时面临数据丢失的风险。目前这种方案,通常最大扩展的容量也在100TB规模左右。考虑3-5年的扩容,一次性投入成本会再多出30-50%。

融合云,特别是公有云的数据管理能力

目标:

公有云有天生的数据灵活和异地容灾优势,企业通过我们特别设计的公有云数据复制技术可以安全方便、更低成本、更快速度管理历史冷数据或做数据冗余。


能力优势:

-减少80%的云复制投入

通过木浪云的云复制技术,最理想的情况下,相对传统方案,将会减少80%的投入。一个趋势,国家大力推进云计算产业的落地,最重要的一条是降低接入带宽的费用。

云在应对病毒威胁的场景中,又多了一条便捷的通道,重要的数据可以轻松加密复制到公有云存储系统,形成云灾备。


传统方案:

集成云本身不是一件难事,难点在于如何把数据轻松复制到云,同时根据需要还可以快速取出,并融合到数据备份、恢复、内容搜索等应用逻辑。

传统的方案,更多就是调用API ,上传数据到云; 需要单独购买部署软件。


木浪云采用一体化,可伸缩扩展模型,轻松保护虚拟化/云平台


下面是更细的一张效果对比表





木浪云

传统方案

可全局管理数据规模

按需模块化扩展,24TB-2PB

通常最大在100TB-200TB

RPO表现

分钟级,随着集群节点增加,整体RPO性能保持不变

分钟到小时级,处理任务规模越大,RPO越不能保证

RTO表现

59秒内

分钟级,数小时

并行恢复接管能力

节点越多,并行接管能力越强,最多并行恢复接管480个虚拟机

单个设备支持个位数的虚拟机接管

部署实施时间

15分钟

数天到数周

可靠性、稳定性

节点级冗余

单点故障

安全性

多级用户角色权限模型

高强度加密

多级用户角色权限模型

高强度加密

云复制模块

一体化融合,开机即用

另外安装云软件模块

云复制能力

1/10数据量/10倍速度

普通复制,慢,空间消耗大

数据可恢复能力

底层特有的数据一致性机制

100%可恢复

通常不能保证

内容搜索恢复能力

内置混合云即时搜索引擎,1-3秒内,找出在本地或云上的虚拟机内部文件,文档等

传统目录展开式,数分钟,通常是只能找出本地备份虚拟机的文件

异地复制/异地容灾

内置异地复制和容灾能力,不单独收费

通常安装异地复制软件

单独收费

可管理能力

支持API集成,特别适合

大型企业或云平台集成

通常,无API支持

保护策略

支持集成频率,数据分层,数据清理,云复制等策略编辑,效果监控跟踪分析

普通的备份频率模型

管理控制台易用性

Web,保持专业同时,更容易使用

传统软件功能列表模型,过去式

对接入系统的影响

旁路,不影响

RPO过小的实现,需要在虚拟机内部内置软件,对系统有稳定性和性能影响


有人不禁会问?你们一家创业公司是如何做到的?凭什么能做得更好?


l 首先,云化数据中心,通过基础虚拟化和云计算厂商的努力,已经解决了底层大量、各种的硬件、服务器、存储、操作系统、应用软件等兼容难题,创业公司可以专注在API 应用这层的逻辑。这一层无论巨头,还是创业公司差距并不大,更多的差异是在技术策略和与市场的结合应用方面。


l 木浪云团队来自大型互联网公司、信息安全公司、专业存储公司。骨干重点力量,平均有10年以上的实践经验,几个合伙人的从业经验在15年以上。核心团队来自腾讯、H3C、华为、盛大网络、跨国公司等企业的高管、技术专家等。团队已经掌握了各种并发、分布式、上PB级的海量数据、信息安全体系、业务连续运行、海量服务架构、搜索引擎、自动化运维体系等领域技术,木浪云的诞生,来源于结合市场的经验转化,并标准化成企业级数据管理产品。目前,木浪云的产品线已经应用在了运营商、云平台、生产与制造、物流、科研、科技、综合集团等企业和政府机构有应用案例。


l “◆最关键的一点:团队有一颗执着挑战未来的心!” 

相关阅读:

《OpenDaylight》第一章:OpenDaylight原理(上)

《OpenDaylight》第一章:OpenDaylight原理(中)

高端私有云项目交流群,欢迎加入!

加入中国最活跃的kubernetes技术讨论QQ群,加群主QQ:502207183,并注明城市、行业、技术方向。