专栏名称: 脑极体
你的困惑,来自于无路贴近未知。我们在技术、思想、传播的异界,贩来极限脑量下的TMT。
目录
相关文章推荐
雨果网  ·  今日开放!TikTok ... ·  7 小时前  
麒麟出海  ·  TEMU首次开放加拿大本地卖家入驻;TikT ... ·  13 小时前  
跨境电商Eason  ·  eBay英国站,扫地机器人一直销量不错 ·  昨天  
跨境电商Eason  ·  eBay英国站,扫地机器人一直销量不错 ·  昨天  
TikTokShop跨境电商  ·  PEAKS最佳实践|这些TikTok ... ·  昨天  
51好读  ›  专栏  ›  脑极体

云计算到底怎么用?

脑极体  · 公众号  ·  · 2018-08-08 19:58

正文

云计算最近的热闹不少。


8月5日,一家创业公司“前沿数控”发文,称其在腾讯云上数据全部丢失。之后腾讯云对此回应称,该事故是因所在物理硬盘固件版本bug导致的静默错误且运维人员存在不规范操作所导致,并表示了道歉与赔偿。


至此,在一年多的时间里,微软、AWS、阿里云、腾讯云等主要云计算服务商相继出现问题,这也让外界产生疑惑:云计算怎么了?


近些年,企业上云已成趋势,而云一旦出问题,很可能影响颇大;然而就像天底下没有不生病的人一样,云计算也自然也不可能百分之百完全不出问题。这次的腾讯云事件,刚好可以用来聊聊这个话题,让我们透视云计算平台与企业如何应对可能存在的问题。


没有绝对不出问题的云计算


但我们或许可以借此讨论这样一个问题:云计算平台不出错的理想情况,到底是否可能?


答案当然是否定的,任何云计算平台都有发生事故的可能。云计算本身是一种本地存储与运算的替代方案,所以本地计算可能出现的软硬件问题,也将映射到云计算体系中。


当然,随着云计算技术的不断进步以及产业服务能力增强,今天我们看到云计算应对风险的技术解决能力、容灾能力、应急冗余能力都在提高。



但同时也应该看到,云计算的另一面,是体系复杂化、碎片化的业务需求,更加复杂的云计算应用体系以及云计算+AI、云计算+IoT等新业务种类,导致出现风险的场景更多。比如去年英国一个移动应用企业发生了数据崩溃,原因在于企业员工违规收取了邮件,最终导致云存储数据被大规模劫持。


不过从另外一个角度来看,云厂商提供给用户的真正有价值的服务并不是一个一定不会出问题的服务,而是让企业可以低成本快速的搭建一个服务冗余、一定容灾的架构的能力。从腾讯云的案例中我们可以看到,云计算的问题可能很复杂,而平台的处理能力是解决问题的第一方案。


出现了问题,云计算平台如何应对?


让我们回顾一下腾讯云这次事件中,数据丢失到底因何发生:


根据腾讯云方面的技术复盘,该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。具体原因是,是因为运维人员在收到仓库空间使用率过高警告后,准备发起搬迁扩容。在搬迁国产中,为了加快速度,手动关闭了迁移过程中的数据校验。而在搬迁完成后,运维人员将出事故云盘访问切至新仓库,同时为了释放空间,对原仓库中的源数据发起了回收操作,之后发现部分云盘出现IO异常。


本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。



腾讯云已经正式道歉,并从技术角度坦诚了相关问题的存在。


由于云计算事故的问题,往往来自复合型问题、细节问题。而往往平台讳莫如深,甚至想要撇清责任,是导致事件复杂化的直接原因。而腾讯云此次的坦诚方案,在业界还是收获了一定的肯定


而通过腾讯云的事件,我们可以看到真正能够有效降低云计算故障的方法,是在出事前进行干预。比如说:


1、搭建应急预案,不断更新容灾技术与容灾机制,可以在出现问题时快速、低成本搭建应急架构。这是云计算平台应对可能事故的核心,而容灾机制与技术的双重保障,也是云服务品牌的核心竞争力。


2、规范化管理流程,尤其涉及数据问题时的人工操作流量。腾讯云事件中可以看出,人为不规范操作是造成很多重大损失的起因。而严格的流程化和去人工可能是较好的解决方案。


保障数据,企业用户也需配合


云计算平台自然也不是万能的。对于用户来说,选择合理的服务体系、积极做好兀余和备份工作,是进一步降低风险的举措。


另一方面,云计算服务中还有一项功能,叫做云盘快照。也就是企业可以定期来复制备份自己的数据,作为应对可能性事故的备案。而恰好腾讯云还是少数定期提供免费快照功能的云平台,为避免企业数据丢失,还是应该积极使用类似备份功能,保证自身数据的安全存放。



同时,对于核心数据来说,本地存放与云存储兼顾,是公认的更良性策略。


目前,出于市场业务细分化的需要,所有云计算平台都在提供更细节化、碎片化的服务选项。但很多时候企业并不能为了节约成本而购买单一服务,而是需要设置符合自身发展需求的云计算策略,并做好重要数据本地备份。








请到「今天看啥」查看全文