专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
macrozheng  ·  分页查询接口,从2s优化到了0.01s! ·  昨天  
macrozheng  ·  超实用!Navicat这3个牛皮的功能,你可 ... ·  2 天前  
macrozheng  ·  超实用!Navicat这3个牛皮的功能,你可 ... ·  2 天前  
数据分析与开发  ·  低级失误导致 Elasticsearch ... ·  5 天前  
数据分析与开发  ·  离谱!裁员裁出新高度了。。 ·  4 天前  
51好读  ›  专栏  ›  数据中心运维管理

青云北京2区大范围宕机 公有云是纸老虎吗?

数据中心运维管理  · 公众号  · 数据库  · 2017-03-23 07:21

正文


3月22日中午,小编用得好好的内部发稿系统CMS忽然就断网了,正在写的已经收尾的一篇稿子在保存时就在小编眼前“biu”得消失了,更重要的是,没有保存、没有备份。


10000只草泥马也不足以形容当时小编的心情,直接拿上桌上的水果刀,找运维er拼命去了。好吧,小编得承认,小编这百十斤的分量,以上只是脑袋里YY的报复场景。但是,到底什么情况,还是要问个清楚。


下面这张图是运维小哥发来的解释,他说12:40左右,公司的云服务商——青云——服务断了,负载均衡器和路由器都挂了。换句话说,现在,公司的网站已经无法访问了。运维小哥还说,青云的工单系统几乎没有响应,可能客服那边忙翻天了,跟公司对接的青云方面的销售人员表示是网络故障,恢复时间可能要到14:30左右。



小编心里咯噔一下,虽然会脑补,既然网站无法访问,老板会不会给大家放假,但是一想到这么长时间,网站一直处于无法访问的状态,老板的脸色肯定不会好到哪去,也就不想什么放假了,还是夹起尾巴努力重新写稿吧。


不过,青云的服务故障也不是第一次了,广东1区和北京2区在前年就相继出过事故,一次据说是IDC机房遭到雷劈导致断电,一次是H3C交换机设备故障导致服务故障,不知道这次又是什么原因?


在青云的一个北京2区的用户群里,大家纷纷表示,自己也中招了,看来这次故障的覆盖面确实不小。另外,公司运维小哥说控制台都无法登录了,并猜测故障影响的范围可能不止北京2区。


随后,青云公司技术专家和市场人员纷纷对用户进行安抚。但是有意思的是,对于故障原因,几位却表述不一,有的说是电力故障,有的说的网络设备问题。到此,小编不免坏心眼儿的想,青云内部都没有统一口径的原因,要么是事件太急,大家晕头了,要么可能就是其他原因导致的,例如外部攻击?


但不管什么原因,公有云服务故障一直是大家关注的焦点话题,因为,一旦出现问题,都不是小范围事件,加上现在企业用户都讲究个业务连续性,因此公有云故障几乎就是众矢之的。


仅仅截止到2017年3月,今年的公有云故障就出现了好几起,涉及到的厂商也包括了微软Azure、AWS、阿里云、腾讯云,现在又加上青云,几大云几乎一个没跑了。


不过,说句公道话,公有云出现故障很难避免,重要的是,解决故障尽快恢复服务,如果故障时间很短,对于一般企业用户来说影响并不是很大。另外,从企业用户的角度则需要做好发生故障时的应对方案。


新浪混合云项目负责人刘道儒表示,对于用户来说,混合云和多云对接很重要,因为公有云出现服务故障的可能性不低,但是不同服务商的云同时出现问题的概率却不大。企业用户为了保障足够稳定的业务连续性就需要将一切可能考虑进去。


截止到小编截稿,青云服务还没有完全恢复,小编只能喝口水,淡定地继续写那篇已经消失的稿子了。


来源:软件心引力

相关文章


李彦宏该怒了,百度怎么可能宕机半个小时

今日头条出现长时间宕机,回应称服务器故障所致

专注于数据中心基础设施运维管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。

联系小编:wj2012bj

QQ交流群: 108888484

投稿邮箱:[email protected]


数据中心运维管理

ID:wj-yunwei


▲长按二维码"识别"关注