专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
数据分析与开发  ·  京东:MySQL 中的 distinct ... ·  3 天前  
数据分析与开发  ·  发现一款JSON可视化工具神器,惊艳了! ·  5 天前  
51好读  ›  专栏  ›  数据中心运维管理

又又又断电?从某Cloud数据中心电力故障看UPS可靠性

数据中心运维管理  · 公众号  · 数据库  · 2017-05-02 09:13

正文

在数据中心大谈云化,众多厂家“无云不宣”的时候,人们却发现:理论上更加安全、更加可靠、更加便捷的Cloud DC们,却似乎变得更加脆弱了。除了服务器宕机,断网、断电等事故也时有发生,连挖土机都有可能挖断光缆。当一朵朵“云”在天上飘的时候,背后的那根“安全线”也比任何时候更加不容忽视。


2017年3月22日,青云(QingCloud)因北京2区(PEK 2)数据中心电力故障引发部分网关设备及计算节点重启,目前故障虽然已经排除,但也造成了不小的影响。


 

近年来,大家频繁听到云数据中心因异常导致业务中断的事情发生,在数字化的现代社会,数据中心的可靠性如果稍稍动摇,其造成的影响如同蝴蝶效应,不可避免会波及终端客户的正常运营和影响自身声誉。因而每一次故障的发生不仅仅需要事故方自检排查,更需要整个行业一起反思,从中获益。虽然官方没有给出确切的故障原因,本文将参照青云事后发布的故障报告,大致分析故障原因,并以此为契机,给出一些思考与建议。


据青云官方称:具体故障发生过程为,该数据中心需要对A组UPS进行定期离线维护作业所以将负载从A路UPS整体切换到B路UPS,但是3个小时之后B路电源UPS出现单台机组报故障,随后整组UPS过载。1分钟后B路UPS在进行内部旁路切换时报警显示不能进行切换,紧接着UPS就陷入异常状态。大约36分钟后UPS系统恢复正常状态后将报警还原时,电源产生了瞬断现象。将近2个小时之后为了原因调查,UPS被完全隔离。


虽然目前还没有正式的分析报告出来,但是从报告中我们还是可以管中窥豹,从中看出一些问题。


一、传统塔式UPS离线维护风险大。在发生故障的第一环节是离线维护引起的,研究表明有50%~60%的数据中心的停机都是由人为错误引起的,这与塔式UPS结构息息相关。


传统塔式UPS是一个整体,其内部系统复杂,UPS出了故障后,问题的定位和维修是很大的工程量,并且需要专家到现场才能定位、维修,且这个过程是离线的,此时UPS系统工作在维修旁路,这就意味着,当市电中断时,如果单机供电,负载将直接中断。


二、传统塔式UPS维护时间长。上文已经提到,塔式UPS的维护往往是个专业过程,维护工作量大,一般维护时间常常是数小时甚至数十小时,这就加大了业务中断的风险。


三、青云所用的UPS本身可靠性设计令人担忧。从报告中看 “B路电源UPS出现单台机组报故障,随后整组UPS过载。1分钟后B路UPS在进行内部旁路切换时报警显示不能进行切换,紧接着UPS就陷入异常状态。大约36分钟后UPS系统恢复正常状态后将报警还原时,电源产生了瞬断现象。”这段描述性文字可以看出,青云所用UPS在过载状态下,主旁切换逻辑出现重大问题,本身可靠性设计堪忧。

 

UPS发展至今,传统塔式UPS低可用性已经无法跟上数据中心IT设施的发展速度,要提升可用性,缩短故障维护时间,模块化UPS是唯一方向。模块可热插拔是所有UPS厂家对模块化UPS的基本要求,故障时通过热插拔更换模块,5分钟即可完成在线维护,这与传统塔式UPS动辄8小时以上的离线维护时间相比,是个巨大的提升,当然在线与离线相比,对负载的重要性也不言而喻;部分厂家甚至将静态旁路、控制模块等等都做了热插拔设计,进一步提升系统可用性。


此外,传统塔机单点故障多,单点故障,常常引起整个系统中断,相比而言模块化UPS关键节点可以通过冗余设计提升可靠性,在整个系统运行时,负载率一般会低于50%,此时多个模块故障,仍然可以保证UPS正常带载,直接规避了上文所说的过载问题。


最后,用户在使用UPS,进行招标时,对于UPS可靠性的要求应该更加严格,严格的标准才能大浪淘沙,让真正可靠的UPS脱颖而出,为更多的用户谋福利。


从近年来的集采可以看出,模块化UPS所占比例节节攀升,逐步成为集采主流机型,这也从侧面印证了市场趋势,从业务出发,客户也不愿意使用维修困难的UPS,正在追求更高可用性的UPS。


UPS作为电力守护者,为各个行业的关键负责设备提供稳定、不间断的电力供应。从近几年的市场表现来看,模块化UPS的可靠性正在逐步被行业认可。相对于传统的高频塔式UPS,模块化UPS可以不断电维护,单模块故障不影响系统运行,高效节能等特性更符合数据中心应用。

专注于数据中心基础设施运维管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。

联系小编:wj2012bj

QQ交流群: 108888484

投稿邮箱:[email protected]


数据中心运维管理

ID:wj-yunwei


▲长按二维码"识别"关注