专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
51好读  ›  专栏  ›  CDCC

近几年数据中心控制系统主要事故分析

CDCC  · 公众号  ·  · 2025-03-24 11:59

正文

请到「今天看啥」查看全文



数据中心控制系统的问题发生较为频繁,只不过由于自身存在强大冗余机制和容错机理,问题并没有直接显现出来。


近些年,随着系统智能化和架构复杂化,数据中心由于逻辑关系、架构对接、参数配置错误等控制原因引发的事故正在不断增加。



广义上的控制系统在数据中心普遍存在,包括动环、BA等各类监控系统,DCIM、智能运维等各类管理系统,电力、制冷等生产系统内设的各类并机控制系统、群控系统,各设备内部的监控模块,以及多系统间的联动控制系统等等。

数据机房内属于客户的业务系统和应用系统,并不在很多租赁数据中心的管理范畴,因此不在本次分析的范围内。

01

近几年数据中心控制系统主要事故

近几年数据中心控制系统部分主要事故统计如下,其中控制系统失效是直接原因或者重要的间接原因,部分数据由于未公开所以隐去来源:


时间

数据中心

原因

1

2020年

微软East US数据中心服务中断6小时

自控系统功能失灵导致

2

2021年

上海某数据中心动环失效引发机房温升

动环系统数据库单点故障

3

2021年

黑龙江某数据中心空调配电柜输出中断

ATS 控制模块故障

4

2021年

网易游戏机房多游戏无法连接

疑似自控系统失灵导致

5

2022年

伦敦甲骨文数据中心大量设备宕机

系统自动启动保护机制

6

2022年

内蒙古某数据中心冷冻水系统失压

定压补水控制逻辑错误

7

2023年

广东某电信数据中心制冷系统失效

自控系统故障引发冷水流失


02

控制系统故障的主要影响

数据中心的各类控制系统失效后,可能直接导致故障引发事故,也可能并不会对现网产生直接影响,但一定存在以下主要的隐患:

1.可能引发安全等级降级

当控制系统失效时,尽管整个系统不会停止运行或引发直接故障,但其功能的完整性将会被削弱,大概率会导致整体的安全性出现降级。

这种降级通常表现为系统从高可靠模式转到低可靠备用模式或容错运行状态。虽然核心功能仍在运转,但系统应对突发异常的能力显著降低,容错空间变小,潜在事故的触发阈值随之下降。

例如,部分早期末端空调控制系统出现问题时,系统依赖基础逻辑单元维持基本操作,但会失去实时监测、动态调整或冗余校验等高级功能,可能导致所有末端空调从群控模式转变为单控模式,引发气流组织异常,导致出现局部热点等问题。

2.存在发现上报不及时的风险

控制系统失效时更隐蔽的风险在于,某些失效模式可能不会触发显性警报,比如传感器精度漂移或通信延迟增加,这类"软失效"会逐步侵蚀系统的安全余量,最终通过量变引发质变。自动控制通常包含多层异常检测机制,系统监控能力的弱化可能掩盖潜在风险。

例如:数据中心动环系统负责监测数据中心的温度、湿度、烟雾、水浸等环境参数。失效后,这些关键环境参数将无法得到实时监控,可能增加设备过热、过湿或遭受水损等风险。

3.运行指标有可能产生偏移

BA系统负责楼宇的自动化管理,包括照明、空调、通风、安防等。失效后,这些系统将无法自动运行或调节,导致楼宇管理失控。

例如,数据中心动环系统通常还具备设备保护功能,如过载保护、短路保护等。控制系统失效后,这些保护功能将失效,可能引发设备损坏或火灾等安全事故。

4.自动转手动增加更多不确定性

控制系统失效,操作人员可能被迫转为手动干预,而人为操作的延迟或误判概率必然增加,整体风险水平将提升。

当控制系统从自动模式降级为手动操作时,这一转换过程本身可能对系统的安全性和运行效率产生复杂影响。

首先,操作延迟显著增加。自动控制通常基于毫秒级响应的实时算法,而人工操作受限于人类的认知和反应时间,可能需要数秒甚至更长时间完成决策。

其次,人为错误风险上升。手动操作高度依赖操作员的知识储备、经验和临场判断。在紧急情况下,信息过载或压力可能导致误操作,不同操作员对同一情境的应对可能存在差异,这种主观性会引入新的不确定性。


03

控制系统故障原因分析

1.控制逻辑问题

控制系统的控制逻辑看似比较简单,但实际逻辑要复杂很多。首先,全量节点的接入和数据的实时监测是逻辑的基础。其次,逻辑和程序一样,触发时需要一定的判断条件,而这些条件是动态变化的。最后,系统和硬件之间要完全匹配,避免执行偏差。

因此,一旦控制逻辑考虑不周、变量不全、设置不当,都可能在某些特定条件下,引发不可控的局面,导致事故。

案例 :2023年3月广州某数据中心,BA系统故障导致冷冻水阀门“关-合”误动作引发冷水流失,造成全部冷机停机,据说也与BA和蓄冷罐联动和控制逻辑有关。事件发生后,现场通过关闭误动作阀门、管路气阻疏通、紧急多点补水、甚至敷设冰块等操作,尽量降低机房温度,依然造成重大事故。

2.参数设置问题

各控制系统的运行参数并不是一成不变的,而是随着系统架构、业务容量的变化而变化的。比如配电系统整定值的设置、UPS并机模式的设置等等。如果变化不及时,很可能出现故障导致事故的发生。

案例 :2021年浙江某行业数据中心,因数据机房内频繁出现漏水误报警,且报警在30分钟内通常自行消失,运维人员为减少出现场的次数,将报警上报设置30分钟延迟。导致机房空调系统在后期真正出现漏水后,没有第一时间查看处置,积水渗入配电柜引发短路。

3.单点架构问题

A级数据中心关键设施都是主备或者冗余配置,但在实际运营中会发现,很多控制系统以及关键器件均为单节点配置,比如UPS的并机线、配电柜的ATS模块,蓄水池的浮球阀等等,这种容易被忽视的器件很容易影响整体的可靠性。

案例 :2021年黑龙江某运营商数据中心,空调配电柜的市电和U电输入均正常,但是输出频繁闪断,末端空调无法正常运行,导致数据机房快速温升,从而引发事故。经判断为空调配电柜ATS模块故障,且配电柜无旁路输出模式。

《数据中心设计规范》(GB 50174-2017)中8.1.17条款规定,正常电源与备用电源之间的切换采用自动转换开关电器时,自动转换开关电器宜具有旁路功能,但并不是强制执行。

4.升级引发问题

升级过程也是控制系统故障的高发时期,在运营过程中比较常见,版本的兼容性、适配性,以及升级前后的操作、参数设置等等都是重要的原因。

案例 :2023年,某行业数据中心在升级动环监控系统时,因新旧协议不兼容,导致部分空调设备通信中断,运维人员未能及时发现异常,引发数据机房内出现局部热点,触发客户SLA条款,产生高额索赔。

5.硬件质量问题

硬件质量问题和人为操作失误都是比较常见的控制系统故障原因,也是难以100%避免的原因,只能从日常运维和制度方面加强管控,从应急方面快速处置。

案例 :2022年,某运营商数据中心因UPS监控模块故障,对蓄电池健康状态缺乏实时监测,未能及时检测到电池组电压异常,导致在市电突发中断时UPS无法正常切换,造成核心业务服务器大量宕机。


04

控制系统故障应对措施

1、国标仅仅只是最低标准

数据中心行业现行的标准有很多,按严格程度来排序,通常国家标准<行业标准<地区标准<企业标准。管理的越宽,适配性就要越强,严格程度就会相应变低。国家标准只属于最低标准,是底线和及格线。

数据中心的各类控制系统在设计和建设过程中,一定要多听听后期真正使用的运营人员的意见和建议,要更多的结合实际做一些个性化的优化和调整,适当的提高标准,而不是只简单的满足国标。某种意义上讲,符合国标只是对设计人员的一种保护。

如果一个设计院设计的产品只是为了达到标准,而不是为了实际应用,那一定不是一个好的设计院,设计人员也必定不能被称为设计师。

2、测试验证是最关键环节

对运营人员来说,系统一旦通过初验,将进入试运行阶段,压力就转到了运营。因此,运营人员在正式接维前,不但要顶住赶工期、客户着急入住等压力,按标准进行完整、全量的测试验证,还要敢于进行一定的压力测试和容错性测试。

只有这样才能将可能存在的隐患暴露出来,才能将需要特定条件才能显现的潜在问题暴露出来,避免后期出现突发事故时措手不及。

一旦试运行结束转入正式运行,压力就完全转到了运营,无论再发生哪类事故,相应的责任都将算到运营方面,所以千万要利用好测试验证这一重要环节,也是对自我的一种保护。

3、人员能力必须同步提升

正常情况,各控制系统在投产后都已设置好运行逻辑,运营人员不需要过多的参与。但是,随着业务变化、容量调整、系统升级等原因,必然要进行一些优化,这就需要运营人员要具备一定的逻辑和控制能力。

比如,电气系统整定值逻辑、系统切换逻辑、油机并机逻辑等,暖通系统管道压力、流速、流量等控制逻辑,数据机房温场微调逻辑,蓄冷罐并网和双管道切换逻辑等。

绝大多数的可控单元都有手动和自动两种控制模式。人工现场操作慢慢被系统操作所替代,现场操作已经变成了故障处理和应急处置的一种措施,而非常规化的操作。

这反而对人员的系统逻辑控制能力、全系统理解能力提出了更高要求,传统的“老电工”、“老水暖工”可能已经无法适应,需要同步提升。

4.升级全过程都要做好充分准备

控制系统升级类操作或者控制模块更换类操作,要在前、中、后三个阶段都做好充分准备,而升级前和升级后的工作很容易被忽略和忽视。

1)升级前重点是评估和预防

①对现状评估:对现有控制系统拓扑图,确认硬件型号、软件版本、通信协议及第三方接口情况进行综合评估。

②对方案评审:组织现场技术人员、操作人员和技术专家对方案可行性进行技术性评审,重点在操作性、冗余性和完整性方面;必要时,需联合设备厂家、上下游厂家,以及相关专业,对方案进行综合审议。

③对风险评估:找到风险点,针对升级过程进行节点划分(如控制器切换阶段),模拟潜在隐患(如通信中断),找到整个过程的重要风险点和制定预案;建立回退机制,模拟升级失败后,快速的系统回退和业务恢复。

④对备件检查:做好环境的保护,工具、备品备件齐全的检查。

2)升级中重点是可控和应急

在控制系统升级过程中,需通过分阶段操作、实时监控、快速响应机制确保升级过程可控,避免对生产造成不可逆影响。

3)升级后重点是验证和观察

控制系统升级或者控制模块更换后,理论上要进行与系统、设备验收时一样的全量测试验证操作。比如UPS并机控制模块更换后,要进行并机、切换、转旁路等一系列操作,保证可用性和有效性。

同时,要预留一定时间的观察窗口,人员和备件不要撤离,确保一旦出现问题及时恢复。


5.事后恢复与事前预防同样重要

任何系统、任何操作无论防范措施做得多完美,都无法确保100%不出问题。

一方面要做好事故发生前的预防、一方面要做好事故发生中的应急,一方面还要做好事故发生后的恢复。应急是事故处理的最后一道屏障,快速恢复则是减少损失的一种重要方式。

数据中心按照规范,要定期分级开展平台级、系统级、数据级备份,定期做数据恢复验证,而且要确保备份的数据进行多份、异地、分散存储。

但是很多数据中心实际工作中并不达标,很难保证在事故发生后实现快速、全量的系统和数据恢复。

不要因为事后恢复意味着已经发生了事故,就不敢与上级讨论,不敢与客户交流。要记住,事后快速恢复是一旦发生突发事件后,减少损失的重要措施。


数据中心是从传统的基础设施服务商发展而来,管理者很容易忽视控制系统的重要性,各级运营人员在工作中也很容易忽略其价值,因此出现突发事件时极易引发事故。运营人要从设计标准、测试验证、人员能力、升级管控和事后恢复等多方面做好准备,提前应对,才能确保业务系统的连续性。


作者:车凯


CDCC专家技术组委员、联通数字科技有限公司安全管理、高级工程师。“2021数据中心科技成果奖青年科技人才奖”获得者。

关注我们获取更多精彩内容


往期推荐

● 全新会议日程璀璨揭幕!3月27日,相聚杭州,邀您共赴一场融合前沿科技与智慧光芒的盛会!

● 2025中国数据中心液冷技术大会 | 华信咨询设计研究院携手打造行业独家专场盛宴!

● 2024全球液冷数据中心落地案列分享







请到「今天看啥」查看全文