专栏名称: CDCC
数据中心标准、技术沟通交流平台
51好读  ›  专栏  ›  CDCC

超大型数据中心基础设施全生命周期维护模式的研究与应用

CDCC  · 公众号  ·  · 2025-02-28 11:39

主要观点总结

本文介绍了超大型数据中心基础设施全生命周期的维护模式。针对数据中心宕机事件频发的问题,提出将全生命周期管理理念融入基础设施维护,提出创新方法,标准化指导,保障数据中心安全稳定运营,实现节能降耗。文章还介绍了应用效果和分析,以及会议信息。

关键观点总结

关键观点1: 数据中心基础设施维护存在的问题

数据中心宕机事件频发,对业务造成重大影响。基础设施维护面临三大关键难题:如何保障数据中心的持续安全、稳定运行;如何有效降低数据中心能耗成本;如何减少人为原因造成的事故发生。

关键观点2: 超大型数据中心基础设施全生命周期维护模式

探索出一套符合数据中心自身特点的基础设施全生命周期维护模式,包括接维期、维护期、优化期、退服期4个阶段,主要涵盖7大类、30余项维护类目,共同确保数据中心机房设备的稳定、安全、可靠运行。

关键观点3: 应用效果分析

通过全面实施基础设施全生命周期维护模式,提升了维护水平,降低了人工成本,创新优化运维,节省了大量电费支出。同时,通过主动预测,隐患整治,避免了可能的重大损失。

关键观点4: 会议信息

第三届数据中心液冷大会将于2025年3月27日在杭州召开,会议将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇。


正文

请到「今天看啥」查看全文


摘 要: 数据中心正在向超大规模、高度集中、绿色节能的方向发展,如何保证数据中心持续安全、稳定的运行,减少人为原因造成的事故发生,同时有效降低能耗成本就成了亟待解决的问题。对超大型数据中心基础设施运行维护进行了研究,提出了全生命周期的维护模式,并结合在某运营商(呼和浩特)数据中心的应用情况,分析了模式的特点及可推广性。
关键字:数据中心;基础设施;全生命周期;运维管理
“十三五”规划提出大数据战略,加速数字中国建设。数据中心支撑集团“大连接”战略,正朝超大规模、集中、绿色节能发展。超大型数据中心对运维水平要求更高。集团调研发现数据中心运维管理存人员素质低、效率低、体系不健全等问题。本文提出将全生命周期管理理念融入基础设施维护,提出创新方法,标准化指导,保障数据中心安全稳定运营,实现节能降耗,响应绿色发展理念。
1.数据中心基础设施维护存在的难题
1.1 数据中心宕机事件频发
目前,国内外各大数据中心宕机事件频发,且均对业务造成重大影响。例如:
国内事件
1)湖南电信大楼火灾导致的宕机事件,
时间:2022年9月16日,事件概述:湖南电信大楼发生火灾,为防止发生危险,大楼部分设备断电,导致部分用户手机语音和短信功能受到影响。
2)某云香港机房制冷设备异常导致的宕机事件, 时间 :2020年8月, 事件概述:机房制冷设备出现异常,导致服务器宕机。
国外事件
1)韩国SK公司C&C板桥数据中心火灾导致的宕机事件, 时间 :2022年10月15, 事件概述 :数据中心发生火灾,导致韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。
2)谷歌数据中心爆炸导致的宕机事件, 时间 :2022年8月8日, 事件概述 :数据中心发生爆炸,造成3人受伤,多个地区的谷歌地图、谷歌搜索出现中断服务情况。
3) 欧洲云计算巨头OVH数据中心火灾导致的宕机事件, 时间 :2021年3月10日, 事件概述 :数据中心发生严重火灾,导致法国政府、企业与公共事业网站等多个服务中断。
4) 微软Azure数据中心服务中断事件, 时间 :2020年3月3日, 事件概述 :数据中心发生服务中断,持续六小时,导致客户无法使用Azure云服务。
5) 巴西数据中心雷击事件, 时间 :2025年1月23日, 事件概述 :数据中心遭到雷击,导致其数字服务无法使用,巴西交通运输部(Detran)服务中断。
这些事件表明,数据中心的基础设施维护至关重要,任何疏漏都可能导致严重的宕机事件。因此,数据中心运营商需要加强对基础设施的监测和维护,确保数据中心的安全稳定运行。
大量宕机事件频繁涌现,深入剖析其背后的原因,不难发现,这主要是由于运维团队未能全面遵循并严格执行国家对于数据中心基础设施运维管理的严格标准与规范。或者,这些标准本身可能存在一定的局限性和不完善之处,更重要的是,缺乏一个系统化、精细化且全面的维护管理体系,以有效应对数据中心复杂且庞大的基础设施运维需求。由此可见,当前数据中心的运维管理水平与其日新月异的发展速度之间存在着显著的脱节,亟需更专业、更深入的运维管理策略与体系来支撑和保障。
1.2 数据中心基础设施维护目前面临的三大关键难题
1)如何保障数据中心持续安全、稳定运行?
一般数据中心关注于故障后响应,供电与制冷系统若出现问题将对业务造成重大影响,因此需要一整套完善的维护制度,主动预测维护,采取措施防患于未然。
2)如何有效降低数据中心能耗成本?
据中国数据中心工作组统计,数据中心运营成本中电费成本占比约64%,PUE降低0.1,电费平均下降6.7%。超大型数据中心能耗高,更需要行之有效的能耗管理。
3)如何减少人为原因造成的事故发生?
数据中心发生的各类故障,据行业内统计,70%与人为操作有关。因此,明确而稳健的维护规程,精准而有效的检查、维护及演练流程十分重要,同时要加强人员培训。
集团调研多个数据中心,发现基础设施运维管理确实存在问题,所以将其纳入重点工作,可见集团在体系建设上也存在迫切需求。综上所述,数据中心基础设施维护迫切需要一套标准化、规范化、流程化的运维体系。
2.超大型数据中心基础设施全生命周期维护模式
超大型数据中心作为新生事物,与传统枢纽楼有明显不同,对运行维护有着更高的要求。为克服维护专业化程度高、维护经验少、客户要求高的三大困难,我们探索出一套符合数据中心自身特点的基础设施全生命周期维护模式,其中包含了接维期、维护期、优化期、退服期4个阶段,主要涵盖7大类、30余项维护类目,共同确保数据中心机房设备的稳定、安全、可靠运行。
图1 基础设施全生命周期维护模式
2.1“严格把关”工程交接维
工程接维要为后期的设备运维奠定良好的基础,传统的接维验收缺少对整改过程的把控与记录,我们标准化了接维检查表,细分专业、整改进度,整改对比,做到大病不验收,验收即接维。
图2 标准化的接维检查表
2.2“三维一体”维护模式
“三维一体”维护模式主要包括:深度巡检,预防性维护,预测性维护。
1)深度巡检
为了保障园区安全生产,实时管理巡检人员巡检频次和巡检到位率,量化考核维护巡检工作,独特的采用三种巡检方式相结合的模式:
▶ 电子巡更系统,提升巡检到位率;
PAD巡检系统,操作方便智能,加强监管;
巡检电子档案,实时统计,总结分析,安全可靠;
图3 传统巡检与深度巡检对比
2)预防性维护
为了保障设备正常运行,预防性维护要行之有效且落到实处,全生命周期维护模式在这方面提出两点创新:
“两级检查”:严格执行预防性维护作业计划,标准化维护内容表格,特别明确维护的发起人及检查人制度,确保维护质量。
融合全生命周期设备管理概念:按照生命周期内设备及配件在投入运行一定年限后,需要进行更换的计划,并建立二次投资的时间和金额及时纳入预算,消除设备隐患。
按期执行周期性维护作业计划,月均处理电源、空调设备及蓄电池潜在故障占月故障的30%,预先发现问题并及时消除故障隐患,提高设备的使用效能。标准化维护表格66份,涵盖维护细项436项。
3)预测性维护
为了主动预测设备的故障发生,我们建立了预测性分析制度,根据巡检人员采集的实时数据,针对数据中心设备运行状态进行的预测性分析,摸索规律,找出薄弱环节,有针对性的制定防止故障的措施,减少事故发生。
采集数据:协维人员每日记录两次设备参数,整理、比较每日数据,于每个月汇总后,查看有无异常变化。
分析趋势:已建立电气温度、蓄电池相关参数的常态化分析,以及异常数据专题分析,并出具分析报告。
预防措施:专业负责人负责整个预防性维护工作的策划及管理;当发现异常情况及时进行分析,并提出相应的技术措施。
2.3“秒相应”应急演练
根据应急演练计划实时制定演练方案组织各专业维护人员进行不同故障级别的演练,并在演练后撰写应急演练报告,形成电子档案。通过进行设备故障应急演练对维护人员进行现场指导培训,确保维护人员能熟练操作整个过程,同时提高维护人员在事故发生时的应急处理能力,使故障危害降到最低,确保设备安全可靠运行。全生命周期维护模式在这方面提出以下创新:
“0预警、0通知”:演练计划只明确每月内容,由演练负责人及相关主管在本月内随机发起应急演练,使得每一次演练过程都堪比真实的故障处理,标准化应急演练场景136个。
演练级别:重大节假日保障+多专业联合应急演练+系统设备故障演练
“练前+练中+练后”:演练前,制定周密方案;演练中,专家现场指导培训;演练后,全面分析问题,并及时修订相应流程。
2.4“闭环式”故障分析
建立三种“闭环式”故障分析模式,通过记录事件,转化问题,不仅有效的分析了当前的故障,也积累了丰富的案例基础。
图4 “闭环式”故障分析模式
2.5“绿色高效”能耗管理
为了加强云计算数据中心能耗管理,通过管理节能降低能耗,节约运行维护成本;通过维护保养节能提高能源利用效率,延长设备使用寿命;通过创新节能响应集团绿色计划要求,提升客户感知。
为实现节能减排这一目标,我们通从电源、空调两大系统8大方面着手展开工作,以制定计划、现场测试、综合对比为手段,以节能降耗为目标,实现园区绿色、节能、环保的设计理念。
余热再利用:为保证数据中心蓄电池组高效运行,将电力电池室的余热通过对流导入至电池室。
智能休眠模式:在开关电源系统负荷较小时开启开关电源系统的智能休眠节电模式,实现整流模块的智能休眠控制。
智能电池管理:采用智能电池管理技术,智能放电终止电压控制等,从而减小温度、充电、放电对电池寿命的影响。
人体感应灯管:针对无光源的走廊,选择了人体感应照明方式;光控+人体感应的照明方式,实现了人来灯亮,自动延时熄灭。
优化气流组织:机柜按照冷热通道分隔的方式布置,更有效的推动服务器散发的热量从机柜上方回风。
温度场模拟:针对中心机房气流组织特性的数值分析与模型实验,模拟内部的气流得到最优冷量配置的效果。
质检实验室:建立水质监测实验室,定时进行冷冻水、冷却水水质、及离子浓度检测,时刻把控制冷效率。
软化水系统:利用软化水系统对内循环水进行软化处理;对于外循环系统,对系统内水质定期进行水质监测。
通过一系列的节能手段,仅B02机房楼耗电量同比下降17.03%,耗水量同比下降28.86%,可见节能效果十分明显。
2.6“高性能”容量管理
收集、分析容量需求,基于性能分析与资源评估结果,结合容量需求,预测未来资源需求,确定容量管理目标。
为计划内的容量需求组织和分配资源,并根据资源状况为计划外容量需求分配资源,应对与容量有关的性能进行监视、阈值检测、分析和调整,并实施与性能和容量有关的变更。
2.7“平稳过度”退服管理
设备因使用年久或其它原因,经维修达不到质量要求时,经技术评估,符合报废条件的,可提出纳入退网管理,并提出更新改造计划。
1)根据设备类型规定更新年限与报废条件,未到规定使用年限,但设备损坏严重,经过技术鉴定后进行更新改造;
2)对于存在设计等先天缺陷,正常使用故障率高、维护成本支出超常的设备,经批准后,可提前报废。
3)对于已经到设备更新改造的时间,经过检测性能(或应急演练)仍然良好者,必须经过以下三个方面全部评估,通过方可在网运行:
该设备电气性能的关键指标测试结果达到现网设备质量管理要求;
该设备故障率不高于现网正常使用的同类设备;
经济效益评估,该设备的维保成本、备品备件成本、维修成本不高于现网正常使用的同类设备;
4)对超期服役设备需加强维护管理,特别是维保服务的管理,必须要求厂家能够提供维保服务,并做到备品、备件及时供应,维修到位。若无法实现,则及时提出更新改造需求进行替换。
3.应用效果分析
3.1 基础设施全生命周期维护模式——全面实施,提升维护水平
从年初开始,经过12个月的努力,数据中心完成了硬件设施信息统计测量等工作,并通过日常维护作业、完成作业计划及预防性维护工作等。经过三个月的流程固化,九个月认真践行与不断的优化完善,修订与新增47项管理办法,输出300余份标准化维护表格,最终将基础设施全生命周期维护模式在年初全面实施,对现场所有设备维护进行标准化指导,涵盖了基础设施管理的方方面面,共同确保数据中心机房设备的稳定、安全、可靠运行。截至目前,数据中心0重大故障、0安全生产事故。
3.2 基础设施全生命周期维护模式——总体效益
基础设施全生命周期维护模式标准化操作流程,减少了人员投入,降低了人工成本130万元;通过利用自然冷源以及创新优化手段相结合的方式节能降耗达162万元;最重要的是,通过主动预测,隐患整治,发现可能影响业务的故障隐患9次,避免了重大损失324万元。基于以上三个方面,在保障数据中心安全运行的同时,全年节省成本616万元。
1)降低人工成本
自数据中心全面实行全生命周期维护模式以来,严格执行标准化操作流程,减少人员投入,大大降低了人工成本,节省维护费用,据比较计算:
传统维护模式机房楼及配套设施所需要的各项维护工作人员64人;
全生命周期维护模式机房楼及配套设施所需要的各项维护工作人员46人;全年可节省人工成本:(64-46)*6000*12个月=130万元
2)创新优化运维
充分利用自然冷源优化能效。经数据对比分析,自然冷源模式下实现:
单机房楼每月节省电量14万kW.h,电费以0.3917计算,节约开支56842元,自然冷源利用全年可节约:56842*9.5=54万元;
能耗管理优化节约水、电费用:108万元
3)避免重大损失
全年完成机房深度巡检进行2456次,预防性维护作业105次,预测性维护作业65次,发现可能影响业务的故障隐患9次(依据集团全网重大故障定义,由于基础设施出现问题影响业务即为重大故障)
据权威机构测算,数据中心宕机成本每分钟51500元,平均宕机事件7分钟。
全年主动预测并排除隐患减少损失(设备宕机、生产安全等):9*51500*7=324万元
4.结束语
超大型数据中心基础设施全生命周期的维护模式,具有标准化、流程化、规范化的指导意义,而且普适性强,适用于数据中心和枢纽机房,更契合数据中心的发展趋势,满足了基础设施运维管理的迫切需求,有效地支撑了数据中心的安全稳定运行,节能降耗成果显著,同时也为集团打造了优质的品牌形象。
来源: 数据中心基础设施运营管理; 作者:朱林,李程贵,侯晓雯;文中略有修改。

第三届数据中心液冷大会”将于2025年3月27日在杭州召开 ,这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇,助力行业蓬勃发展。


关键词: 液冷、全栈、最佳实践、芯片、服务器、基础设施

嘉宾规模:500+专业人士

会议形式: 展览展示+主旨演讲+技术分享+应用案例参观

关注我们获取更多精彩内容


往期推荐

● DeepSeek会导致对智算中心的需求大幅减少吗?

● 聚焦创新力量,液冷技术大会首度落地杭州

● 数据中心建设热潮持续扩张,2025年欧洲将新增1GW托管容量







请到「今天看啥」查看全文