专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
数据中心运维管理  ·  国内数据中心综合能耗及其灵活性预测 ·  2 天前  
非法加冯  ·  PostgreSQL取得对MySQL的压倒性优势 ·  19 小时前  
非法加冯  ·  PostgreSQL取得对MySQL的压倒性优势 ·  19 小时前  
非法加冯  ·  对比Oracle与PostgreSQL事务系统 ·  2 天前  
Alibaba Cloud International  ·  刷新世界纪录!阿里云PolarDB凭借创新的 ... ·  2 天前  
Alibaba Cloud International  ·  刷新世界纪录!阿里云PolarDB凭借创新的 ... ·  2 天前  
数据中心运维管理  ·  能源行业加大力度解决数据中心电力短缺问题 ·  3 天前  
51好读  ›  专栏  ›  数据中心运维管理

超大型数据中心基础设施全生命周期维护模式的研究与应用

数据中心运维管理  · 公众号  · 数据库  · 2025-02-28 14:43

正文

摘 要: 数据中心正在向超大规模、高度集中、绿色节能的方向发展,如何保证数据中心持续安全、稳定的运行,减少人为原因造成的事故发生,同时有效降低能耗成本就成了亟待解决的问题。对超大型数据中心基础设施运行维护进行了研究,提出了全生命周期的维护模式,并结合在某运营商(呼和浩特)数据中心的应用情况,分析了模式的特点及可推广性。
关键字:数据中心;基础设施;全生命周期;运维管理
“十三五”规划提出大数据战略,加速数字中国建设。数据中心支撑集团“大连接”战略,正朝超大规模、集中、绿色节能发展。超大型数据中心对运维水平要求更高。集团调研发现数据中心运维管理存人员素质低、效率低、体系不健全等问题。本文提出将全生命周期管理理念融入基础设施维护,提出创新方法,标准化指导,保障数据中心安全稳定运营,实现节能降耗,响应绿色发展理念。
1.数据中心基础设施维护存在的难题
1.1 数据中心宕机事件频发
目前,国内外各大数据中心宕机事件频发,且均对业务造成重大影响。例如:
国内事件
1)湖南电信大楼火灾导致的宕机事件,
时间:2022年9月16日,事件概述:湖南电信大楼发生火灾,为防止发生危险,大楼部分设备断电,导致部分用户手机语音和短信功能受到影响。
2)某云香港机房制冷设备异常导致的宕机事件, 时间 :2020年8月, 事件概述:机房制冷设备出现异常,导致服务器宕机。
国外事件
1)韩国SK公司C&C板桥数据中心火灾导致的宕机事件, 时间 :2022年10月15, 事件概述 :数据中心发生火灾,导致韩国国民级聊天软件 Kakao Talk 、主流电商平台NAVER等在内的众多网络服务中断。
2)谷歌数据中心爆炸导致的宕机事件, 时间 :2022年8月8日, 事件概述 :数据中心发生爆炸,造成3人受伤,多个地区的谷歌地图、谷歌搜索出现中断服务情况。
3) 欧洲云计算巨头OVH数据中心火灾导致的宕机事件, 时间 :2021年3月10日, 事件概述 :数据中心发生严重火灾,导致法国政府、企业与公共事业网站等多个服务中断。
4) 微软Azure数据中心服务中断事件, 时间 :2020年3月3日, 事件概述 :数据中心发生服务中断,持续六小时,导致客户无法使用Azure云服务。
5) 巴西数据中心雷击事件, 时间 :2025年1月23日, 事件概述 :数据中心遭到雷击,导致其数字服务无法使用,巴西交通运输部(Detran)服务中断。
这些事件表明,数据中心的基础设施维护至关重要,任何疏漏都可能导致严重的宕机事件。因此,数据中心运营商需要加强对基础设施的监测和维护,确保数据中心的安全稳定运行。
大量宕机事件频繁涌现,深入剖析其背后的原因,不难发现,这主要是由于运维团队未能全面遵循并严格执行国家对于数据中心基础设施运维管理的严格标准与规范。或者,这些标准本身可能存在一定的局限性和不完善之处,更重要的是,缺乏一个系统化、精细化且全面的维护管理体系,以有效应对数据中心复杂且庞大的基础设施运维需求。由此可见,当前数据中心的运维管理水平与其日新月异的发展速度之间存在着显著的脱节,亟需更专业、更深入的运维管理策略与体系来支撑和保障。
1.2 数据中心基础设施维护目前面临的三大关键难题
1)如何保障数据中心持续安全、稳定运行?
一般数据中心关注于故障后响应,供电与制冷系统若出现问题将对业务造成重大影响,因此需要一整套完善的维护制度,主动预测维护,采取措施防患于未然。
2)如何有效降低数据中心能耗成本?
据中国数据中心工作组统计,数据中心运营成本中电费成本占比约64%,PUE降低0.1,电费平均下降6.7%。超大型数据中心能耗高,更需要行之有效的能耗管理。
3)如何减少人为原因造成的事故发生?
数据中心发生的各类故障,据行业内统计,70%与人为操作有关。因此,明确而稳健的维护规程,精准而有效的检查、维护及演练流程十分重要,同时要加强人员培训。
集团调研多个数据中心,发现基础设施运维管理确实存在问题,所以将其纳入重点工作,可见集团在体系建设上也存在迫切需求。综上所述,数据中心基础设施维护迫切需要一套标准化、规范化、流程化的运维体系。
2.超大型数据中心基础设施全生命周期维护模式
超大型数据中心作为新生事物,与传统枢纽楼有明显不同,对运行维护有着更高的要求。为克服维护专业化程度高、维护经验少、客户要求高的三大困难,我们探索出一套符合数据中心自身特点的基础设施全生命周期维护模式,其中包含了接维期、维护期、优化期、退服期4个阶段,主要涵盖7大类、30余项维护类目,共同确保数据中心机房设备的稳定、安全、可靠运行。
图片
图1 基础设施全生命周期维护模式
2.1“严格把关”工程交接维
工程接维要为后期的设备运维奠定良好的基础,传统的接维验收缺少对整改过程的把控与记录,我们标准化了接维检查表,细分专业、整改进度,整改对比,做到大病不验收,验收即接维。
图片
图2 标准化的接维检查表
2.2“三维一体”维护模式
“三维一体”维护模式主要包括:深度巡检,预防性维护,预测性维护。
1)深度巡检
为了保障园区安全生产,实时管理巡检人员巡检频次和巡检到位率,量化考核维护巡检工作,独特的采用三种巡检方式相结合的模式:
▶ 电子巡更系统,提升巡检到位率;
PAD巡检系统,操作方便智能,加强监管;
巡检电子档案,实时统计,总结分析,安全可靠;
图片
图3 传统巡检与深度巡检对比
2)预防性维护
为了保障设备正常运行,预防性维护要行之有效且落到实处,全生命周期维护模式在这方面提出两点创新:
“两级检查”:严格执行预防性维护作业计划,标准化维护内容表格,特别明确维护的发起人及检查人制度,确保维护质量。
融合全生命周期设备管理概念:按照生命周期内设备及配件在投入运行一定年限后,需要进行更换的计划,并建立二次投资的时间和金额及时纳入预算,消除设备隐患。
按期执行周期性维护作业计划,月均处理电源、空调设备及蓄电池潜在故障占月故障的30%,预先发现问题并及时消除故障隐患,提高设备的使用效能。标准化维护表格66份,涵盖维护细项436项。
3)预测性维护
为了主动预测设备的故障发生,我们建立了预测性分析制度,根据巡检人员采集的实时数据,针对数据中心设备运行状态进行的预测性分析,摸索规律,找出薄弱环节,有针对性的制定防止故障的措施,减少事故发生。
采集数据:协维人员每日记录两次设备参数,整理、比较每日数据,于每个月汇总后,查看有无异常变化。
分析趋势:已建立电气温度、蓄电池相关参数的常态化分析,以及异常数据专题分析,并出具分析报告。
预防措施:专业负责人负责整个预防性维护工作的策划及管理;当发现异常情况及时进行分析,并提出相应的技术措施。
2.3“秒相应”应急演练
根据应急演练计划实时制定演练方案组织各专业维护人员进行不同故障级别的演练,并在演练后撰写应急演练报告,形成电子档案。通过进行设备故障应急演练对维护人员进行现场指导培训,确保维护人员能熟练操作整个过程,同时提高维护人员在事故发生时的应急处理能力,使故障危害降到最低,确保设备安全可靠运行。全生命周期维护模式在这方面提出以下创新:
“0预警、0通知”:演练计划只明确每月内容,由演练负责人及相关主管在本月内随机发起应急演练,使得每一次演练过程都堪比真实的故障处理,标准化应急演练场景136个。
演练级别:重大节假日保障+多专业联合应急演练+系统设备故障演练
“练前+练中+练后”:演练前,制定周密方案;演练中,专家现场指导培训;演练后,全面分析问题,并及时修订相应流程。
2.4“闭环式”故障分析
建立三种“闭环式”故障分析模式,通过记录事件,转化问题,不仅有效的分析了当前的故障,也积累了丰富的案例基础。
图片
图4 “闭环式”故障分析模式
2.5“绿色高效”能耗管理
为了加强云计算数据中心能耗管理,通过管理节能降低能耗,节约运行维护成本;通过维护保养节能提高能源利用效率,延长设备使用寿命;通过创新节能响应集团绿色计划要求,提升客户感知。
为实现节能减排这一目标,我们通从电源、空调两大系统8大方面着手展开工作,以制定计划、现场测试、综合对比为手段,以节能降耗为目标,实现园区绿色、节能、环保的设计理念。
余热再利用:为保证数据中心蓄电池组高效运行,将电力电池室的余热通过对流导入至电池室。
智能休眠模式:在开关电源系统负荷较小时开启开关电源系统的智能休眠节电模式,实现整流模块的智能休眠控制。
智能电池管理:采用智能电池管理技术,智能放电终止电压控制等,从而减小温度、充电、放电对电池寿命的影响。
人体感应灯管:针对无光源的走廊,选择了人体感应照明方式;光控+人体感应的照明方式,实现了人来灯亮,自动延时熄灭。
优化气流组织:机柜按照冷热通道分隔的方式布置,更有效的推动服务器散发的热量从机柜上方回风。
温度场模拟:针对中心机房气流组织特性的数值分析与模型实验,模拟内部的气流得到最优冷量配置的效果。
质检实验室:建立水质监测实验室,定时进行冷冻水、冷却水水质、及离子浓度检测,时刻把控制冷效率。
软化水系统:利用软化水系统对内循环水进行软化处理;对于外循环系统,对系统内水质定期进行水质监测。
通过一系列的节能手段,仅B02机房楼耗电量同比下降17.03%,耗水量同比下降28.86%,可见节能效果十分明显。
2.6“高性能”容量管理
收集、分析容量需求,基于性能分析与资源评估结果,结合容量需求,预测未来资源需求,确定容量管理目标。
为计划内的容量需求组织和分配资源,并根据资源状况为计划外容量需求分配资源,应对与容量有关的性能进行监视、阈值检测、分析和调整,并实施与性能和容量有关的变更。
2.7“平稳过度”退服管理
设备因使用年久或其它原因,经维修达不到质量要求时,经技术评估,符合报废条件的,可提出纳入退网管理,并提出更新改造计划。
1)根据设备类型规定更新年限与报废条件,未到规定使用年限,但设备损坏严重,经过技术鉴定后进行更新改造;






请到「今天看啥」查看全文