摘要:
本文旨在研究数据中心冷板式液冷监控系统,其中包括液冷冷源自控系统和液冷机房动环监控系统两部分内容。为了确保液冷系统的稳定、高效运行,设计一套有效的监控系统是至关重要的。本文主要研究了数据中心冷板式液冷监控系统的设计和实现。通过工程案例实践,该监控系统在提高数据中心液冷系统可靠性与降低能耗方面效果显著,为相关领域研究提供了参考。
伴随人工智能技术的出现,算力基础设施的建设与日俱增。算力提升必然伴随芯片能耗的增加,传统的风冷冷却方式已经难以满足高密度和高性能服务器的散热需求。在“双碳”宏观形势下,数据中心作为耗能大户,国家及政府部门对数据中心PUE监管越发严格。液冷技术作为一种高效、节能、环保的散热方式,通过冷却液体与服务器直接进行热交换,提高换热效率,能够有效降低PUE,逐渐成为新形势
下业界主流的制冷解决方案。本文结合某智算中心项目,针对冷板式液冷监控系统的设计及应用展开讨论,最终保障液冷系统稳定高效运行。
某智算中心冷板式液冷散热方式分为两部分。一部分是服务器芯片、内存等高发热元件的热量通过冷板间接传递给液体进行散热;另一部分是硬盘、电源、接口卡等低发热元件仍通过风冷散热,即通过高压冷水机组制冷再由末端空调通过风冷形式进行热量交换。根据工艺专业条件,冷板式液冷机柜
65%
~
70%
的热量由机柜内的冷板带走,
30%
~
35%
的热量由冷冻水型列间空调带走。
某智算中心是在原水冷系统基础上进行改建,在前期机电配套工程中,
1
层制冷站内建设
4
套
10kV
高压离心式冷水机组,配套板式换热器、开式逆流冷却塔和冷冻冷却水泵等,并建设有
1
套
PLC
控制架构的冷源群控系统。本期新建
3
套液冷冷源系统,
2
用
1
备运行。单组换热量
6000kW
,包括水处理装置、加药装置、循环水泵和闭式冷却塔等设备。液冷系统采用一次泵变流量系统,循环水泵采用变频调速控制,空调末端水管采用电动二通阀控制流量,冷却水系统采用闭式循环系统。为提高系统的安全性,冷却水干管均设置成环路,任何一路冷水或设备故障,均不影响关键负荷
100
%运行,并保证在线维护的需要。
根据暖通工艺设计,冷板式液冷系统分为一次侧外循环(冷源端)与二次侧内循环(热源端)两个分离的子系统。这两个子系统通过板式换热器进行高效换热,实现热量的转移,如图
1
所示。液冷服务器通过管道与冷量分配单元
CDU
的二次侧连接,用以转移液冷服务器的热量,此为二次侧循环。冷量分配单元
CDU
的一次侧通过管道与冷却塔连接,用以对外散热,此为一次侧循环。液冷监控系统以
CDU
为界,将冷板式液冷系统划分为冷源自控系统和动环监控系统两部分。冷源自控系统主要监控一次侧循环设备;动环监控系统主要监控二次侧循环设备
CDU
以及机房内温湿度、漏水、配电柜、空调等设备。
冷源自控系统主要负责一次侧循环设备的监控,包括闭式冷塔、冷却水循环泵、定压补水装置、加药装置、水处理装置、中转补水装置、混合水箱、乙二醇溶液补水箱、电动阀、传感器及电伴热等设备组成,如图
2
所示。冷源自控系统采用
PLC
架构,系统配置主备
CPU
控制器与水冷冷源群控系统的
CPU
控制器分开设置,独立运行,互不干扰。系统平台、主备服务器、双机热备软件与前期水冷冷源群控系统共用,方便后期维护人员统一管理。
冷源自控系统能够实现能量积算、温度控制、机组及配套组件的自动投入或退出、机组的均衡运行,实现液冷冷源系统智能化运行,达到可靠、经济运行的目的。
冷却塔配置负荷调节、运行状态、故障显示与报警、完备的控制及自保护装置,可实现机组空调出水温度的控制和调节能量等功能,机组配备标准通信接口。冷却水泵和闭式冷却塔进行联锁控制,制冷系统开启时先开启相对应的冷却水泵和冷却塔进水管上的电动蝶阀、冷却水循环泵、冷却塔风机,停机顺序与上述相反。
冷却塔是液冷系统热交换的重要组成部分,其性能的优劣将直接影响系统的能耗。常规的冷却塔控制方法是依据冷却回水温度控制冷却塔开启台数或风机频率,这是大部分空调冷却水系统现行的控制方法,该系统采用冷却塔出水温度与室外湿球温度的差值(也就是研究领域称为逼近度),运行良好的冷却塔出水温度应该比室外湿球温度高
3℃
~
5℃
。室外温湿度通过传感器采集,然后通过计算得出室外湿球温度,根据逼近度和室外湿球温度调节冷却塔运行台数和风机频率。
液冷机房动环监控系统主要负责对数据中心外部的液冷设备进行实时监测和告警,包括
CDU
监控和机柜管理系统等部件。
CDU
是连接一次侧和二次侧的关键设备,需要监测其进出水温度、压力和流量等参数;机柜管理系统主要负责监控服务器内
CPU
等高热部件上的冷板,监测其温度、压力和泄漏情况;机柜管理系统同时负责监控服务器电源模块,监测其电压、电流和功率因数等数据。
CDU
的控制与液冷柜没有关联,根据二次侧供回水温度和压力等参数调节二次侧水泵。二次侧供回水温度为设定值,可根据需要现场或者远控调节,系统不能自行调节;
CDU
自带电动比例式调节阀,一次侧根据二次侧的供回水温度来自动调节阀门的开启度。每个
CDU
设有储液罐,系统缺液时能自动补液;储液罐具有缺液告警功能,可以上传到动环系统。低
PUE
模式下,
CDU
按照定出水温度控制,出水温度值设定为
35℃
,此时内置一次侧比例阀自动依据供水水温调控。二次侧采用定压差控制逻辑,保证末端散热。服务器节能控制模式下,
CDU
根据实际情况进行设定二次侧出水温度,保障
CDU
无高温报警前提下,尽可能低设置其出水水温。
CDU
自带控制器,相关监测告警见表
1
,数据上传动环监控系统。
1
)
CDU
自带温度和湿度传感器,检测环境温湿度,自动计算露点温度。
2
)
CDU
告警包含并不限于漏液监控功能、高温告警功能、循环泵故障告警提示等功能,具备工质压力检测并能上报状态,具有冷却液的缺液告警和补液功能,并可上报故障给动环监控系统。
3
)液冷
CDU
可通过温湿度传感器对机房的温湿度进行监控,并计算出当前露点温度。当二次侧冷却介质温度接近露点温度时,自动提升冷却介质供液温度,并及时告警。
4
)液冷
CDU
相关部件应具有内部检测功能,发生故障时可告警,故障信息可上传至动环监控系统,通过通信接口输出故障信息,为维修检测系统提供支持。
5
)液冷
CDU
内部安装有泄漏检测传感器,在传感器检测到冷却介质发生泄漏时,系统将发出告警信号,并可以自动将告警信息上传至上位机。
6
)当二次侧进回水压差、过滤器压差、换热器压差等发生异常时,自动将告警信息上传至上位机。
7
)当水的电导率、浊度满足液冷运行时,
CDU
应告警,阈值可以设置。
机柜管理系统主要提供液冷机柜管理功能,包括资产管理、电源模块管理、功耗管理和液冷漏液检测等功能,具体要求见表
2
。
1
)液冷机房内
CDU
及二次管道较多,管路布置复杂,需加强管道接口和阀门区域的漏水监测。
2
)部分厂家机柜管理系统协议与动环监控系统接口协议不兼容,动环监控厂家需要提前开发适配,且每台液冷机柜均配置一套机柜管理系统,设计侧需要格外配置接入交换机用于机柜管理系统的接入服务。
3
)隔膜式气压罐的压力和低压声光报警信号需要引至值班控制室内。
4
)为便于后期维护,建议加药装置具备药剂浓度检测及电导率检测功能,实现系统自动加药及自动排污。
5
)所有重要设备如冷却水泵、冷塔风机、电动控制阀需采用双
DO
控制,能够具备自保持功能,并且就地控制箱能够实现现场操作。
某智算中心于
2024
年初正式投入使用,经过近一年的运行测试,液冷监控系统能够准确高效地处理监控告警信息,自动化程度高,响应及时,在各方面达到设计预期。同时,冷源自控系统及动环监控系统通过北向接口接入园区集成监控管理系统,使得液冷监控系统有机结合在一起。未来通过结合数据中心训练的
AI
节能调优机理算法模型,实现暖通系统精确动态按需制冷、集中管理、寻优控制及自动调整,进一步降低数据中心
PUE
,助力用户持续降低运营成本。
本文所研究的数据中心冷板式液冷监控系统,在保障系统稳定高效运行、降低能效与提高可靠性方面展现出了显著的优势。未来,随着技术的不断进步与应用的深入,期待这一系统能够进一步优化与完善,为数据中
心行业的绿色、可持续发展贡献更大的力量。同时,也希望本文的研究成果能够为广大数据中心建设者、运维人员及相关领域的研究者提供有益的参考与借鉴。
免责声明:文章仅代表作者个人观点,不代表CDCC立场,转载仅供读者参考,如有侵权请与我们联系,24小时内删除!