51好读  ›  专栏  ›  CDCC

阿里云&东南大学:大功率数据中心服务器浸没液冷性能实验研究

CDCC  · 公众号  ·  · 2025-03-25 11:55

正文

请到「今天看啥」查看全文



01

引言


随着新一代信息技术的迅猛发展,社会逐渐进入高度重视数字生产力的新时代。为提供现代信息社会发展所需的海量运算支持,数据中心的集成度、规模化和密度必然不断提升。预计到2030年,数据中心将占全球电力消耗总量的8%,单个数据中心机架的制冷需求将上升到30kW。然而,目前大部分数据中心仍采用传统风冷,只能满足单机架功率不超过15kW的制冷场景,且数据中心制冷能耗约占总用电量的30%~45%。因此,发展高效经济的制冷技术是未来数据中心高效安全运行的必然要求,可以大幅提升能源效率水平,促进相关清洁能源的应用[ 相较于其他方法(如热管和固液相变,液冷技术凭借散热能力强、噪音低、结构紧凑等优势,在数据中心冷却中获得了广泛关注。根据冷却剂是否直接与冷却对象接触,液冷技术分为间接液冷和直接液冷。与液冷板、微通道等间接液冷技术相比,浸没式液冷技术将电子设备直接浸没在冷却剂中,因此电子设备的传热能力和可变性得到进一步提高。现有研究表明,浸没式液冷可分为单相浸没式液冷(SPILC)和两相浸没式液冷(TPILC)]。王等人建立了以矿物油为冷却剂的泵驱动SPILC系统,与传统风冷系统相比,电子设备的最高温度和最大温度变化率分别降低了39.4%和74%。

Kanbur等[18]定量比较了SPILC和TPILC技术的冷却性能,结果表明,TPILC系统的COP是SPILC系统的1.72~1.79倍。总体而言,SPILC技术是一种更节能、高效、环保的解决方案。虽然SPILC与TPILC相比在冷却能力方面有所欠缺,但其结构简单、维护方便、安全稳定、成本较低,更适合大规模推广和商业化应用。目前,由于大多数浸没式冷却剂价格过于昂贵,很多学者在初期探索阶段多采用仿真的方法。Jithin等对SPILC进行了系统研究,结果表明,SPILC是一种更节能、高效、环保的解决方案。评估了不同冷却剂(即去离子水、矿物油和电子氟化物)对SPILC系统的冷却能力。他们发现去离子水比其他两种冷却剂更能抑制电子设备的温度升高。程等[20]设计了一种带有翅片散热器的泵驱动SPILC系统,并研究了其在不同流速和散热器材料下的传热性能。中央处理器(CPU)的温度与冷却剂的流速呈负相关,当冷却剂流速从0.4变为1.2m/s时,CPU温度下降了16.1%。温等[21]基于FC-40制备了5种新型纳米流体,并模拟其在SPILC系统中的应用,结果表明:AI-FC40由于热导率最高表现出最好的传热能力,且与未添加纳米粒子的FC-40相比,CPU最高温度降低了6.5%。Muneeshwaran等[22]利用正交分析对SPILC系统的散热器结构进行了数值优化,结果表明:与普通散热器相比,热管和均热板底座可分别使电气设备温度降低3.3℃和4.8℃。

相比于数值研究,对SPILC技术的实验研究相对较少,而且这些实验研究主要集中在冷却剂选择、运行条件和散热强化方面。Luo等[23]利用正交分析对SPILC系统的散热器结构进行了数值优化,结果表明:与普通散热器相比,热管和均热板底座可使电气设备温度降低3.3℃和4.8℃。设计了一种用于SPILC系统的新碳化硅基纳米流体,模拟表明,在高/低雷诺数下,与传统矿物油相比,3.7vol%/0.3vol%纳米流体可分别提高传热效果11.7%和11.4%。Hnayno等[24]实验了不同冷却剂应用于SPILC系统的性能,结果表明,当冷却剂黏度从4.6mPas变为9.8mPas时,冷却能力下降约6%。Shrigondekar等实验研究了SPILC系统在不同工况(即不同的进出口位置和循环流量)下的性能。采用T型进/出线布置的SPILC柜的最高温度和热阻与U型和Z型布置相比分别降低了4.9%和12.6%。

综上所述,当前关于泵驱动SPILC在数据中心应用的实验研究主要集中在芯片级(仅考虑CPU)[20,26]和模块级(仅考虑1U服务器主板)规模,而对系统级(即由两块或两块以上服务器主板组成的液冷柜)的研究相对较少。特别地,文献中芯片级和模块级规模研究中的电子设备总热负荷一般在100~300W之间,与实际应用中服务器的高散热要求有较大偏差。因此,开展高热负荷下泵驱动SPILC系统的系统级实验研究十分必要。此外,现有研究一般采用反重力流作为冷却剂,而Huang等[29]—[30]—[31]则较少。研究表明,自然对流对泵驱动SPILC系统冷却能力的影响不容忽视,而不同冷却剂流向(即反重力流和顺重力流)下SPILC系统中自然对流的发展必然会受到影响,从而影响SPILC性能。因此,彻底阐明不同冷却剂流向对泵驱动SPILC系统性能的影响机理至关重要。此外,虽然前期工作已经对SPILC系统中使用的不同冷却剂的冷却能力进行了比较,但对冷却剂热性质与泵驱动SPILC机组冷却能力的耦合关系研究尚处于初步探索阶段。特别是,冷却剂不同热性质对泵驱动SPILC热输送、流体流动和能效特性的影响程度及其相互关系机制仍需要进一步深入研究。为了实现浸没式液冷数据中心的高效可靠运行,现有研究对SPILC系统在不同工况下的运行特性进行了研究。但现有研究大多主要集中在SPILC的传热特性上,只有少数研究分析了工况对能耗水平的影响。值得注意的是,很少有研究深入探讨工况参数对SPILC系统性能的调节程度,以及为SPILC系统提供高效、可靠、低碳的运行控制策略。

针对SPILC领域存在的上述挑战,本文报告了一项数据中心SPILC的可视化实验研究。为此,本研究建立了一个包含多个服务器主板的系统级泵驱动SPILC实验平台,分析了液冷机柜内冷却剂的流向(顺重力和反重力)对SPILC系统冷却特性的影响机理。此外,研究了使用不同冷却剂的SPILC系统的传热特性、流动行为和能效。本研究揭示了SPILC特性与冷却剂热性质之间的内在联系。此外,本研究阐明了各种运行条件对SPILC性能的调控机制,从而为SPILC系统的实际运行提供理论和数据支持。

2

实验方法


2.1实验系统


为了分析SPILC系统的传热、动态流动和能效特性,本文构建了图1所示的SPILC实验平台。如图1(a)所示,SPILC实验平台主要由实验测试单元、流体循环单元、冷却单元和数据采集单元组成。实验测试单元包括浸液柜、演示服务器、液位计和电压调节器。演示服务器浸没在浸液柜中的电子氟化液(EFL)中。电压调节器可以调节演示服务器的输入功耗,液位计用于确保注入的EFL体积一致。流体循环单元包括齿轮泵、阀门和管道。齿轮泵用于调节EFL流速。冷却单元主要包括板式换热器、管道和冷却器。冷却器可以调节进入板式换热器的冷却水温度。数据采集单元包括温度变送器、压力变送器、齿轮流量计和功率计。为了获得EFL通过浸液柜的温升和压力损失,在浸液柜的进出口处布置了温度/压力变送器。此外,在齿轮泵的前后安装了温度/压力变送器,以监测内循环回路中的压力损失。此外,通过齿轮流量计监测EFL的体积流量。图1(b)给出了SPILC实验平台的照片。为最大限度地减少环境热损失的影响,浸液柜以及内外循环回路中的管线都包裹了隔热棉,并用锡箔封装。主要实验装置及其性能参数列于表1中。

图 1
图1 SPILC实验平台的(a)示意图和(b)照片

表1.主要器件的性能参数。


2.2 浸没Tank


液浸柜是SPILC系统的核心,其三维结构布局如图2所示。从该装配图可以看出,液浸柜主要由柜体外壳、EFL、演示服务器和辅助附件组成。柜体外壳由铝合金板焊接而成,尺寸为270×136×832mm,厚度为5mm。为了监测内部工作特性,液浸柜前面板上设有玻璃窗口。本次实验选择了三种不同的EFL(公司:浙江巨化,内部类型分别为EFL-1、EFL-2和EFL-3)作为浸没式冷却剂,探究不同EFL对SPILC系统性能的影响。这三种EFL的主要热性能列于表2中。

图 2
图2.浸液柜结构描述

表2 EFL (1bar)的主要热性能。


我们之前的研究表明,自然对流对泵驱动的SPILC系统的性能有影响[30]。为此,本实验考虑了EFL的两个流向(即顺重力流向和反重力流向),如图2(b)所示。值得注意的是,本实验中使用的服务器是自行设计的演示服务器,模仿刀片服务器的布局,其具体结构如图2(c)所示。每个演示服务器由印刷电路板(PCB)、演示芯片(即CPU和平台控制器中枢(PCH))及其散热器、双列直插式内存模块(DIMM)、电源单元(PSU)和硬盘驱动器(HDD)组成。根据我们之前的研究结果[30]和文献综述[27,32],DIMM、PSU和HDD对浸入式冷却性能的影响并不显著。因此,为简化实验,本研究不考虑热负荷对SPILC系统的影响,与文献一致。为方便后续讨论,本文将#1 PCB上的CPU1命名为CPU1-1,其他演示芯片也以相同方式命名。这些PCB均为市场上可买到的标准化单元,演示芯片的散热器由6061铝合金加工而成,假DIMM、PSU和HDD由尼龙(型号:PA6)制成。具体而言,演示芯片是与大功率聚酰亚胺电热膜(厚度:0.3mm)组合的热源模块,粘贴在金属块底面上。根据工程仿真经验,CPU等元器件的等效热导率为10~40W·m- K- 1

因此,本文选择不锈钢作为模拟芯片的金属块。值得注意的是,加热膜未与不锈钢块接触的一侧为绝缘体。此外,加热膜位于演示芯片和PCB之间。演示芯片的功率通过调节稳压器来调整,并通过功率计进行监控。为降低接触热阻,在演示芯片表面与散热器底座之间添加了导热硅脂No.TC-5888( λ =5.2Wm −1 K −1)。 表3给出了演示服务器上器件的关键信息。对于EFL区域,还包括T型热电偶,以监测浸液柜内EFL的温度均匀性。如图2所示(d)每块PCB上布置14个测温点,在距PCB表面15mm和40mm处粘贴热电偶。热电偶位置的选择主要是为了更准确的评估EFL内的温度均匀性,方便计算CPU附近的局部努塞尔特数。此外,在演示芯片和散热片表面的中心位置粘贴T型热电偶(精度:±0.5℃),以监测温度响应特性。

表3 演示服务器上主要设备的关键参数。


2.3 数据处理及不确定性分析

2.3.1 数据处理


为了定量分析SPILC系统的流动和热特性,在实验过程中对所有测点进行实时监测和记录。此外,根据实验数据提出了几个评价指标来评估SPILC系统的性能。对于传热特性,采用演示芯片外壳温度、演示芯片等效热阻和EFL温度变化指数作为评价指标。为了评估SPILC系统的动态流动特性,采用浸液柜进出口之间的EFL压降、内部循环回路压降和局部努塞尔特数作为评价指标。此外,采用数据中心通常使用的电源使用效率(PUE)作为评价能效特性的指标。

1) 等效热阻
引入等效热阻来评估冷却剂的散热能力,其定义为演示芯片外壳与入口冷却剂之间的热阻。

表4 直接 和间接测量参数的相对不确定度。


3

结果与讨论


3.1实验数据重复性验证

为保证本文实验数据的可靠性,在正式实验之前对SPILC实验平台进行了重复性验证。重复性验证中,浸液柜中演示芯片的总功率为1.75kW,冷却剂类型为EFL-1,冷却剂为反重力流向,EFL体积流量为2L/min,冷却水温度为15℃,EFL入口温度为18℃。图3给出了相同工况下三次重复实验中不同演示芯片的实测壳温(即 T d )。数据清楚地表明,三个不同批次的实验中测量结果的一致性良好。经统计分析,同一演示芯片在不同批次实验中壳温的最大绝对偏差仅为0.9℃,最大相对偏差为1.47%,均在实验误差允许范围内。结果验证了实验的可重复性,测量数据的准确可靠。
图 3
图3 实验重现性验证

图3显示,#2PCB上的CPU1和CPU2的外壳温度低于#1 PCB上的相应值。这是因为冷却液从浸液柜正面的下部进入,导致冷却液流向位于浸液柜后部的#2 PCB的分布更高。因此,位于#2PCB下部和中部的CPU的热传递得到改善。此外,由于来自上游CPU1的热障效应,CPU2的外壳温度与CPU1相比显著升高。值得注意的是,由于#2 PCB更靠近出口,因此它受到来自上游的热障的影响更大,导致与#1 PCB相比,#2 PCB上部的PCH散热恶化更严重。总之,演示芯片在PCB上的位置及其在浸液柜中的放置都对其浸没式冷却性能有显著影响。为保证服务器高效运行,大功率器件应布置在浸液柜主流方向的上游。

3.2 两种流向下SPILC系统性能比较


为了进一步探究冷却剂流向(即顺重力流和反重力流)对SPILC系统热传输、流动行为和能效特性的影响,本研究比较了相同工况(即浸液柜中芯片总功率为1.75kW,EFL-1冷却剂体积流量为2L/min,冷却水温度为15℃,EFL-1入口温度为18℃)下两种流动模式的实验结果。图4给出了两种冷却剂流向下浸液柜中演示芯片的外壳温度和热阻。数据显示,与顺重力方向流动的冷却剂相比,反重力方向流动的冷却剂可以导致演示芯片的外壳温度和热阻更低。统计分析表明,在浸没式液柜中,当冷却液逆重力方向流动时,CPU1-2的外壳温度和热阻分别比顺重力方向流动时降低了33.84%和55.55%。这种现象是由于自然对流的存在,冷却液逆重力流动时,增强了SPILC系统内部EFL的混合和循环,从而提高了演示芯片的浸没式冷却性能。在反重力流下,由于热级联效应的影响,CPU2-2的外壳温度比CPU2-1高12.16℃。而在顺重力流下,CPU2-2的外壳温度仅比CPU2-1高2.66℃。这一现象表明顺重力流可以有效缓解CPU的热级联效应,提高传热均匀性。有趣的是,在顺重力流向下,两块PCB上演示芯片的温度变化趋势与反重力流向下非常相似。从图4(a)可以观察到,在两种不同的冷却液流向下,#2 PCB上的CPU2-1和CPU2-2的外壳温度均低于#1 PCB上的CPU1-1和CPU1-2的外壳温度。结合图5(a)可以注意到,在不同冷却液流向下,两块PCB上相同测量点处的EFL温差相对较小。因此,上述现象归因于流经#2 PCB上CPU2-1和CPU2-2的冷却液体积流量大于流经#1 PCB上CPU1-1和CPU1-2的冷却液体积流量。这表明浸液柜的配置导致两块PCB上的冷却液分布不均匀。

图 4
图4 两种流向下部件的传热特性

图 5
图5 流体域中的温度响应

图5对比了两种流动模式下浸液柜内冷却剂的温度分布和温度均匀性。由图5(a)可知,顺重力方向流动的浸液柜内冷却剂的温度均匀性比反重力方向流动的浸液柜内冷却剂的温度均匀性好,平均温度也高于反重力方向流动的浸液柜内冷却剂。对比图5(a)和图4(a)可知,顺重力和反重力流动下CPU-1前端测点#2处的EFL温差均大于CPU-2前端测点#4处的温差,导致不同冷却剂流向下CPU-1的温差明显大于CPU-2。此外,沿EFL流动方向,顺重力流下EFL的最大温差仅为反重力流下EFL的最大温差的25.2%~31.2%。这表明顺重力流条件下浸没式液冷柜的自然对流强度明显减弱。另外,可以观察到,在反重力流条件下,EFL最高温度出现在PCB出风口处(顶部区域),而在顺重力流条件下,EFL最高温度出现在PCB上CPU2的后侧(中上区域)。这一现象说明,在两种不同的冷却剂流向下,浸没式液冷柜内自然对流的发展范围也是不同的。图5(b)所示的温度变化指数也表明,逆重力流条件下浸没式液冷柜内冷却剂的温度变化指数是顺重力流条件下的4.25倍。这种现象的原因是,当冷却剂逆重力方向流动时,自然对流强度增强,热传输性能提高,加剧了浸没式液冷柜内冷却剂的温度分层。相反,当浸没式液柜中的冷却剂沿重力方向流动时,冷却剂的自然对流受到抑制,导致传热性能下降和演示芯片温度升高。有趣的是,正是由于自然对流的发展受到限制,才提高了浸没式液柜中冷却剂的温度均匀性。因此,自然对流的存在对SPILC系统的热特性有显著影响,不应忽视。

考虑不同冷却液流向的SPILC系统的热对流特性,图6给出了两种流向下SPILC系统及浸液柜内的压降和CPU的局部努塞尔特数。图6(a)表明,当冷却液顺重力方向流动时,整个SPILC系统的流动阻力有所减小,与逆重力方向流动的冷却液相比,柜体及系统内的压降分别降低了3.82%和9.78%。图6(b)给出了两种不同冷却液流向下CPU2的局部努塞尔特数。从图中可以看出,与顺重力方向流动的情况相比,冷却液逆重力方向流动的浸液柜中CPU1-2和CPU2-2的局部努塞尔特数分别增加了121.19%和157.78%。因此,当冷却剂以反重力方向流动时,SPILC系统中的对流换热效果较好,这是因为当冷却剂逆重力方向流动时,可以在一定程度上增强对流换热;相反,当冷却剂以顺重力方向流动时,浸没式液体柜中的对流换热强度会减弱。

图 6
图6 两种流向下SPILC系统的热对流性能

为了评估不同冷却液流向的SPILC系统的能效,图7定量分析了CPU最高温度达到75 ℃时SPILC系统的泵功耗与PUE。图7(a)表明,当浸没式液柜中冷却液顺重力方向流动时,对应的SPILC系统泵功耗需要是逆重力方向流动时的2.55倍,才能保持一致的CPU最高温度。因此,浸没式液柜中冷却液顺重力方向流动时的浸没式冷却性能要弱于逆重力方向流动的SPILC系统。图7(b)是对两种流向下SPILC系统的PUE进行定量分析。从数据上看,相较于冷却剂顺重力方向流动的情况,逆重力方向流动的SPILC系统PUE降低了1.4%,因此逆重力流动的SPILC系统具有更高的能源效率,有利于降低数据中心整体的能耗。

图 7
图7 两种流向下SPILC系统能量效率分析


3.3 使用三种冷却剂的SPILC系统性能比较


为明确EFL热性能与SPILC容量之间的内在关系,本研究开展了3种EFL对浸没式冷却特性影响的实验研究。实验中,浸没液柜内演示芯片的总功率为1.75kW。冷却剂以反重力方向流动,体积流量为2L/min,冷却水温度为15℃,EFL入口温度为18 ℃。图8给出了使用不同冷却剂的浸没液柜内演示芯片的芯片外壳温度与热阻。从图中可以看出,使用EFL-3作为冷却剂时,演示芯片的芯片外壳温度和热阻低于使用EFL-2或EFL-1时。此外,由于PCB#2处于主流区域,PCB#2上的芯片外壳温度响应对不同的EFL更为敏感。数据分析表明,与EFL-1和EFL-2相比,以EFL-3为冷却剂时CPU2-2的温度分别降低了9.26%和2.67%,相应的热阻分别降低了10.45%和1.28%。对3种EFL的热性能进行详细对比发现,EFL-1和EFL-2的导热系数和动态黏度均大于EFL-3,而EFL-3的比热容小于EFL-2且大于EFL-1。虽然导热系数越大,热输送能力越强,比热容越大,单位质量的散热能力越强,但是动态黏度的增加会导致边界层增厚,传热性能恶化。因此,EFL-3因其较低的动态黏度表现出最优的浸没式冷却性能。这一现象表明,通过增加热导率和比热容来提高传热效果不足以抵消动态粘度增加引起的传热恶化。

图 8
图8 采用不同冷却剂的部件的传热特性

图9进一步分析了不同EFL在浸液柜内的温度分布和温度均匀性。图9(a)表明,当浸液柜中使用不同的EFL时,同一测量点处的冷却剂温差相对较小。但仔细观察可以发现,与使用EFL-1的情况相比,冷却剂为EFL-2或EFL-3时,各测量点的温度略低。这是因为EFL-1的动态粘度高于EFL-2和EFL-3,而其导热系数与其他两种EFL相似。因此,EFL-1较高的动态粘度导致传热边界层较厚,导致其传热能力不如其他两种EFL。此外,虽然EFL-3的动态粘度略低于EFL-2,但其比热容也较低。因此,当使用EFL-2和EFL-3时,浸液柜内的温度分布特性相似。值得注意的是,不同EFL在低温区测点的温差略小于高温区测点的温差,这一现象可以用不同温度下热导率强化传热与动态黏度抑制传热的竞争机理来解释。本实验中,低温区位于冷却剂的上游,边界层较薄,热导率对传热的影响更为显著。随着冷却剂下游温度的升高,动态黏度对传热的影响逐渐增大,导致不同EFL下测点的温差较大。由此可见,高温下EFL的动态黏度对其SPILC性能影响更为显著。图9(b)进一步分析了采用不同EFL的浸液柜内的温度均匀性,与EFL-1和EFL-2相比,采用EFL-3的浸液柜内的温度变化率指标分别降低了15.54%和2.92%。这一结果进一步证实,降低EFL的动态粘度不仅可以增强浸没式冷却性能,而且还能改善浸没式液柜的温度均匀性。

图 9
图9 流体域中的温度响应

图10分析了采用3种不同EFL的SPILC系统的对流特性。图10(a)示出了SPILC系统中采用不同EFL时浸没液柜及整个系统的压降。与EFL-1和EFL-2相比,采用EFL-3作为冷却剂的浸没液柜压降分别降低了4.48%和1.28%,相应的系统压降分别降低了6.36%和2.31%。这主要是因为这3种EFL的热导率相近,而EFL-3的动态黏度小于EFL-1和EFL-2。动态黏度的增加导致演示芯片表面的边界层变厚,从而导致流阻损失增大。因此,动态黏度最低的EFL-3表现出最好的流阻特性。图10(b)表明,与EFL-1和EFL-2相比,使用EFL-3作为冷却剂,浸没液柜中CPU1-2的局部努塞尔特数分别增加了4.06%和3.21%,CPU2-2的局部努塞尔特数也分别增加了3.43%和2.21%。因此,较低的动态粘度有助于削弱演示芯片表面的边界层,从而增强冷却剂与演示芯片之间的浸没冷却效果。

图 10
图10 采用不同冷却剂的SPILC系统的热对流性能

为了研究各种EFL对能耗的影响,图11定量分析了使用三种不同冷却剂的SPILC系统的泵功耗和PUE。为了确保公平比较,调整泵转速以使浸没式液体柜中所有三个 EFL的最大CPU外壳温度达到72.5°C。图11(a)显示,只有当泵功耗分别增加 47.06%和17.65%时,EFL-1和EFL-2的CPU外壳温度才能与EFL-3的温度相匹配。该结果进一步表明,与其他两种EFL相比,使用EFL-3的浸没式冷却性能更优越。图11(b)定量评估了使用三种EFL的SPILC系统的PUE。与使用EFL-1和EFL-2作为制冷剂的情况相比,使用EFL-3作为制冷剂的SPILC系统的PUE分别降低了0.4%和0.2%。因此,使用具有较低动态粘度的EFL-3作为制冷剂不仅可以提高SPILC的性能,还可以降低SPILC系统的能耗。

图 11
图11 采用不同冷却剂的SPILC系统能量效率分析

3.4 影响SPILC性能的因素


在SPILC系统实际运行过程中,浸没液柜内部冷却水温度和冷却剂循环流量都可能发生变化,因此需要研究不同工况下SPILC系统的传热与流动特性。本例中,选择浸没冷却性能最好的EFL-3作为冷却剂,冷却剂沿反重力方向流动。实验过程中,内循环回路中冷却剂的流量在2~8L/min之间变化,冷却水温度在15~30℃之间变化。

3.4.1 冷却水温度的影响


为了研究冷却水温度对SPILC系统工作特性的影响,本文定量评估了浸液柜中的温度响应、流动特性和热对流能力。实验期间,浸液柜中演示芯片的总功率为1.75kW,EFL-3的流速维持在2L/min。图12给出了不同冷却水温度下浸液柜内演示芯片和EFL的温度响应。图12(a)清楚的表明,随着冷却水温度的升高,CPU的外壳温度随之升高。通过定量分析得出,当冷却水温度从15℃变为20、25和30℃时,CPU1-2的外壳温度分别上升了2.75℃、6.16℃和10.23℃。CPU外壳温度的升幅小于冷却水温的升幅,且这种差异随着冷却水温度的升高而减小。这是由于冷却水温度的升高,导致EFL的动态黏度不断降低,使演示芯片表面的边界层变薄,从而在一定程度上加剧了EFL与演示芯片之间的热对流。但随着冷却水温度的升高,EFL黏度的变化率逐渐减小,导致传热强化逐渐减弱,使演示芯片外壳内的温升趋于接近冷却水温的升幅。图12(b)进一步分析了不同冷却水温度下浸液柜内EFL的温度均匀性,与 T c=15℃的情况相比,当 T c =30℃时,浸液柜内冷却剂的温度变异性指数降低了6.05%。这是因为冷却水温度的升高导致EFL温度上升,有助于降低EFL的动态粘度并增强对流传热,从而提高浸液柜中EFL温度的均匀性。

图 12
图12 水温对温度响应的影响

图13评估了不同冷却水温度下SPILC系统的对流特性。图13(a)表明,随着冷却水温度的升高,浸液柜和SPILC系统的压降不断降低。与 T c T c 的情况下浸液柜和系统的压降分别降低了2.46%和4.08%。有趣的是,与演示芯片的外壳温度响应类似,随着冷却水温度的升高,压降的下降趋势逐渐减弱。这是因为冷却水温升高导致EFL粘度降低,从而削弱了冷却剂的流动阻力,从而降低了系统压降。然而,随着温度的升高,动态粘度的变化率降低,因此粘度降低导致的流动阻力下降趋势逐渐变得不明显。图13(b)提供了不同冷却水温度下CPU2的局部努塞尔特数。 T c =15℃的情况相比 T c =30℃时CPU1-2和CPU2-2的局部努塞尔特数分别增加了9.26%和9.93%,因此推断虽然提高冷却水温度会导致演示芯片的温度上升,但是浸液柜内的对流热输送在一定程度上得到了加强。

图 13
图13.水温对强制对流性能的影响

3.4.2 冷却剂体积流量的影响


为了研究不同冷却液体积流量对SPILC系统流动和热特性的影响,本研究定量评估了浸液柜内的温度响应、流动行为和热对流能力。实验期间,浸液柜中演示芯片的总功率为1.75kW,冷却水温度为15℃。图14示出了不同体积流量下演示芯片和浸液柜中EFL的温度响应。图14(a)表明,演示芯片的外壳温度与体积流量呈负相关。此外,由于上游热障的影响,CPU2对EFL流量的变化特别敏感。定量分析表明,当EFL流量从2L/min变为6L/min时,演示芯片的外壳温度最大下降10.64℃。然而,当EFL流速进一步提高到8L/min时,演示芯片壳温最大下降幅度仅为0.54℃。这一现象表明,增加EFL流速并不能无限改善EFL与演示芯片之间的对流热传输。EFL的体积流速存在一个临界值,超过此临界值,体积流速的增加并不会使传热强化程度显著提高。图14(b)进一步给出了不同体积流速下浸液柜中EFL的温度变化指数。从统计数据来看,当体积流速从2L/min上升到8L/min时,EFL的温度变化指数降低了238.29%。显然,体积流速的增加大大增强了EFL的对流热传输能力,从而明显改善了浸液柜的温度均匀性。然而,随着EFL流速的增加,浸没液柜中EFL温度均匀性的改善逐渐减弱。

图 14
图14 体积流量对温度响应的影响

图15评估了不同体积流量下SPILC系统的对流特性。图15 (a)表明, 增加EFL流量显著增加了浸没液柜和整个系统的压降。与 QV QV 8L 的情况下浸没液柜和系统的压降分别增加了414.64%和635.72%。这一结果表明,虽然增加EFL的体积流量可以提高对流传热性能,但也导致SPILC系统的流动阻力急剧增加。图15(b)进一步提供了不同体积流量下CPU2的局部努塞尔特数。随着体积流量从2L/min变为8L/min,CPU1-2和CPU2-1的局部努塞尔特数分别增加了165.63%和233.56%。该结果进一步说明,增加体积流量极大地促进了EFL的对流传热,增强了EFL与演示芯片之间的浸没冷却能力。

图 15
图15 体积流量对强制对流性能的影响

3.4.3 SPILC系统的控制机制


研究工况对SPILC系统的调控机理,为SPILC系统的实际运行提供技术支持。图16、图17分别给出了不同工况与CPU最高温度(即 T max )和总耗电量(即 Q ,包括泵和冷水机组的耗电量)的耦合关系。图16(a)表明,当EFL的体积流量为2~8 L/min,冷却水温度为15~30℃时,浸液柜内CPU最高温度在62.8~82.5℃之间波动,即在不同工况下,CPU温度最大变化量为19.7℃。考虑到CPU温度与其运行性能之间的密切关系,SPILC系统实际运行过程中应强调工况的实时控制。针对此问题,图16(b)给出了基于CPU最高温度的冷却水温度和EFL体积流量的控制图。该控制图表明,在不同EFL流量和冷却水温度耦合作用下,CPU最高温度可分为安全区、报警区和风险区。仔细观察可以发现,当 QV < 2.48 L/min且 Tc >23.4℃时,CPU最高温度始终处于安全区之外。可以看出,实际SPILC系统在与本研究相同条件下运行时,需要控制冷却液流量大于2.48L/min,冷却水温度低于23.4℃。具体而言,当 Tc>29.1℃时,CPU最高温度始终处于风险区,严重影响服务器的运行性能,甚至缩短其使用寿命。此外,随着冷却水温度的升高 冷却液流量对CPU温度的影响逐渐减弱。当冷却水温从15℃升至20℃时,将冷却液流量从2.5L/min改为3.6L/min可使CPU最高温度进入安全区。但是,当冷却水温进一步升至25℃时,冷却液流量对 CPU最高温度的影响几乎可以忽略不计。特别是,如果 Q V之后CPU温度没有改善 >8L/min,表示冷却液调节功能失效,因此在实际运行过程中需要实时监控和调整EFL体积流量和冷却水温度,以保证CPU正常运行。

图 16
图16 最高CPU温度与流速和水温的关系

图 17
图17 总电力消耗与 流量和水温的关系

图17(a)为SPILC系统不同运行条件与总功耗的耦合关系的3D彩色表面图(环境温度为19°C)。从图中可以看出,EFL流速对总功耗的影响相对较小。这是因为 SPILC系统中内循环泵的功率仅占冷水机组功耗的4∼23.6%。考虑到冷水机组的耗电量与冷却水温度呈负相关,因此水温越低,SPILC系统的总耗电量越高。图17(b)是基于EFL流速和冷却水温度的SPILC系统总耗电量控制图。为了进行定量分析,本研究以PUE值1.23和1.26作为临界阈值,将SPILC系统的功耗分为低、中、高功耗区。 QV 通过调节冷却水温度,SPILC系统能耗可以在低耗区、中耗区和高耗区之间过渡。同样,当19.5℃< Tc < 24.1 ℃时,调节冷却剂流量可以促使SPILC系统能耗在低耗区、中耗区和高耗区之间过渡,且只有当 Tc SPILC 系统实际控温过程中,应优先调节内循环泵以提高传热性能,在前者影响最小的情况下,再调整冷水机组的冷却水。

基于以上分析,SPILC系统存在最优运行条件,在保证CPU最高温度在安全范围内的同时,使SPILC系统整体耗电量最小。且SPILC系统运行控制应以CPU温度为主要目标,系统总耗电量为次要目标。当CPU最高温度较高时,首先应调节EFL流量,保证CPU温度在临界危险区外。若调节EFL流量不能改善CPU温度,则应调节冷却水温度,使CPU温度进入安全区。此外,在保证CPU安全的情况下,应尽量提高冷却水温度,以达到节能的目的。

4

结论


针对数据中心集成化、规模化、高密度化带来的高能耗与散热挑战,本研究对SPILC系统进行了实验研究。通过搭建SPILC冷却实验平台,探究浸没式液柜内EFL流向对SPILC性能的影响,研究EFL热性质与SPILC系统的热传输能力、流动行为和能量效率之间的内在联系。在此基础上,深入研究了工况对SPILC性能的影响机理,提出了不同工况下SPILC性能的控制机制。综上所述,本论文的研究得到以下结论。

1)在其他条件不变的情况下,浸液柜采用反重力流向可最大程度地发挥SPILC系统的整体性能。与顺重力流向相比,反重力流向使CPU机箱温度和热阻分别降低了33.8%和55.6%,CPU1-2和CPU2-2的局部努塞尔特数分别提高了121.2%和157.8%。但是顺重力流向使浸液柜内的温度均匀性提高了325%,系统压降降低了9.8%。为保持一致的CPU最高温度,反重力流向下SPILC系统的水泵功率降低了60.8%,导致系统PUE降低了1.4%。

2) EFL 的热性能,尤其是动态粘度,对 SPILC 性能起着重要作用。较低的动态粘度有助于削弱演示芯片表面的边界层并提高浸没式冷却效率。与其他两种 EFL 选项相比,当浸没式液体柜采用动态粘度较低的 EFL-3 时,CPU 外壳温度和热阻的最大降低分别为 9.3% 10.5%。此外,系统压降和 PUE 的最大降低分别为 6.4% 0.4%。

3) 提高冷却水温度可以提高演示芯片温度,改善EFL温度均匀性,降低系统压降;增加EFL体积流量可以降低演示芯片壳温,提高浸液柜内温度均匀性和局部努塞尔特数,但也会导致SPILC系统压力损失增加。

4) SPILC系统的运行控制应以CPU温度为主要目标,系统总功耗为次要目标。 相对于冷却水温度,EFL体积流量对SPILC系统传热能力和能耗的影响相对较小。 为在保持温度控制的同时实现最低能耗,SPILC系统应首先调节EFL体积流量。 当调节EFL体积流量的热效益不显著时(即 QV≥8L / min),才应调节冷却水温度。

来源:零氪1+1

关注我们获取更多精彩内容


往期推荐

● 全新会议日程璀璨揭幕!3月27日,相聚杭州,邀您共赴一场融合前沿科技与智慧光芒的盛会!

● 2025中国数据中心液冷技术大会 | 华信咨询设计研究院携手打造行业独家专场盛宴!

● 2024全球液冷数据中心落地案列分享








请到「今天看啥」查看全文