专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
药渡  ·  大年初八,开工大吉! ·  3 天前  
医药经济报  ·  首版丙类目录2025年发布,各地探索商保医保 ... ·  4 天前  
甘肃药品监管  ·  甲钴胺片吃一个月得停?其实真相是…… ·  昨天  
现代快报  ·  默沙东宣布:暂停供应 ·  3 天前  
现代快报  ·  默沙东宣布:暂停供应 ·  3 天前  
Insight数据库  ·  针对小细胞肺癌脑转移,国产 1 ... ·  6 天前  
51好读  ›  专栏  ›  CDCC

单相浸没式对服务器CPU冷却冷力的影响

CDCC  · 公众号  ·  · 2025-02-06 12:04

正文

第1部分

热特性结果


随着人工智能 (AI)、云游戏和存储、在线流媒体以及边缘计算服务的快速增长和需求,数据中心和服务器热管理的挑战变得越来越困难。这些服务的快速增长随之增加了对计算密集型、高性能服务器平台的需求。从中央处理器 (CPU) 和图形处理器 (GPU) 不断增加的 TDP 限值中可以明显看出这一趋势。传统的风冷方法无法有效满足这些高性能服务器的冷却需求,这导致数据中心行业转而采用独立或混合风冷和液冷方法。液冷的主要优势是高散热能力,随着服务器硬件功率和功率密度的增加,这一优势变得更加明显。对高性能计算的需求并不是推动液冷技术广泛采用的唯一驱动力。在全球范围内,OEM 和 ODM 共同努力,制定积极的可持续发展目标,以减少碳排放和冷却水使用量,并降低总拥有成本 (TCO)。液体冷却技术使数据中心行业能够改善这些指标,因为使用液体冷却可以提高入口温度,从而减少数据中心对冷冻水供应的要求。

数据中心的液体冷却技术可以采用两种常用方式部署,即使用直接到芯片的冷板或使用浸没式冷却。浸没式冷却可以进一步使用单相或双相液体来实现。所有这些不同的实现方式都具有各种优点,但也有其缺点。当前研究的范围仅限于单相浸没式冷却,其中传热液体直接与散热组件接触,而不发生相变。服务器浸没在水箱中的介电流体池中,水箱的大小可以与风冷机架一样变化。大多数水箱都有一个集成的冷却液分配单元 (CDU),它充当泵以将流体循环通过服务器,也可以充当热交换器以保持所需的温度设定点。单相浸没式冷却的主要优势在于它允许完全从服务器中移除风扇,液体与所有服务器组件直接接触,为所有组件提供冷却,介电流体可以捕获近 100% 的服务器硬件热量。这导致此类数据中心部署的电源使用效率 (PUE) 值非常低。单相浸没式冷却的其他优势包括:由于服务器硬件不会暴露在空气污染物中,因此可以提高设备可靠性;受湿度和温度瞬变的敏感性较低;易于部署到边缘设施。浸没所用的介电流体可以具有不同的基础流体化学性质和特性,也可以合成生产。一些常见的基础流体化学性质包括烃油(合成和天然)、酯(合成和天然)和氟化合物。最终的流体选择可以基于材料兼容性问题以及所需的热性能和电性能。开放计算项目社区最近引入了一种用于比较不同流体在自然对流和强制对流中的热行为的品质因数 (FOM) 指标。

本研究重点关注 CPU 热特性,并比较使用单相浸入式冷却的扩压核心服务器配置的热性能。合成介电油聚α烯烃 6 (PAO 6) 。被用作传热流体。这种选择的原因是 PAO 6 在全球范围内均可以相对较低的成本获得。表 1显示了一种流体的一些物理特性。对服务器中的 CPU 进行了热特性分析,并给出了在强制和自然对流条件下不同服务器工作负载组合的 CPU 热阻值。服务器浸入 24U 水箱中,在固定服务器入口温度 40°C 和 CPU 工作功率 205 W 的条件下在自然和强制对流条件下进行特性分析。在强制流对流测试期间,服务器在 0.9 lpm、3.9 lpm、7.8 lpm 和 10 lpm 的四种流速下进行特性分析。热特性结果表明,与在自然对流下运行的服务器相比,当向系统输送 10 lpm 的液体流量时,CPU 冷却能力可提高约 31%。

表 I. PAO6 的物理性质

第2部分

实验方法


A. 散热器设计


用于单相浸没的流体(例如 PAO 6 [4])与空气相比具有高得多的粘度和热容量。这推动了对专门为浸没而设计的定制散热器的需求。这种散热器具有更厚的翅片以提高翅片效率,并且翅片间距更宽,以允许粘性流体在自然对流主导的流动状态下流过翅片。为空气冷却设计的传统散热器仍可用于较低 CPU TDP 的浸没,并且仍然能够满足冷却要求。但是,随着冷却要求的增加以支持更高的 TDP CPU 和/或更高的流体入口温度,需要为浸没而设计的优化散热器。在本次调查中,服务器上的 CPU 使用为第三代英特尔® 至强® 处理器可扩展系列(代号 Ice Lake CPU)设计的浸没式散热器,并针对自然对流进行了优化。

在设计浸没式散热器时,以同代 Ice Lake CPU 的传统风冷散热器为基准。首先使用 Ansys Icepak [7]为风冷散热器开发数值模型,并使用流体 PAO 6 中的浸没式测试数据进行关联。然后迭代修改翅片厚度和间距,以根据散热器底座的最低温度得出提供最佳热性能的最终几何形状。为了进行原型设计和加速到 HVM,热管增强型底座和保留与空气散热器保持相同。Ice Lake 浸没式散热器设计如图1所示。该散热器具有铝制翅片和底座,带有热管增强型铜芯部分,翅片厚度为 0.8 毫米,有 24 个翅片。散热器设计的细节在[8]中有详细描述。

intel®至强®处理器可扩展系列 Ice Lake 的浸入式优化散热器设计

B. 沉浸式体验的服务器设置


设计用于空气冷却的服务器需要进行一些修改才能在浸没条件下运行。所需的修改包括硬件和固件更改,如以下章节所述。首先要确保服务器中的所有组件都与所使用的浸没液兼容。

● 服务器组件返工

对于大多数高功率应用,需要将 CPU 的散热器更换为浸没式散热器,如上一节所述。此外,需要验证空气冷却中使用的热界面材料 (TIM) 与浸没液的材料兼容性。大多数市售的油脂基或相变 TIM 与 PAO 6 等合成油不兼容。在本研究中,使用铟箔热弹簧 (HSHP 2x2.5x0.006') 作为 TIM 材料。将空气冷却散热器从 CPU 上拆下,并从集成散热器 (IHS) 表面清除之前的 TIM。然后将与浸没液兼容的铟 TIM 小心地放置在 IHS 上,并使用适当的固定硬件和指南安装浸没式散热器。

对于其他具有热重要性的高功率组件,例如电压调节器 (VR)、内存模块、PCH 等,需要遵循与 CPU 类似的程序。一些功率密度较低的组件可能不需要散热器在浸没液中适当冷却,在这种情况下,可以完全移除散热器,并清除表面的 TIM。测试和监控此类组件的温度非常重要,以确保在整个操作条件范围内仍能满足热要求。如果任何组件确实需要散热器,则必须评估 TIM 兼容性并将其替换为与浸没液兼容的 TIM。在目前的工作中,需要重新安装 PCH 散热器以将 TIM 替换为与 PAO 6 兼容的 TIM。在对服务器进行数据收集运行之前,还通过在浸没液中对 CPU 进行功率循环运行对铟箔热弹簧 TIM 进行预调节,以实现稳定的热性能。

服务器硬件和固件返工

为了使服务器在浸没状态下高效运行,还需要对风冷服务器进行一些硬件和固件更改。为了减少对粘稠浸没液的流动阻力,需要从服务器上移除风扇,或将其替换为适合浸没的风扇。需要更新服务器主板管理控制器软件,以确保服务器可以在不接收移除的风扇发出的 TAC(转速表)信号的情况下运行。同样,需要禁用电源单元 (PSU) 内的风扇,可能需要更新固件,或者使用小型电子板生成虚假 TAC 信号作为风扇模拟器,以确保在风扇关闭的情况下固件平稳运行。

本研究中使用的服务器是 Coyote Pass (M50CYP1UR212),它是一台扩核 (2 CPU) 1U 服务器,使用第三代英特尔®至强®处理器可扩展系列-SP、Gold 6338 处理器、Ice Lake CPU,TDP 为 205 W。本次调查仅测试了一台服务器。

服务器配置

图 2显示了企业服务器配置的前托架。它具有 12x12.5 英寸 NVMe SSD Gen 3 P4610 6.4T,最大额定功率为 15 W/SSD。对于内存,服务器上的每个 DIMM 连接器中都装有具有双倍数据速率 Gen 4 (DDR4) 的 DIMM(双列直插式内存模块),以复制满载服务器的流阻抗。使用的 DIMM DDR4 是 M38AAG40MMB-CVFCQ S、128 GB Samsung 4DRx4 PC4,满负荷时运行功率为 7 W/DIMM。

仪器仪表

为了获得准确的温度测量和热阻计算,服务器在不同位置安装了热电偶(如图2 所示),以测量流体和设备温度。由于 CPU 是 CPU 密集型工作负载(如 PTAT(英特尔功率和热分析工具))中功率密度最高的组件,因此在整个测试过程中测量和跟踪 CPU 温度至关重要。DTS 传感器温度具有较大的保护带,因此通过在 IHS 表面安装热电偶来跟踪实际设备温度非常重要。这在 IHS 中心位置完成,该位置通常是最热的地方。流体温度在服务器入口前的 3 个位置测量(如图2所示),并在 CPU 和内存组正前方的六个不同位置测量。这样做是为了记录 CPU 和 DIMM 设备的入口温度并评估上游组件的预热。为了便于安装和数据一致性,这些设备入口热电偶安装在 VR 的上游,因此不考虑 VR 本身产生的任何预热。

C. 储罐设置和测试方法


图 3显示了本研究中用于测试服务器的单相浸没式水箱。这是 Green Revolution Cooling [10]生产的 ICEraQ 微型水箱,其中装有电介质流体 PAO 6。该水箱可容纳 24 台 1U 服务器,但本研究中仅测试了一台服务器。该水箱配有内置 CDU。当服务器启动时,加热的流体上升,从而通过自然对流将流体拉过服务器组件。然后,温热的流体从水箱顶部的堰流出。然后,该温热流体通过热交换器,与设施水冷供应交换热量,并冷却浸没式流体。然后,该较冷的浸没式流体通过泵和过滤器,通过水箱底部的歧管泵回服务器。

(顶部)服务器的顶视图,显示系统内部的服务器组件和热电偶位置(实心黄色圆圈);(底部)服务器的正面视图

显示系统入口热电偶的 SSD 和热电偶位置在自然对流测试中,浸没液不会强制流过服务器,而是由泵循环以保持服务器入口温度为 40°C。泵保持在维持所需池温度所需的最小流速,以确保自然对流操作条件。由于目前的工作只安装了一台服务器,因此需要额外的热量来将池温度保持在 40°C。这是通过使用 CPU TMTV(热机械测试车辆)作为热源来实现的,这些热源根据需要运行受控功率以维持池温度。在目前的工作中,CPU 1 位于最靠近入口歧管的油箱后部,而 CPU 0 位于最靠近油箱前部。在强制对流测试期间,定制设计的入口集气室连接到服务器的正面。该入口集气室用于向服务器提供受控流速。

使用 PTAT 对服务器组件施加压力。当前调查中使用的工作负载包括以 CPU 为中心的工作负载、CPU 和 DIMM 组合工作负载以及 CPU 和 SSD 组合工作负载。CPU 和 DIMM 工作负载使我们能够分析内存功率对 CPU 冷却能力的影响。同样,当 SSD 受到压力时,CPU 和 SSD 组合工作负载使我们能够分析 SSD 预热对 CPU 冷却能力的影响。当内存在以 CPU 为中心和 CPU-SSD 工作负载期间处于空闲状态时,它会耗散 ~4 W。当使用读写工作负载对内存进行完全压力时,相同的值为 7 W。为了对 SSD 施加压力,使用了文件输入输出工作负载,但分析工具不会显示瞬时或总 SSD 功率。

左图:Green Revolution Cooling 的 ICEraQ Micro 24U 水箱;右图:放置在水箱中的经过改装的服务器

第3部分

热特性结果


Coyote Pass 服务器有两个 205 W TDP CPU,采用扩压配置。在传统的空气冷却系统中,当以全 TDP 运行时,需要 2U 服务器和 2U 散热器才能充分冷却。在浸没式中,相同的 CPU 安装在使用 1U 散热器的 1U 服务器中。由于 CPU 是此服务器中功率最高的组件,因此在本研究中密切监控 CPU 温度和热阻值,以跟踪冷却能力并确保满足 CPU 散热要求。在测量过程中还会跟踪所有其他服务器组件,以确保也满足它们的散热要求。在所有进行的测试中,浸没液的入口温度都保持在 40°C。

A. 组件工作负载对 CPU 热性能的影响


图4:自然对流下不同服务器工作负载下 CPU0 和 CPU1 热阻值的变化

第一组测试使用服务器上的 PTAT 工作负载执行,仅使用以 CPU 为中心的工作负载,服务器冷却以自然对流运行。PTAT 工作负载对 CPU 施加最大 TDP 压力,同时内存和其他组件处于空闲状态。在对 TIM 进行适当的预调节后达到稳定状态后,记录 IHS 上热电偶的温度 T case值,并在 20 分钟内取平均值。CPU T case热阻根据 Ψcl = (T case - T intake ) / (CPU Power) 计算,其中 T case是 CPU IHS 温度的平均值,T intake是每个 CPU 上游热电偶记录的温度,CPU Power 是 PTAT 工具为每个 CPU 报告的功率。如图4所示,仅对于 CPU 压力,CPU0 的热阻值为 0.172°C/W,CPU1 的热阻值为 0.175°C/W。

图5:不同服务器工作负载的 CPU 入口温度变化

此外,为了了解不同服务器组件的交叉依赖关系对 CPU 冷却能力的影响,除了 CPU 之外,DDR 内存和 SSD 也受到压力,以模拟不同工作负载应用的各种用例条件。如图4所示,在大多数情况下,当仅 CPU 受到压力时,热阻值最高。随着其他组件受到压力,CPU 电阻会略有下降。虽然服务器入口温度保持在 40°C,但这些测试中 CPU 的入口温度也略有不同,如图5 所示。然而,这些结果显示了对其他服务器组件施加压力的积极影响,这可能会通过增加系统功率增强自然对流来推动更多流量通过服务器。SSD 的任何预热影响或内存 DIMM 的共热影响似乎对 CPU 热性能微不足道。表 2还显示了有关 CPU 外壳温度和相应热阻的其他数据。值得注意的是,对于当前的研究,PTAT 数据不包括 SSD 功率,因此无法确定 SSD 是否在使用的压力命令下达到最大 TDP。

表二 自然对流测试中不同服务器工作负载的 CPU 机箱温度和热阻值

B. 强制流经服务器的影响


图 6. 强制对流测试中不同服务器工作负载下 CPU0 和 CPU1 热阻值的变化

图 6显示了在以 CPU 为中心的工作负载下,当服务器入口流速从 0.9 lpm 到 10 lpm 不同时,两个 CPU 的外壳至液体热阻的变化。将 0.9 lpm 的流速与图 4中的自然对流数据进行比较,我们可以看到,在 0.9 lpm 服务器流速下,热阻值略有恶化。这可能表明,在自然对流下,服务器流速接近或略大于 0.9 lpm。当流速达到 10 lpm 时,CPU0 和 CPU1 热阻值之间的差异会收敛。在 10 lpm 和自然对流下的热阻值之间观察到最大 31% 的改善。表明增加通过服务器的流速可提高 CPU 的冷却能力。表 3显示了 Ψ cl值以及测试流速下的外壳温度的详细摘要。

表 III. 强制流服务器测试的热阻和外壳温度与流速的关系

图 7显示了以 CPU 为中心的工作负载下不同服务器入口流速下的 CPU 入口温度变化。这里的一个重要观察结果是,随着流速的增加,两者之间的差异会减小。当服务器入口流速等于或大于 3.85 lpm 时,CPU 和 DIMM 组入口温度与服务器入口温度重叠。图 5中显示的数据仅适用于以 CPU 为中心的工作负载,但此观察结果也适用于其他三个测试的工作负载。这可能表明 SSD 和 CPU 以及 DIMM 组之间的预热流体流动路径在更高的流速下发生了变化。

在 7.8 lpm 流速之后,热阻变化似乎也开始趋于渐近。3.9 lpm 和 7.8 lpm 之间的热阻改进为 0.02 C/W。当流速进一步增加到 10 lpm 时,此改进降低到 0.005 C/W(IHS 温度降低约 1°C)。这表明在更高流速下增加来自 DIMM 组通道的流量旁路,显示了在 CPU 散热器和 DIMM 组之间保持流量平衡的重要性。在更高流速下实现更大 CPU 热冷却增益的潜在解决方案可能会使 DIMM 组通道受阻。这将阻碍流动,从而使流经散热器的体积流速比例保持较高。但是,建议用户首先确定阻碍流动对内存冷却能力的影响,以便仍然满足内存热要求。

图 7.强制对流测试中以 CPU 为中心的服务器工作负载的服务器和本地 CPU 入口温度变化

在之前的研究[6]中,作者展示了流速对 Ice Lake TMTV 上机壳与环境热阻值的影响。将该数据(如表 4所示)与图 6中 7.8 lpm 流速情况下的以 CPU 为中心的工作负载数据进行比较,我们可以看到热阻值非常接近。这意味着当 7.8 lpm 的流速被迫通过系统时,大约 0.8 lpm 会通过 CPU 散热器。因此,对于当前针对 Iceplake CPU 进行浸入式优化的散热器,大约 8% 的系统流量会通过散热器。对于不同的服务器平台和具有不同 TDP 的 CPU 产品,这个比例很可能会有所不同。


IV. 不同流速下 205W ICELAKE CPU 浸没式优化散热器的热阻

第4部分

结论







请到「今天看啥」查看全文