专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
理想汽车  ·  理想汽车春节用车报告 ·  16 小时前  
小米汽车  ·  开工第一天,小米SU7 ... ·  昨天  
小米汽车  ·  小米SU7 ... ·  2 天前  
人人都是产品经理  ·  实测:支付宝、抖音、小红书哪个平台春节集福更赚钱? ·  2 天前  
比亚迪汽车  ·  月伴迪行 | 二月:花染新枝,春信悄临 ·  6 天前  
51好读  ›  专栏  ›  CDCC

百度团队:适用于数据中心部署的新型高效冷板液冷解决方案

CDCC  · 公众号  ·  · 2025-01-26 11:45

正文

第一部分 介绍


如今,计算资源已应用于生活的方方面面,包括通信、物联网 (IoT)、人工智能 (AI)、制造业、政府和许多其他行业。能源消耗趋势取决于多种因素,包括数据流量、新兴技术、ICT(信息和计算机技术)设备以及数据中心基础设施的能源需求。如今,能源效率已成为新的口号,但每个行业都有自己的定义和用例。高效设计不再是一种选择。现代数据中心的能源需求如此之大,以至于运营不能再忽视能源效率和随之而来的经济效益。数据中心运营对公司的整体能源使用、运营成本、碳足迹等有重大影响。这是数据中心可持续性的关键因素。

现有数据中心有两个无法超越的物理极限:占地面积和电力供应。它们还有一个经济极限,即运营成本预算。为了尽可能地遵循摩尔定律,IT 设备的功耗也在上升,因此现有数据中心面临着两难境地:要么保持每机架服务器的密度不变(导致巨大的电力和冷却挑战),要么放弃密度。这就是为什么超大规模、云计算和高性能计算数据中心在世界各地建造大量新数据中心的原因之一。这种不断增长的能源需求不仅影响地球的生态系统,也影响 ICT 业务,因为电力需求的增加导致能源成本进一步增加,因为电价本身在上涨。

IT 设备冷却的最新趋势表明,新产品设计将涉及接近或接触对温度敏感的高发热组件的热传递,尤其是当 MB(主板)组件密度增加或使用具有更高 TDP(热设计功率)的 CPU 时。

图 1 CPU功耗趋势

如图1所示的Intel CPU ,近年来功耗大幅提升,散热问题也面临巨大挑战,受限于散热器机械尺寸,风冷散热器物理尺寸无法无限增大,成为系统散热解决方案的瓶颈。另外,更高的TDP需要更强的风量,导致风扇功耗急剧上升。例如,如果CPU的TDP高于500W,继续使用2U风冷散热器解决方案,单个6056双转子风扇所需功率将高达60W。在这种情况下,系统风扇将消耗服务器总功耗的20%左右,造成巨大的能源浪费。 [1]

因此,空气冷却变得困难,必须考虑液体冷却。用液体移动热量比用空气移动热量效率高得多,小型泵系统的热量移动能力比同等风扇系统大一个数量级。液体冷却还可以提供更大的灵活性,因为可以通过将管道直径增加一到两英寸来增加大量的未来容量。为空气系统增加同等数量的未来容量需要将管道尺寸增加一到两英尺。与空气相比,经验法则是,冷却液相的导热系数是空气的6倍,单位体积的热容量是空气的1000倍。也就是说,对于相同体积的传热介质,冷却液的传热速度是空气的6倍,储热能力是空气的1000倍。此外,与传统冷却方式相比,冷却液的传热次数更少,容量衰减更小,冷却效率更高。这意味着在同样的热负荷下,液体介质可以用更少的流量、更小的温差实现散热,较小的介质流量可以减少散热过程中驱动冷却介质所需的能耗。 [2]

数据中心的核心 ITE(信息技术设备)能耗是机架级服务器。机架服务器是一个统称,包括存储系统、计算系统、网络系统以及直接处理数字数据的任何其他系统。构建节能的计算机服务器可以直接减少数据中心的用电量并减少有害的温室气体。服务器级冷却通常由 IT(信息技术)设备供应商研究。空气冷却仍然是一种传统且成熟的技术。但是,对于高密度服务器,当安装在机架中时,在某些情况下总功率将高达 100kW,此时空气冷却无法满足服务器的环境要求。在实践中,当功率密度高时,液冷服务器是理想的选择。因此,液冷正在成为高密度服务器的尖端技术。 [2]

由于硅片散热需求的不断增长以及政府能源政策的刺激,IT行业对液冷技术进行了大量深入研究,其中冷板液冷技术被广泛应用 [3],[4] 。由于铜具有良好的导热性和较强的耐腐蚀性,它是最受欢迎的冷板材料 [3],[4] 。CPU冷板的典型应用如图2所示,其中板和翅片由铜制成。
图 2 铜合金冷板

一般情况下,铜、铝是水冷板材质的最佳选择。铜具有相对较低的热阻率与导热特性,一般作为散热材料的首选。然而铜水冷板的成本与重量较高,在液冷系统采用此方案时会影响总拥有成本(TCO)。目前传统的铜水冷板采用精密切割,并增加散热片的制程,以增加导热面积,缺点是鳍片太密会增加液体的流动阻力,导致无法进一步提升散热效能。

图 3 3dvc铝冷板概述

一般服务器主板设计,CPU与封装内存之间的距离是固定的,也就是说不同材质的散热片宽度与长度都差不多,若要提升铝材的散热效能,增加高度(在设计要求范围内)是最佳方案之一,反之,相较于相同尺寸的铜材,铝材散热板则具有价格便宜、重量轻的优势。(一块140.5mm的铜材散热板) ∗78.5 毫米 13mm,重量约1100g,140铝制3DVC冷板。 5毫米∗78.5毫米∗28毫米 ,重量约为铜的一半,为550g)。由于铝相对于铜的散热特性略弱,因此必须优化散热和可靠性才能成为铜的良好替代品。如图3所示,铝水冷板设计为内嵌3DVC的铝水冷板,3DVC嵌入水冷板中作为核心热交换元件,凭借3DVC优异的温度均匀性,实现铝水冷板方案在700W及以上相同方案中,热源散热性能优于铜水冷板。本文讲述优化后的3DVC铝水冷板的成功应用。

第二部分 铝冷板液冷系统



图 4 冷板系统集成

本文介绍的液冷系统针对服务器的系统冷却而设计,包括液体冷却剂、冷板、快速接头、管路、歧管、液体泄漏监测装置等,如图4所示。3DVC冷板安装在数据计算中心的主板上,与CPU或GPU直接接触,芯片在进行数据计算时产生的热量传递给3DVC冷板,3DVC冷板再通过工作流体将热量传递给冷却系统,最后水冷液通过CDU与外部冷却塔进行热交换。

冷板是液冷系统的核心部件,直接与CPU芯片、TIM(热界面材料)接触进行热交换,其传热路径如图5所示。
图 5 Cpu/gpu传热路径

新设计的优势:

● 由铝合金外腔和3DVC(相变介质)散热片/翅片两部分组成
Al 3DVC 将是纯铝材料,取代铜。
3DVC(内部为氟利昂-134a,作为样品构建)散热器/散热片。温度均匀,微通道内温度差异小于 1 °C。

CPU 运行时产生的热量首先通过封装外壳和 TIM2 传递到冷板,然后被液体冷却剂吸收。最后,CPU 热量被转移到冷却分配单元 (CDU) 中的设施水中。如果将冷板的材料从铜改为铝,热性能不会提高。因为铝的导热性比铜差。为了提高铝冷板的热性能,采用了 3DVC 散热器结构[5]并将其嵌入冷板中,这是本文提出的解决方案的关键创新。图 6显示了新颖的冷板设计,展示了其内部的 3DVC 结构。

图 6 铝3dvc冷板内部结构

所提出的铝冷板主要由铝合金腔体和内部3DVC散热器两部分组成。3DVC散热器中填充有相变介质,例如用于样品构建的氟利昂-134a。其工作原理如图7所示。制冷剂介质在微通道中不断蒸发和冷凝,并及时将热量传递给翅片。微通道中的温差小于1°C,如下图8所示。该解决方案表现出优异的温度均匀性,并大大提高了翅片的传热效率。

图 7 3dvc散热器的传热原理

图 8 3dvc温度模拟图

根据下述传热公式(1),考虑对流传热系数不变,热流密度与传热面积和传热温差成正比。

(1)

Q: 热通量
h:传热系数
A:发生热传递的表面积
ΔT:固体表面和周围流体区域之间的温差

由于3DVC散热器具有良好的传热性能和温度均匀性,可以有效增加传热温差。它还可以在低阻抗的情况下扩展更多的热交换面积。总而言之,3DVC嵌入式铝冷板可以获得更好的热偏好。 [1]

第三部分 铝冷板液冷系统


整体液冷解决方案是从数据中心到服务器系统的端到端解决方案。业界最关注的是冷却性能和可靠性问题。通过设计(性能、压力、流量等)和测试(性能、传输、温度循环等)适当的架构来确保质量。

冷板可靠性测试重点关注泄漏、性能和运输相关测试,如表1所示。

表1冷板可靠性验证


为了验证这种新型铝冷板的热性能,根据大功率IC的冷却要求,建立了一套液冷测试系统。图9是控制系统图,其中可以根据需要调整冷却剂流量等测试参数。“样品安装和测试平台”包括新型3DVC铝冷板和IC TTV(热测试车)。

测试条件如下:

连接方式:2块冷板串联
铝制 3DVC 冷板:78.5mm x 140.5mm x 28mm
TTV:中心热源尺寸为30mm x 30mm;
加热功率可调0∼1000W,重点关注500W和700W
环境空气温度:25℃
冷却剂:铝合金外腔PG25溶液
TIM2:Shinetsu X-23-7783D,厚度0.15mm

图 9 液冷测试与控制系统

测试样品为GPU水冷板液冷散热设计如图10 &图11所示:测试环境主要是为了验证目前正在设计的GPU液冷测试系统,使用假加热器验证系统的水流量、水阻、水压等关键参数。

图 10 Gpu液冷散热设计


图 11 采用 al 3dvc 设计的 GPU 液体冷却

材料和制造商如下表2所示。所有GPU都是虚拟部件,只是热模拟器。


表2试验材料及厂家名单


第四部分 铝冷板液冷系统


对于GPU TTV系统,测试是基于500W & 700W系统进行的,模拟两个GPU串联的散热。通过向铝冷板提供不同的流量,收集IC温度,监测并收集铝冷板在不同流量下的供液温度和压降,并计算其热阻,然后根据(2)计算,其中Tinlet_ICx等于(Tcase_ICx -Inlet_liquid coolant_ICx)/P_ICx)是指液体冷却剂到ICx的入口温度。
公式(2)

表 3总结了传统刮削翅片铜冷板和拟议的铝 3DVC 冷板的测试结果,表 4详细说明了性能差异。(对于 700瓦 ,验证仍在进行中。)

表3铜/铝3dvc水冷板测试数据


表 4 GPU2 数据对比:Cu 与 Al 3DVC 冷板


从500W TTV系统数据可以得出以下结论。

● 在 2 LPM 流量下,IC 可满足 Al 3DVC 冷板解决方案的 Tcase<70C 规格
相同流量下铝合金3DVC水冷板的GPU1/2壳温及热阻均低于Cu水冷板
2LPM下铝制3DVC水冷板热阻比铜水冷板低13.1%

为了保证铝合金3DVC水冷板的可靠性,从设计上评估铝水冷板潜在腐蚀的风险,提出了一种基于Mathur经验公式和Arrhenius公式的加速验证试验。 [1]

表5加速试验参数值


在此试验条件下,假定加速腐蚀速率乘以105(21 x 5)倍,即加速试验一天的腐蚀影响相当于正常条件下3个月的结果。
本次实验所用液体为“PG25溶液+缓蚀剂+杀菌剂”,在加速工况下进行了连续20天的试验(相当于正常工况下5.7年)。
经过加速试验,外观检查未发现明显问题,热阻增加约2%,液体电导率增加约6%。
以上为初步参考数据,而加速试验模型及电化学腐蚀速率对铝冷板的影响是可靠性关注的持续任务。

对于 GPU 冷板测试系统,3DVC 铝冷板的测试结果总结在表 6中。从数据来看,所有 GPU 都可以在 75C 下运行,功耗高达 500W。

测试期间:
冷板热阻及流体电导率几乎保持不变。
PH值始终保持在8.2左右,这也说明了冷却液系统的可靠性。

表6 AL 3DVC冷板在GPU系统上的测试数据


图 12 液体样品

从回路中获得的液体并不像图 12所示那样浑浊,并且已将其送至供应商进行成分分析。

样品1:原始PG25流体样品;
样品2:运行一个月的回路中获得的流体;
样品3:将铜管插入回路,运行一个月后在回路中获得的液体。

图 13 Xeon 可扩展处理器 cpu+gpu 带铝制 3dvc


第五部分 结论


通过本文的介绍,我们可以清楚的发现,模块化设计应用到服务器领域(特别是小型、高密度的服务器,例如:边缘计算机)更能体现出它的优越性:

随着微处理器技术和 ITE 的其他进步推动了服务器的电力需求和相应的热量输出,使用传统的空气冷却来冷却服务器中的主要发热高功率组件:xPU(CPU 和 GPU)和内存是不可行的。

显然,需要采用紧密耦合或直接耦合的冷却解决方案来消除这些高功率服务器的热量,并将 xPU 温度保持在比空气冷却更低且更窄的范围内,从而减少泄漏功率,增加 Intel Turbo Boost 的机会和持续时间、可靠性和使用寿命。用于 Intel Xeon Scalable 处理器的冷板液体冷却是实现此目标的成熟解决方案。

本文提出了一种新型3DVC铝冷板,并在测试环境下对其性能进行了可靠的测试。结果表明:

●提出的3DVC铝冷板可支持500W TDP的芯片,热阻可低至0.0321℃/W@2LPM,比铜冷板降低约13.1%。压强降低至6.2kPa,比铜冷板降低65.6%
相对于传统铜合金水冷板还有成本及重量上的优势:单块铝水冷板的重量约为550g左右,其成本约为铜水冷板价格的0.6∼0.8倍。
铝冷板经初步可靠性测试,潜在腐蚀风险较低






请到「今天看啥」查看全文