专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
51好读  ›  专栏  ›  CDCC

腾讯云团队:优化散热器设计的服务器单相浸没式冷却热性能特性

CDCC  · 公众号  ·  · 2025-03-03 12:20

正文

请到「今天看啥」查看全文


人工智能、高性能计算、通信技术和云服务的快速发展对数据中心内搭载的CPU和GPU服务器提出了更高的性能要求。为了满足商用和工业级需求,由于核心数量、缓存大小和热流密度的不断增加,CPU和GPU的热设计功率(TDP)也一代一代地上升。Intel XEON处理器的TDP已经达到350W,Nvidia的H100 GPU的TDP甚至高达700W。在目前散热器禁区、气流和现成的散热器技术的边界条件下,采用传统风冷方案进行系统热设计面临巨大挑战。因此,液冷技术受到越来越多的关注,以应对芯片TDP不断提高和数据中心机架功率密度不断提高带来的热管理挑战。在这些新型液体冷却解决方案中,单相浸没式冷却(1-PIC)因其在增强冷却能力、提高组件运行可靠性和优化电源使用效率(PUE)方面比空气冷却解决方案具有特殊优势而应运而生。腾讯云(腾讯)在全球数据中心部署了大量服务器,以满足各行各业的需求,每年消耗大量电力。为了减少碳足迹并实现绿色可持续的数据中心,我们构建了一个采用氟化学流体的1-PIC解决方案原型,以研究冷却性能和优化以供未来应用。本文通过计算流体力学(CFD)分析和实验研究,研究腾讯在英特尔鹰流(EGS)平台上开发的服务器上1-PIC的热性能特性。热性能基于系统级别来表征以代表真实的操作场景。同时,本文还描述了原型水箱的设计、浸没式服务器的返工、......

第一部分 介绍


近年来,随着人工智能、高性能计算、通信技术和云服务的不断发展,数据中心的算力呈现指数级增长。 随着计算能力需求的不断增长和半导体制造工艺的提升,通过集成更多的MOSFET、物理核心数量和缓存大小,硅芯片的热设计功率(TDP)一代又一代地不断提升。 例如,在最新的服务器平台 [1] 上,Intel XEON处理器的TDP已经达到350W,而Nvidia H100 GPU的TDP甚至高达700W [2] 此外,预计未来几年TDP还将继续增长。 如图1所示,在过去十年中,Intel XEON CPU的TDP从Romley平台上的150W急剧上升到最新Eagle Stream平台上的350W。

图1 Intel服务器平台XEON TDP趋势

随着TDP和系统功率密度的不断提高以及政府对节能减排的严格监管,传统的风冷由于冷却能力差和电源使用效率(PUE)高而成为冷却大功率微处理器和密集封装的瓶颈 [3] 。PUE定义为投入设施的总能量与设施内IT设备消耗的总能量之比。因此,业界一直在寻求更有效、更高效的服务器冷却和数据中心应用热管理,以实现最优运营费用(OPEX)、总拥有成本(TCO)和PUE。业界对液冷技术进行了多年的研究 [4] ,液体作为传热介质效率更高,并且比空气能提供更高的冷却能力 [5] 。此外,单相浸没式冷却(1-PIC)解决方案近年来因其冷却能力强、部件故障率低和PUE最优而越来越受欢迎。有研究报告称,采用浸没式冷却方案,数据中心的PUE可达到 1.02~1.04 [6]、[7]、[8]、[9] 。这意味着,在相同工作负载下,与风冷数据中心相比,数据中心的能耗可降低10%-50%。同时,每个机架的最大功率密度可高达250kW [10] ,远高于风冷。

阿里巴 巴[11] 、字节跳动 [12] 和英特尔 [13] 等公司也已报道了1-PIC。 与风冷解决方案不同,1-PIC解决方案不再需要系统风扇,有利于降低功耗和噪音水平。 此外,由于浸入式冷却解决方案的PUE和机架密度更高,其所需空间减少到传统风冷解决方案所需空间的近三分之一 [14] 在1-PIC解决方案中,液体始终保持液态,没有相变。 CPU和GPU等组件散发的热量被流过它们的液体带走。 通常,液体循环由泵驱动,泵迫使液体从水箱底部流到水箱顶部。 然后,热液体通过CDU内部的液体-水热交换器冷却。

碳氢油是常用的浸没液,在过去对此进行了大量研究 [15]、[16] 近年来,氟化学液体因热容量高、粘度低、维护方便等特点而逐渐受到人们的关注。 然而,由于缺乏足够的关于单相氟化学液体冷却能力的公开数据,大多数数据中心运营商不愿在数据中心应用上尝试这种方法。 为了弥补行业中的这一空白,本文基于POC原型设置环境,详细描述了1-PIC下氟化学液体的热冷却性能及其影响因素。 通过实验研究不同散热器设计、液体流量、入口液体温度和服务器安装方向对热冷却能力的影响。 此外,还进行了CFD分析以进行前期调查和技术铺平。 本文还讨论了一些其他方面,例如POC水箱设计、服务器返工、液体选择和最大CPU Tcase预测等。

第二部分 1-Pic沉浸式Poc设置


本节介绍了1-PIC POC的搭建、用于研究散热性能的定制服务器、氟化学流体的物理参数以及CPU与散热器之间的热界面材料(TIM)的选择等,还详细描述了硬件配置和为适应浸没环境而对风冷服务器进行的返工。

A 水箱设计和设置

腾讯为技术可行性研究开发并构建了1-PIC POC原型机,如图2所示。该POC外形尺寸为1488mm(L)x840mm(W)x 1200mm(H)。

图2 1-腾讯开发的PIC POC原型

如图3所示,该POC原型包含三个主要部分。左侧部分是带顶盖的容器,其中装有单相氟化学流体,可提供6U空间,可容纳3个2U服务器或6个1U服务器。中间部分用于控制管理电源单元(PSU)输送、水箱泵和空气推动器。热交换器位于右侧部分内部,用于热传递,将废热散发到外部空气环境中。

图3 1-PIC POC模块的功能和内部架构

POC原型机可冷却10kW散热,供应3.6m 3 /h流体流量,设计兼容单相氟化学流体,可承受2.0bar压力,内衬和透明顶盖可承受1.2kPa密封性和保压性,详情见下表一。

表1 POC模块运行参数

B 服务器设计和重做以适应沉浸式体验


本文采用腾讯开发的定制风冷2U服务器进行热研究。为了使服务器适应浸没环境,进行了一些修改以确保正常运行。必须从服务器上移除系统风扇以减少流动阻力,并且需要更新BMC以确保服务器可以在没有风扇转速表(TAC)信号的情况下运行。同时,要求对带有集成风扇的PSU模块进行固件(FW)返工。在本次调查中,移除了前置硬盘驱动器、背板和系统风扇笼,以减少额外的流动阻力并预热驱动器。

C 硬件配置


该服务器基于英特尔Eagle Stream (EGS)平台设计。CPU为英特尔第四代至强处理器,代号为Sapphire Rapid,TDP为350W。服务器还包含其他硬件组件,如32x 64GB DDR5内存、2x PSU、1x双端口100GB OCP 3.0模块和1x M.2 SATA SSD,如图4所示。在本文中,作者主要研究不同流速和散热器设计下CPU的冷却能力。还简要介绍了浸没环境下其他组件相对于风冷的冷却改进。

图4 2U定制型浸没式调查服务器

D 浸泡液的选择


多年来,工业界一直在研究碳氢油作为浸没流体,然而,碳氢油的一个主要缺点是由于粘度高导致冷却能力差。例如,在40°C时,聚α烯烃(PAO)流体的运动粘度分别为典型的PAO2、PAO4和PAO6流体的5.0cSt、19.0cSt和31cSt左右。

为了达到最佳的冷却性能,选择并采用了单相氟化学流体,因为它具有更好的物理参数,如下表二所示。

表2 浸没液的物理参数

E 热界面材料的选择


材料兼容性是浸没应用的一个关键要素。必须分析服务器中的所有材料在浸没液中的兼容性。TIM通常用于组件和冷却解决方案(即CPU和散热器)之间,以增加热传递。如果TIM不兼容,组件将面临高风险,导致冷却解决方案失效而导致组件过热。因此,建议选择合适的TIM进行浸没调查。在本文中,DOWSIL™TC-5888的TIM用于研究CPU的冷却性能,如图5所示。验证期间未观察到性能下降,但长期可靠性尚未通过认证。强烈建议在大规模应用之前进行长期认证。

图5 TC-5888 CPU散热器底面TIM材料

第三部分 数据汇总与分析


本节展示了在风冷和浸没冷却环境下不同1U和2U外形(FF) CPU散热器设计的热性能曲线的测量数据摘要、流体流量、入口流体温度和CPU散热器方向对冷却性能的影响以及CFD分析、最大CPU TDP支持的预测和浸没环境下对其他组件的益处等。

A 风冷CPU散热器的热性能


2U FF风冷CPU T型A型散热器是腾讯为定制服务器开发的,其主体和支腿的翅片间距分别为2.29mm和2.0mm,如下图6所示。测量了其在不同系统风扇转速下的性能曲线,并以此作为性能提升对比的基准。

图6 2U FF风冷CPU T型A散热器

如图7所示,在典型场景下,风扇通常以30%的占空比运行,热阻为0.117℃/W。即使在更高的风扇转速下,即80%,热阻仍然为0.074℃/W,此时系统风扇会消耗更多的功率。

图7 2U FF T型A散热器的空气冷却性能曲线

B 浸入式散热器设计的CFD分析


以2U T型机箱-A进行CFD分析,研究散热性能,结果显示CPU0及CPU1在2L/m时的热阻(Psi-ca)分别为0.0617℃/W及0.0609℃/W,可由下列公式(1)计算得出。同时发现在较高流量(例如3L/M)下,Psi-ca的改善不大。

(1)
Tcase 是在Intel提供的CPU热模型的封装中心捕获的,如图8所示。

图8 CPU热模型上的Tcase位置

图9 沉浸环境中服务器的CFD建模

图9所示的建模还表明,翅片间距对冷却性能有明显的影响。随着翅片间距的增大,热阻也会增加。

C 浸入式散热器实验数据


除了专门设计的2U风冷散热器外,还开发了几种不同设计的CPU散热器来研究单相浸没环境中的热性能。图10和下表III分别说明了用于冷却性能研究的CPU散热器的外观和参数。


图10 不同CPU散热器设计的外观,用于性能调查

表三 不同CPU散热器设计的参数

测试过程中,服务器上的CPU通过Intel Power Thermal Utility (PTU)工具承受 100%压力负载,因此CPU可以稳定地以350W的TDP运行。图11中的CPU的Tcase和入口流体温度是用Omega T型热电偶和Agilent 34970A设备测量的。Psi_ca用公式(1)计算。

图11 CPU顶面上的Tcase测量位置

图12 1U FF CPU散热器与液体流量性能曲线

图12展示了1U FF CPU散热器在不同流体流经每台服务器时的热性能曲线。1U标准方形散热器最差,而散热片密集的1U T形-A散热性能最好。例如,在典型流速 6.0L/M下,1U标准散热器和1U T形-a/-b/-c的Psi_ca分别为0.0838°C/W、0.0660°C/W、0.0695°C/W和0.0715°C/W。此外,可以观察到,随着散热片变松,热阻增加,热性能会下降,即1U T形-B和-C。

图13 2U FF CPU散热器与液体流量性能曲线

如图13所示,散热性能方面,鳍片密集的2U T型-A散热效果最好,当鳍片变得松散时,即2U T型-B和-C,散热性能也会下降,热阻会增大。但是2U标准方形散热器的散热性能不如2U T型-A,但优于2U T型-B和-CEg,在典型流量6.0L/M时,2U标准散热器和2U T型-A/-B/-C的Psi_ca分别为0.0543℃/W、0.0463℃/W、0.0683℃/W和0.0746℃/W。

观察发现,在同样的KOZ设计下,随着鳍片的松散,热阻增大,散热性能会下降,即2U T形-A优于2U T形-B和-C。同时,随着主体和支腿体鳍片间距的增加,超过转折点后,散热性能开始下降,即2U T形-B主体和支腿体鳍片间距分别为4.6mm和4.0mm,由于散热器传热面积较小,散热性能甚至不如2U标准方形散热器。因此,作者强烈建议对散热器进行优化,通过CFD建模找出最佳的鳍片厚度和鳍片间距,以获得最佳的散热性能。

图14 2U T型A型散热器在不同入口流体温度下的性能曲线

2U T型A型CPU散热器具有最佳的散热性能,在6L/m时热阻可达0.0463°C/W,因此选择该散热器在不同入口流体温度下进行进一步研究。测量数据如图14所示。随着流体温度越来越高,热阻也会逐渐减小。这应该是由于流体在不同温度下的物理参数变化引起的。当流体变得越来越热时,性能系数(FOM1) [17] 会越来越高。这将有利于自然对流下的浸入式冷却性能。

D 各种CPU TDP的Tcase预测


1-PIC解决方案的主要优势之一是高散热能力,可支持更高的CPU TDP。根据各种CPU散热器设计的热阻测量数据,结合边界条件定义,即40°C入口流体温度和6L/m流量,可预测不同TDP水平下的CPU Tcase,如表IV所示。

表IV 各种CPU TDP的TCASE预测

Tcase根据下面的公式计算。
可以预测,在最佳机壳散热器设计为2U T形A的情况下,350W、500W和700W 下的Tcase分别为56.2°C、63.2°C和72.4°C。

E 服务器方向对热性能的影响


一些研究 [12]、[18] 报告称,带有延伸热管的CPU散热器的方向可能对浸没环境中的冷却性能产生关键影响。本文还通过将服务器放置在两个方向来研究这种影响,如下图15所示。

图 15 沉浸式环境下服务器的两种定位

CPU的Tj温度是通过PTU工具获得的,并总结在表V中。边界条件设定为入口流体温度40°C和12L/m。当PSU位于水箱顶部时,CPU0和CPU1的Tj分别为70°C和 72°C。并且,当服务器旋转180°且PSU位于底部时,CPU0和CPU1的Tj将分别降至 58°C和59°C。热阻也会受益,即CPU0的Psi_ja从0.0858°C/W提高到0.0514°C/W,而CPU1的Psi_ja从0.0915°C/W提高到0.0543°C/W。重力作用下热管中流体再循环的效率更高,应该会提高这种性能优势。

表五、不同浸泡方向下的CPU结温


热阻(Psi-ja)用下面的公式计算。

F 其他部件的冷却改进

除了CPU之外,服务器中的所有其他组件都应受益于冷却条件,例如DDR5 DIMM、电压调节器模块(VRM)、OCP模块和PCH芯片等。表VI总结了风冷和浸没式冷却解决方案下这些组件的温度。这表明其他关键组件可以更冷,从而实现更好的运行可靠性和更低的泄漏功耗。

表VI 不同浸泡方向下的CPU结温

第四部分 总结


为了探究全浸环境下的散热性能,为后续应用铺平技术道路,腾讯设计并开发了1-PIC POC方案原型,同时对基于Intel XEON平台的定制风冷服务器进行了硬件和固件方面的改造,以适应全浸水箱,并开发了不同设计的1U和2U CPU散热器,并在POC水箱中进行了验证,以研究热阻方面的散热能力。

可以得出,对于1U FF散热器,具有密集散热片的1U T形A散热器性能最佳,而1U 标准方形散热器性能最差。而对于2U FF散热器,具有密集散热片的2U T形A散热器性能最佳,但是,2U标准方形散热器的性能优于具有较松散热片的2U T形B/-C散热器。此外,由于流体变得越来越热,FOM1会变得越来越高,因此热性能将得到改善。此外,已经证明,支腿上的散热片必须放置在重力的相反方向上,以便有效地再循环热管内的冷却液并获得更好的冷却性能。除了CPU之外,服务器中的其他组件也可以在浸没环境中以较低的温度运行,从而获得更好的可靠性。

长期材料兼容性和对信号完整性的影响也是1-PIC解决方案应用的关键关注点,由于时间限制,本文未将其包括在内,但计划在所有热调查完成后作为下一步工作。

翻译自:https://ieeexplore.ieee.org/document/10709588
感谢该团队对行业的奉献致敬!


声明
部分素材源自网络,版权归原作者所有。分享目的仅为行业信息传递与交流,不代表本公众号立场和证实其真实性与否。如有不适,请联系我们及时处理。欢迎参与投稿分享! 联系方式: 微信:jishn1235

第三届数据中心液冷大会”将于2025年3月27日在杭州召开 ,这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇,助力行业蓬勃发展。


关键词: 液冷、全栈、最佳实践、芯片、服务器、基础设施

嘉宾规模:500+专业人士

会议形式: 展览展示+主旨演讲+技术分享+应用案例参观

关注我们获取更多精彩内容


往期推荐

● DeepSeek会导致对智算中心的需求大幅减少吗?

● 聚焦创新力量,液冷技术大会首度落地杭州

● 2025年了,当我们谈论数据中心液冷技术大会的时候,应该谈什么?

● 数据中心建设热潮持续扩张,2025年欧洲将新增1GW托管容量







请到「今天看啥」查看全文