专栏名称: CDCC
数据中心标准、技术沟通交流平台
目录
相关文章推荐
51好读  ›  专栏  ›  CDCC

快手先进冷板液冷解决方案的研究

CDCC  · 公众号  · 科技自媒体  · 2025-02-10 12:08

主要观点总结

文章介绍了大规模数据中心应用的先进冷板液冷解决方案研究进展。随着计算能力的快速发展和全球政府节能减排政策的日益严格,高效冷却技术受到关注。文章阐述了液体冷却解决方案的优势,展示了冷板解决方案在数据中心大规模应用的工程学习,以及冷板、CDU、通用快速连接器(UQD)、管道和流体泄漏检测等的设计细节。该工作以“Investigation on Advanced Cold Plate Liquid Cooling Solution for Large Scale Application in Data Center”为题发表在《IEEE》上。

关键观点总结

关键观点1: 背景介绍

云计算和服务被认为是第三次IT革命,数据中心消耗大量电力。CPU和GPU的高性能要求导致芯片功耗增加,传统的空气冷却方法不足以应对挑战,迫切需要更有效的冷却系统提高能源效率。

关键观点2: 液体冷却的优势

液体冷却液因其高冷却能力和效率而越来越受欢迎,特别是在国家碳减排和碳中和绿色经济政策的背景下。单相冷板技术成熟,通常用于现代数据中心,解决热设计挑战。

关键观点3: 研究成果

Intel联合快手团队发表了关于大规模数据中心应用的先进冷板液冷解决方案研究进展。展示了冷板、CDU、UQD、管道和流体泄漏检测等的设计细节。冷板的设计是液冷解决方案的关键,采用混合液体冷却方案实现最佳平衡。采用波纹软管连接方案,解决系统灵活布局问题。漏液检测绳及时发出警告信号,确保安全。实验测试验证了冷板的热冷却性能。

关键观点4: 展望与启示

随着计算能力的持续发展和节能减排政策的加强,冷板液冷解决方案将在数据中心发挥越来越重要的作用。业界专家将继续探讨创新趋势,共同推动数据中心行业的蓬勃发展。


正文

请到「今天看啥」查看全文


背景介绍

云计算和服务被认为是继个人电脑和互联网应用之后的第三次IT革命。强大的计算能力和云服务为行业各行各业的快速发展提供了巨大的动力。因此,数据中心在全球范围内的运行消耗了大量的电力。据估计,全球数据中心可能消耗350-400TWh。同时,CPU和GPU的高性能不断被要求满足工业需求,导致芯片的功耗和热通量密度更高,这使得数据中心的服务器机架功率密度不断上升。预计在不久的将来,每个机架的功率将高达40kW。大多数数据中心仍然采用空气冷却作为热管理方法,其中约40%的数据中心总能量用于冷却数据中心中的服务器。考虑到空气冷却已不足以应对大规模服务器机架的热挑战, 迫切需要开发更有效的冷却系统,提高能源效率。液体冷却液因其高冷却能力和效率而越来越受欢迎 ,特别是在国家碳减排和碳中和绿色经济政策的背景下。


过去已经提出了液体冷却解决方案并进行了大量研究。近年来,它越来越受到业界和学术界的关注。其中一个原因是数据中心的能源效率变得更加关键。在液体冷却解决方案中,单相冷板技术成熟,通常用于现代数据中心,通过直接连接CPU和GPU等高功率组件来解决热设计挑战。通过使去离子水等流体循环通过所附的冷板来消除这些主要组件的散热,而服务器中其他低功耗组件仍由空气冷却。研究表明,与完全基于空气冷却的数据中心相比,这种用于高性能数据中心的混合液体冷却解决方案可以将冷却费用降低45%。冷板液冷解决方案已被证明可以替代传统的空气冷却解决方案用于数据中心的热管理。


成果掠影

图片


近日,Intel联合快手团队发表了关于大规模数据中心应用的先进冷板液冷解决方案研究进展。 当前随着计算能力的快速发展和全球政府监管对节能减排政策的日益严格,高效冷却技术越来越受到业界的关注。同时,CPU和GPU的高性能一直被要求满足工业需求,导致芯片的高功耗和热通量密度。由于内核数量、频率、缓存数量的增加和多芯片封装(MCP)的复杂性,Intel Xeon可扩展处理器的热设计功耗(TDP)一代又一代地变得越来越高。 在最新的Intel服务器平台上,CPU的TDP将高达350W,在不久的将来,TDP和热通量密度将更高,这对在当前系统形状和热边界条件下采用传统空气冷却的系统热解决方案设计提出了极大的挑战。 如今,即使在散热器设计和气流改善方面进行了最大限度的优化,服务器系统中高性能和高功率处理器的传统空气冷却热解决方案也几乎达到了瓶颈。与传统的空气冷却技术相比,液体冷却方法具有更高的冷却能力、更好的能效和最佳的PUE水平等优点。,技术上适合应对工业挑战,并与政府的能源政策相呼应。 本文将展示这种冷板解决方案在数据中心大规模应用的工程学习,以及冷板、CDU、通用快速连接器(UQD)、管道和流体泄漏检测等的设计细节,为生态系统和其他数据中心运营商提供应用参考 该工作以“Investigation on Advanced Cold Plate Liquid Cooling Solution for Large Scale Application in Data Center”为题发表在《IEEE》上。

图文导读


图片

图1.快手冷板服务器系统。


采用混合液体冷却解决方案,以实现热冷却性能、PUE和TCO的最佳平衡。这意味着只有 CPU由冷板液冷溶液冷却,而其他部件仍由空气冷却。 液冷套件包括冷板、UQD、液体泄漏检测溶液和连接管,如下图1所示。


图片

图2.CPU冷板冷却套件。


冷板的设计是液冷解决方案的关键。在快手的解决方案中, 冷板的内部流道通过采用刮削翅片结构进行了优化 ,可以提高CPU到冷却剂的传热效率。根据计算流体动力学(CFD)分析和测试数据,冷板的冷却能力可以支持CPU的350W甚至400W TDP。为了降低冷却液循环速度并提高CDU的传热效率,两个冷板串联连接,如图2。


图片

图3. PTFE波纹管。


通常,有两种方法可以连接节点中的冷板模块。一种是与硬管的连接,通常由金属制成。另一种方式是软管连接,它由非金属柔性材料制成。柔性软管有利于系统的灵活布局,因此解决方案采用波纹软管连接方案,如图3所示。


图片

图4.快接头。


快速隔离开关是一种具有无泄漏功能的双向密封连接器。图4展示了生态系统中典型的快速隔离开关,包括联轴器的阳端子和阴端子。当服务器需要从机架上取下进行操作和维护时,只需断开公母连接器即可。它很好地解决了航道封闭问题,提高了运营和维护效率。 快速隔离开关的主体可以由不锈钢、铜、铝和树脂等制成。 为了确保快速隔离开关与冷却剂和其他润湿材料的兼容性,冷却溶液中选择了不锈钢快速隔离开关


图片

图5.漏液检测绳。


连接管和冷板之间的连接以及管和快速隔离开关之间的连接处可能存在液体泄漏的潜在风险。当操作过程中发生任何泄漏时,应及时向操作员发出警告信号,以便进行维护和更换。因此,如图5所示,液体泄漏检测线缠绕在连接管和冷板上。当存在液体泄漏时,液体泄漏线的电阻将相应地改变,从而改变电压信号。基板管理控制器(BMC)可以检测到电压变化。当低于阈值时,BMC将向操作员发送警告信号。


图片

图6. 机架液冷拓扑图。


工业中常用的冷却剂包括乙二醇、甘油和去离子水等。其中,去离子水在成本和传热性能方面具有明显优势。 因此,选择去离子水作为液体冷却溶液中的冷却剂,并进一步考虑数据中心的应用场景。 同时,在冷却液中加入额外的抑制剂,以防止腐蚀和细菌滋生,因为这会影响冷板的冷却性能,甚至堵塞管子,导致溶液失效。


图片

图7. 快手实验室冷板液冷架。


机架级液体冷却解决方案由初级侧冷却系统和次级侧冷却系统组成。一次侧连接到数据中心的设施水,二次侧用去离子水连接服务器和CDU。然后,一次侧和二次侧之间的传热通过CDU中的换热器进行。图6主要展示了二次侧的水和热的循环。在CDU中,二次侧冷却液的热量被传递到一次侧设施冷却水,然后变成低温冷却液,进入机架集水器,并通过歧管装置分配到每个服务器的冷板模块。冷板中的冷却液吸收CPU产生的热量,最后返回CDU进行热交换。这是从热源(即CPU)到设施水系统的整个传热周期。图7冷板中的冷却液吸收CPU产生的热量,最后返回CDU进行热交换。这是从热源(即CPU)到设施水系统的整个传热周期。


图片

图8. 冷板性能测试设备。


冷板经过开发和优化,以满足支持高达350W甚至更高TDP的CPU的设计目标。

冷板的热冷却性能通过一台10kW热阻测试设备进行验证,如图8和图9所示。


图片

图9.测试设备控制界面。


图片

图10.冷板中的板翼和销翼设计。


进行了广泛的测试项目,以验证对热冷却性能的影响,即不同刮削翅片设计、供应冷却剂温度、供应冷却剂流速、系统风扇速度、CPU功耗和环境温度等的影响。 为了实现冷板的最佳冷却性能,对刮削板翅片和销翅片设计进行了研究 ,如图10所示。表三总结了两种刮削翅片设计的DOE参数和测量数据。可以得出结论,在相同条件下,翅片销设计在热阻方面优于板翅片。


图片

图11.冷板热阻与流速的关系。

图片

图12. 冷板流动阻力与流速的关系。


图片

图13. 冷板热阻与功率的趋势。

图片

图14. CPU热捕获与冷却液温度和风扇占空比。


同时,通过实验测试,研究了不同因素对冷板液冷服务器的影响,并在以下相同条件下得出结论:


  • 冷板中的销削翅片设计可以在相同的流量下,在相同的翅片厚度和翅片间距下提供更好的冷却性能。

  • CPU功耗越低,在相同的冷却液流量下,服务器系统中冷板的热阻就越小。

  • 液体供应流速越大,服务器系统中冷板的液体冷却性能越好,但流动阻力也越大。

  • 液体供应温度或风扇速度越高,服务器系统中冷却板的液体冷却效率就越低。

  • 当CDU发生故障,冷却液停止循环时,液冷服务器可能会迅速过热,甚至停机。因此,在设计阶段强烈建议采取预防措施和N+1冗余,以避免灾难性故障。


文章来源:https://ieeexplore.ieee.org/document/10177559

原标题: 先进冷板液冷解决方案在数据中心大规模应用的研究

版权声明: 我们 尊重原创,也乐于分享。若涉及版权问题,敬请第一时间联系我们,24小时内删除,谢谢!

直播预告

DeepSeek的崛起,是否正在改变智算中心快速扩张的格局?DeepSeek技术突破为何被称为“游戏规则改变者”?智算中心是否会迎来降温?大模型训练与推理方式将如何演变?企业投资者该如何应对这一变革?


2月13日,CDCC直播间邀请业界专家,就DeepSeek会减少智算中心需求吗?这一核心展开讨论。


“第三届数据中心液冷大会”将于2025年3月27日在杭州召开 ,这场行业盛事将集结数据中心领域的顶尖专家、技术大牛和学术研究者,共同探讨创新趋势,携手谋划合作机遇,助力行业蓬勃发展。


关键词: 液冷、全栈、最佳实践、芯片、服务器、基础设施

嘉宾规模:500+专业人士

会议形式: 展览展示+主旨演讲+技术分享+应用案例参观


详情扫码咨询:

联系电话:13716595411

关注我们获取更多精彩内容


往期推荐

● DeepSeek会导致对智算中心的需求大幅减少吗?

● DeepSeek让多地智算中心停建!







请到「今天看啥」查看全文