本文件介绍了一系列基于Meta的AI训练平台(Zion和Grand Teton)的液冷案例研究。分享以下方面的学习成果:
· 在特定假设条件下,各种技术的推测冷却极限
·
冷板解决方案的性能及学习要点
·
影响温度梯度/冷却极限的因素
·
大规模实施所面临的广泛挑战
通过分享这些案例研究和背景信息,希望大家共同合作于:
本文档中分享的结果旨在解释先前的学习和观察到的挑战,并不一定代表当前最优解决方案的结果。
近十年来,液冷技术一直是高功率数据中心级芯片冷却的一项颇具前景的技术。随着芯片功率、系统密度和运行效率需求的不断增加,促使从传统的空气冷却向多种形式的液体冷却过渡。这一转变已被包括高性能计算(HPC)客户、专业用户以及高端游戏消费者在内的各类用户所接受。
然而,对于那些已经拥有原生空气冷却数据中心的用户来说,转向液冷是一个非常复杂的决策过程,需要进行协调一致的权衡分析、判断决策和实施计划。在2021年OCP全球峰会、2023年OCP区域峰会以及AI基础设施规模化讨论中,Meta阐述了我们为多代产品在未来可预见的时间内实现AI硬件液冷设施的路线图。
在本文中,我们将基于Zion平台介绍液冷实践,包括设计、性能以及本研究中观察到的机会和挑战。无疑,我们的结果/预测存在依赖性和不确定性。展示这些研究的目的在于分享我们的愿景,并指出我们希望社区能够共同合作解决的共同挑战。
本文中提出的所有液冷分析均基于单相冷板解决方案,使用25%丙二醇作为冷却剂,除非另有说明。
随着AI/ML应用需求的不断增长,对具有更高计算能力、更高带宽,因此也更高功率的训练模块(包括GPU、OAM等类似设备)的需求也在增加。自2016年开始使用GPU产品进行机器学习训练以来,训练模块的功率一直处于持续增长的趋势。图1展示了已公布的各类训练模块的热设计功率(TDP)。
根据OCP区域峰会小组讨论中的简化趋势线预测,训练模块的功率提供可能会在2025年达到1千瓦,并在2030年前达到1.5千瓦。多芯片模块,或所谓的超级芯片,由于其上集成了更多的功能和计算能力,以及更大的封装表面积,可能更快地突破这些趋势线,达到更高的功率水平。
图1,基于2016年至2023年间宣布的各种产品,展示了AI/ML训练模块的功率趋势,以及OCP区域峰会讨论小组对2023年至2029年的预测
考虑到无法冷却更高功率的风险,我们在各种条件下推导出了冷却限制估计,并将其与以效率为导向的功率利用率预测相匹配,而不是潜在的最大TDP(热设计功率)提供。这导致比图1更低的功率预测,但其实现的愿望更强、概率更高。Meta AI/ML冷却路线图2021基于以下假设制定,其中一些可能仍然正确,但有些可能与现状不完全匹配:
图2是我们于OCP全球峰会2021上发布的AI/ML冷却预测的简化版本,展示了随着模块功率的增长如何促使设施提供的解决方案代代进化。图2中AALC(高级液体冷却)和设施水冷(FWC)的上限线是基于特定假设得出的:
·
风冷 - 干空气,30°C供应温度,0.145 CFM/W
·
AALC - PG25,40°C供应温度,1.5 LPM/kW
·
FWC - PG25,30°C供应温度,1.5 LPM/kW
根据分析,实施液冷的需求显而易见。无论是模块功率还是HBM功率趋势都已突破风冷的上限,甚至使用较暖冷却剂供应温度的液冷也不足以应对。Meta从风冷转向液冷的战略,以AALC作为过渡方案,在5月的“大规模AI基础设施”演讲中被提及。
在过去几年中,我们观察到设计、技术和部署考虑方面的变化,这些变化倾向于支持模块化冷却能力。展望未来,从我们现在的位置来看,用户可能能够冷却比图2所示功率更高的产品。然而,另一方面,我们也可能看到更高功率水平的产品会比这一预测更早推出,以便在每个用户的基础设施限制内最大化AI训练能力。
很明显,冷却剂供应温度可以直接影响具有确定架构的短程产品的可接受热设计功率(TDP),并决定远程产品如何在具备足够的热稳健性的前提下达到特定的TDP目标。用户和模块提供商之间就短程和远程产品可实现的冷却剂供应温度达成共识是有益的。这样可以避免冷却能力与可提供功率之间明显的不匹配,或是基础设施设计中不必要的过度准备和风险,这些都可能从多个角度阻碍解决方案的进步。
特别是,为什么要以30°C作为技术流体供应设定点?这一选择是基于以下几个因素的结果:
选择30°C有助于优化数据中心的能源使用效率(PUE)和水资源使用效率(WUE),从而达到更高的可持续性标准。
在较高温度下操作可以减少空气供应回路中发生冷凝的风险,确保系统的稳定运行。
·
支持或进一步扩展以支持可预见的发展路线图的能力
采用30°C的设定点能够确保冷却系统不仅满足当前的需求,还具备足够的灵活性和能力来应对未来可预见的技术发展和需求增长。
受多种因素的影响,30°C可能不会成为最终的设定点,随着我们在未来几代中获得更多知识,这一数值可能会有所变化。然而,具备这种能力的数据中心不会失去适应略有不同场景的灵活性。我们希望在整个社区内建立更紧密的合作关系,提出有助于推动向更窄温度范围收敛的考量因素和材料。这样可以确保我们在不断发展的技术环境中保持最佳实践,并促进行业的共同进步。
2.1 Tide 1.0 - 面向组装与可靠性的设计
Zion系统作为Meta在2019年宣布的旗舰AI/ML平台,也是我们探索液冷解决方案、设定未来期望和识别风险领域的主要载体。
图3展示了Tide 1.0的设计概念以及通过计算流体力学(CFD)建模、TTV测试和真实Zion系统测试得出的性能曲线。CFD分析和TTV准备工作均以高质量完成,准确反映了实际性能,仅有微小差异。这一实践有一个独特的特点:一个适配板覆盖了没有盖子的封装及OAM-A的所有VR组件;顶面和冷板之间仅存在一种类型的导热材料(TIM)。这种设计面向组装和可靠性的同时,其性能仍然足够强大,能在一定程度上支持未来的增长。
图3,左- Tide 1.0的设计概念,安装在Zion的加速器模块板上,并连接到8个OAM-A模块。右-单个冷板的结至进口热阻和压降,假设流体分布均匀。
2.2 Tide 1.5 - 面向性能与简洁性的设计
随后,为了支持Zion平台上更高TDP的另一模块OAM-B,开发了Tide 1.5。OAM-B是一个带盖的产品,因此解决方案的设计调整为更加注重简洁性和性能。如图4所示,Tide 1.5冷板组件也被贡献给了OAI小组,用于协调研究OAM液冷指南的制定。
图4,用于Zion平台的Tide 1.5冷板回路组装,采用OAM-B模块。该组装被分为两个相同的部分,每个部分都使用SCG06快速接头(QDs)配备一对冷却剂供应/回流管道。
Tide 1.5冷板解决方案是针对特定芯片特性优化的单相冷板性能的一个很好的代表。与空气冷却相比的性能,基于实际系统测试的结果,如图5所示,显示了至少60%的壳体到进口热阻降低。最低达到的热阻为0.02°C/W,此时导热材料(TIM)接触热阻估计为0.1°C·cm²/W。
TTV继续充当解决方案验证中不可或缺的一部分。此次验证采用了OAM1.0 TTV,其设计展示于图6,性能展示于图7。尽管它并非能够代表OAM产品所有热特性和电源传输特性的完美产品,但在以ASIC为中心的负载条件下,它能以较高的准确性捕捉顶部散热情况。图7所示的对比显示,它与OAM-B的标称热阻有很好的匹配。OAM1.0 TTV的设计和原型已被提供给多个OCP合作伙伴,用于冷却解决方案的基准测试。
图5,展示了在单个散热器/冷板级别上,跨风扇占空比/流速范围的壳体到空气/液体入口的热阻。通过假设流体分布是均匀的,方程中已消除预热的影响。
图6展示了使用薄箔加热器的OAM 1.0热测试车辆。最大可实现的TDP为1kW。它可以进一步修改以代表各种功率分布图。
图7展示了在Zion系统中,OAM1.0热测试车辆(TTV)与实际OAM-B模块上的Tide1.5冷板的热阻对比。TTV显示出更佳的部件间一致性。
Tide 1.5展示的冷板性能被认为是支持功率增长所必需的条件之一,然而对于即将超过1kW的功率增长来说,这还远远不够。Tide 2.0是为Grand Teton系统(图8)开发的液冷解决方案,具有以下特点:
图8展示了适用于Grand Teton平台的Tide2.0冷板回路组装设计。
Tide 2.0的开发综合考虑了性能、组装、可靠性和可扩展性方面的期望。概念验证原型将在2023年OCP全球峰会上于Meta的展位上展示,更多细节将在后续的沟通中介绍。Tide 2.0展示出的性能,加上对封装特性的假设,最接近我们路线图预测(图2)中所示的上限线,甚至在某些方面略胜一筹。