数据中心和高性能计算 (HPC) 系统的需求不断增长,因此需要创新的热管理解决方案。随着服务器密度和功耗不断上升,传统的空气冷却方法难以保持最佳工作温度,导致性能下降和潜在的硬件性能下降。
在服务器系统中,冷却策略中经常被忽视的一个关键组件是DIMM(双列直插式内存模块)。Qi和Xiang介绍了服务器平台高功率内存模块的热管理[1]。DIMM装有内存芯片,会产生大量热量,增加系统整体热负荷。随着DRAM技术从DDR3到DDR5的发展,DRAM的功耗大幅增加。通常以15W为标准,区分普通DIMM和高功率DIMM。DIMM冷却不足会导致热节流、内存错误和系统寿命缩短。Je-Hyoung和Jae-Sang讨论了考虑风速、芯片尺寸和功耗的高功率内存模块的热预测[2];Son和Lho介绍了强制风冷解决方案中的热分析方法[3]。
液体冷却解决方案为解决与 DIMM 相关的热挑战提供了一种有前途的替代方案。液体冷却解决方案并不是工业领域的新技术。Yunhyeok 和 Hyejung 在 2003 年讨论了高密度内存模块上的微冷却应用[4]。近几十年来,人们讨论和研究了内存的空气和液体冷却解决方案。随着 DDR5 等功耗更高的模块的商业化,内存的液体冷却解决方案变得越来越重要,以提供足够的冷却能力。本文介绍了一种已申请专利的 DIMM 液体冷却解决方案,称为“基于模块化热和机械冷板的高功率内存液体冷却解决方案”,使用连接到 DIMM 的特殊设计的散热器来分散 DIMM 组件产生的热量,然后将热量传输到远程冷板,利用流动的液体交换热量,确保 DIMM 在合适的环境下工作。
在深入研究新的设计理念之前,快速回顾一下现有 DIMM 液体冷却解决方案的一些关键特性,以帮助人们认识其局限性并了解何时替代设计更合适。
目前业界多采用钢管或铜管连接冷板对DIMM组件进行冷却,TIM贴附在管体表面,利用TIM与DIMM接触进行冷却。图1为目前市面上可用的DIMM液冷管解决方案,参考联想Think System SD650-N V2服务器实物[1]。
图 1.服务器系统 SD650-N V2 服务器[5]
这种设计可以通过降低DIMM温度来提高DIMM的性能,但是由于受到一些限制,其对于部署来说仍然存在一些缺点。
兼容性和成本:由于系统布局的多样性,这种采用固定DIMM间距的设计无法作为标准部件来实现到不同的平台,这将使整体成本增加。
维护:DIMM 液冷系统要求在插拔 DIMM 时易于维护,目前的设计在插拔 DIMM 时有破坏管表面 TIM 的风险,也有可能由于难以控制接触力而使 DIMM 与管接触不良,这将使 DIMM 温度分布不均匀。
模块化散热器和冷板设计的主要目标是保持 DIMM 和散热器之间稳定的接触力,以使 DIMM 内的温度分布均匀,并降低系统维护的复杂性。
该设计是通过单独组装 DIMM 和散热器,然后将 DIMM 模块插入系统,使用压力提供夹具将散热器与冷板接触,以使从 DIMM 组件到液体的热传递循环平稳进行。
图 2.用于 DIMM 液体冷却的模块化散热器和冷板解决方案
对于 DIMM 液体冷却解决方案,模块化散热器和冷板设计有三个主要优点。首先,夹子提供的稳定均匀的接触力可确保 DIMM / TIM1(DIMM 和散热器之间的导热间隙垫)/散热器良好接触,这将避免 DIMM 上的温度分布不均匀并增强 DIMM 的散热性能。其次,DIMM 间距的基准设计为 0.297 英寸,这可以普遍用于从 0.297 到 0.35 英寸的各种 DIMM 间距平台设计,使用一个散热模块可以在多个平台上采用,这将节省更多的工具成本。第三,通过改变散热器材料或散热器设计可以适用于不同的 DIMM TDP 遵循成本和性能导向。
为了证明模块化散热器和冷板设计对于 DIMM 液体冷却解决方案的优势,使用 Flotherm2210 工具进行了热模拟,以评估与传统管冷板解决方案相比的热性能。
热模型是使用DDR5 TTV(Thermal Test Vehicle)建立的,用于热模型相关性(图3和图4显示了详细的热模型信息),在热仿真中只需检查理想状态下的热性能即可比较两种解决方案之间的差异。
图 3.用于 DIMM 液冷的传统管和冷板解决方案
图 4.用于 DIMM 液体冷却的模块化散热器和冷板解决方案
由于该解决方案仅使用单侧散热器或管道接触 DIMM 组件,因此在这两种 DIMM 液体冷却解决方案中,DIMM 组件的另一侧始终是最坏情况。在相同的边界条件下,假设液体流速为每回路 1LPM,液体流动的温度遵循 ASHRAE W45 作为模拟的热边界条件。管道解决方案具有子通道,因此与模块化散热器和冷板解决方案相比,每个 DIMM 的流速会更小,图 5显示了这些概念之间的液体流量分布差异。
根据TTV测试结果,测试结果与模拟结果相差约5%,无论是测试还是热模型模拟,模块化散热器和冷板解决方案始终基于单个原型测试结果表现出较低的热阻(提高8〜19%),考虑到原型样品的变化,该结果最接近平均值。
在热模拟模型中,将 DDR5 TTV 模型替换为 TDP 为 22.1W 的功能性 DDR5,以验证功能性 DIMM 性能。图 6展示了模拟和测试中的热性能改进。蓝色条显示了传统和建议解决方案在模拟中的比较,功能性 DIMM 模型的改进高达 19%。橙色条显示测试中的改进,性能提高了 8%。
功能性 DIMM 有多种类型的组件,例如 DRAM、缓冲器、寄存器、PMIC 和 SPD,只有 DRAM 是 DIMM 中的瓶颈,因为 DRAM 的温度规格低于其他。从模拟结果来看,DRAM 放置在空气侧的中心区域是最坏的情况,因为 DRAM 的自热和更高功率组件的交叉加热影响,它总是首先达到温度极限。
散热片表面温度分布如下图7所示,散热片与DIMM接触面整体温度分布范围在7~8℃左右。所有DRAM封装中心温度均受到监控,并报告最坏情况的温度。图8显示了DIMM两侧的温度分布,DIMM未与散热片接触的一侧温度较高(纯液冷模拟,DIMM区域无任何气流通过)。如果想进一步提升DIMM性能,需要考虑使用散热片与DIMM双面接触,以确保DIMM两侧温差较小。
图 7.散热器表面温度分布
模块化散热器和冷板解决方案已通过 DDR5 TTV 进行原型设计和验证。现已在 IEIT 的全液冷解决方案中进行协同设计并实施。图 9显示了 2U 服务器中带有 4 个半宽节点系统的模块化 DIMM 液冷解决方案。但是,此冷却解决方案可用于不同的系统和电路板布局。图 4所示的冷板可以延长和缩短以适应 DIMM 数量。在具有更多 DIMM 插槽的扩展核心系统中,可以将更多单独的 DIMM 散热器组装到冷板上。凭借灵活的设计,模块化散热器和冷板解决方案可以适用于具有不同布局和外形尺寸的系统。
IEIT 液冷系统采用两个 CPU 影子核心布局,每个 CPU 配备 8 个三星 64GB 4800MHz DDR5。根据初步测试数据(表 1 IEIT 液冷系统 DIMM 性能)显示,DIMM 具有热裕度,并且大致证明可以支持与模拟结果相同的更高 TDP。
为了满足内存功耗的持续冷却要求,本文提出了一种新型液冷内存解决方案。模块化散热器和冷却板的 DIMM 液冷解决方案的新概念已在多种概念中申请专利,突破了当前内存液冷的冷却限制。与传统的内存冷却板管解决方案相比,所提出的解决方案的热性能提高了 8~19%。基于 DDR5 内存热模型进行热分析,以展示所提解决方案的内存冷却能力。设计了原型来演示该概念,以验证是否可以实现冷却能力目标。测试数据显示,基于 TTV 测试结果的测试和模拟之间的差异在 5% 以内。此外,模块化内存冷却板解决方案集成到功能系统中,以证明该设计目标具有更好的性能。下一步,将计划进一步研究以改进设计和性能,以按照 DIMM 的路线图支持更高的 TDP DIMM。