专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
数据中心运维管理  ·  我国算力中心大盘点,8大枢纽与10大数据中心 ·  5 天前  
数据中心运维管理  ·  国内首个洞库式数据中心!贵安腾讯七星数据中心 ... ·  昨天  
Java知音  ·  MyBatis批量插入几千条数据,请慎用fo ... ·  20 小时前  
数据分析与开发  ·  强烈建议尽快搞个软考证!(重大利好) ·  6 天前  
字节跳动技术团队  ·  又稳又快!基于ByteHouse ... ·  4 天前  
字节跳动技术团队  ·  又稳又快!基于ByteHouse ... ·  4 天前  
51好读  ›  专栏  ›  数据中心运维管理

冷却分配单元:液冷系统的核心

数据中心运维管理  · 公众号  · 数据库  · 2024-11-20 14:47

正文

AI需求所带来的高热负载挑战,冷却分配单元如何提升效率、可扩展性与可持续性

如所有数据中心行业工作者或关注者所知,人工智能(AI)和机器学习(ML)应用需求的增长正在推动全球范围内对数据中心的投资。AI和ML的需求也在促使数据中心管理者重新审视其冷却设计,以应对新一代芯片的高热负荷。

数据中心管理者必须设计基础设施以支持高热负载,同时具备扩展运营的能力以满足需求。扩展能力不能总是依赖于更多的物理空间——数据中心管理者和工程师们通常需要解决在相同空间内容纳更多、更高热负荷服务器的技术问题。此外,他们还需要保持24/7的正常运行时间:AI应用的需求不会因数据中心改造而暂停。

此外,行业对电力使用的关注也在增加,因此数据中心管理者需要特别注意其用电方式。可持续性始终是数据中心行业的讨论话题,而这种关注的增加将会促使更多关于电源使用效率(PUE)和电源管理的讨论。

转向液冷

为了支持这些需求并满足高性能芯片的需求,数据中心正逐渐转向液冷技术。通过合理地使用液冷技术,数据中心管理者可以极大地改善PUE,甚至在使用下一代IT设备的应用场景中亦然。液冷是一系列技术的总称,涵盖了从使用冷却液辅助空气冷却性能到完全将设备浸没在非导电液体中等不同方式。液冷是一种高效的冷却技术,因为液体的热传递能力远高于空气。它还可以被泵送至更靠近热源的位置,从而在热量生成处捕捉并转移出系统。

液冷可以帮助数据中心在保持空间和能源使用效率的同时增加容量。它还可以带来可观的投资回报,降低数据中心设施的总拥有成本。液冷系统提供了一种有效的解决方案,既可以实现所需的温度参数,又能减少冷却系统的能耗。

液体的热传递能力远大于空气。这有助于液冷提升电源使用效率,有效管理热负载、降低能源成本并促进环境可持续性。

液冷系统的核心

对于设计液冷系统的数据中心管理者来说,选择合适的冷却分配单元(CDU)至关重要。CDU在闭环系统中将冷却液泵送至机架和芯片,并通过精确控制调节液体温度和流速以最大化效率。

热或冷的液体通过软管和分配器循环到IT设备,再返回CDU,通过设施水冷却并重新循环。整个系统是一个完全封闭的回路,因此泄漏或液体接触电气设备的风险降到最低。然而,为了将泄漏风险降至最低,可靠的液冷系统是必须的。

CDU是数据中心液冷效率的核心,选择合适的CDU至关重要。虽然CDU可能都具有类似的功能和优势,但数据中心管理者需要超越表面去考察。

考察基于测试的性能而非理论预测

为满足不断增长的需求,并适应IT机架内外冷却系统回路中的高压降,CDU通常被推至最大热性能和水力性能的极限,这是必要的。然而,由于流动的物理特性,高流速下水力和相关的热损失可能会在管道和热交换器中逐渐显现。

网络建模、热交换器选择软件、计算流体力学和数字孪生等工程工具在选择最佳组件和构建原型时是很好的资源。然而,将CDU系统在所有应用范围内的极限条件下进行完整测试,才是真正的关键。

这种测试将揭示出在极端流量条件下组件效率的细微差异。水力和热性能可能会大幅下降,并影响从原型到测试的装置额定值,因此数据中心必须与具备测试和定制CDU能力的供应商合作,以满足其需求。

关键CDU部件在特定应用中的适用性

数据中心是特定的应用场景,需要使用真正为此设计的单元。在住宅和工业领域中,小型泄漏可能更容易应对,而在IT服务器机架周围,这些机架内装有高性能芯片,安全和成本风险更高。

关键的CDU部件需经过更高的选择和设计验证标准,相较于其他应用中的组件。特别是在泵的选择方面,所有湿部件在不同使用液体中的材料兼容性应基于现有制造工艺的验证。此外,泵在组件内部损坏情况下的水力故障模式至关重要。

由于CDU应用使用封闭的冷却系统(TCS)回路,它们对调试初期阶段的碎屑很敏感。这些碎屑会影响机械密封泵的密封完整性,使得泵更易于出现高维护需求及相关的停机和更换成本。磁耦合泵是CDU应用中的一个良好替代方案。

泄漏完整性的可靠性

正如我们之前所讨论的,数据中心的组件和系统对泄漏非常敏感,因为任何潜在泄漏都伴随着高风险、相应的责任和成本影响。整个设施水系统和技术冷却系统回路中的每一个接头,如果未经仔细测试,均可能成为潜在的故障点。

组件和系统级的泄漏完整性和压力衰减测试的学习成果对于确保CDU和整个液压系统的可靠性至关重要,以延长其运行寿命。

制造可行性设计

对于给定的数据中心应用,存在不同的设计解决方案。然而,一种在设计过程中始终保持制造可行性为核心的解决方案,将在满足行业的短期和长期需求方面最具优势。

随着AI和ML对数据中心的需求增加,行业需要能够批量生产不同类型的产品,涵盖广泛的数量范围。制造可行性使设备和组件的设计符合生产方法的要求。如果设计无法制造或无法规模化,再好的理论设计也无实际价值。

可维护性和真实的拥有成本

CDU是电机机械设备,需要按此类设备进行维护。然而,改进的可维护性不仅体现在某一部件在系统中的初始适配程度,还体现在设计在维护和维修方面的便利性。这包括在设备生命周期内更换某些部件。

在设计CDU时,应审查和评估这些部件的清单,以计算真实的拥有成本。如前所述,如果关键部件(如泵)未根据应用进行选择并出现明显的故障模式,那么维护需求将增多,从而在设备使用期间提高拥有成本。