专栏名称: 企业存储技术

企业存储、服务器、SSD、灾备等领域技术分享，交流 | @唐僧_huangliang （新浪微博）

风冷、液冷GPU服务器密度提升 - PowerEdge 17G预览 (2)

企业存储技术 · 公众号 · · 2024-12-01 11:11

主要观点总结

本文介绍了Dell的新品GPU服务器的发展，包括风冷和液冷GPU服务器的功率密度对比、不同型号服务器的GPU和CPU配置，以及用于HPC的高密度CPU服务器等。文章还提到了一些关于散热技术、GPU和CPU功率的发展趋势和讨论。

关键观点总结

关键观点1: H200 NVL 600W双宽GPU卡的散热解决方案。

文章讨论了H200 NVL GPU卡的散热问题，包括风冷和液冷两种散热方式的比较。

关键观点2: Dell新品的GPU服务器系列。

文章介绍了Dell的新品GPU服务器，包括IR7000 OCP 21英寸机架的液冷服务器和IR5000系列19英寸机架的风冷/液冷GPU服务器。

关键观点3: 不同型号GPU服务器的配置和特点。

文章详细阐述了不同型号GPU服务器的配置和特点，包括XE9680、XE9680L、XE9685L、XE7740、XE7745等型号的服务器的GPU和CPU配置。

关键观点4: 用于HPC的高密度CPU服务器的发展。

文章讨论了用于HPC的高密度CPU服务器的发展，包括M7725等型号的服务器的特点，以及它们如何替代刀片和2U 4节点。

正文

- H200 NVL 600W双宽GPU卡：散热如何解？

- 风冷/液冷GPU服务器机架功率密度（对比表格）

- XE9680 “8卡” GPU风冷服务器忆旧

- 新款GPU服务器预览：2款液冷SXM/OAM、2款风冷PCIe

- 用于HPC的高密度CPU服务器：替代刀片和2U 4节点？

接前文：《 风冷500W CPU？Dell PowerEdge 17G AMD服务器预览 (1) 》

NVIDIA在 SC24超算大会期间传出的新闻，除了GB200 NVL4（单PCB 4颗Blackwell GPU）之外，还有个H200 NVL。下方有图片：

注：禁售门槛的事情我当然清楚，一年前我在《 GPU禁令限制计算… 》和《 NVIDIA AI性能计算更正… 》中总结讨论过。本文的目的只是技术分享，而我也要为了搞明白而做些功课。

H200 NVL 600W双宽GPU卡：散热如何解？

H200 NVL相当于4块H200 PCIe GPU卡，并整体使用单个NVLink桥接板互连在一起。

当我最初看到PCIe双插槽风冷、最高600W功耗的时候，想到的是：“什么样的服务器系统才能把这卡跑到峰值啊？”

在昨天的文章中，我介绍了PowerEdge 17G中的4款常规AMD机架式服务器，应该是最近开始出货了。

今天继续以Dell的新品（出货时间应该是晚一些）为例来看看GPU服务器的发展。上图列出了2个整机架产品系列，左边的 IR7000 OCP 21英寸机架对应2款液冷服务器；右边的 IR5000系列19英寸机架对应5款GPU服务器——2款液冷、3款风冷，其中也包括先前就有的XE9680机型。

上图中可以展开的信息较多，我先简单交待几点吧：

1、首先XE9680是风冷GPU服务器，XE9680L（在较早的新闻中就出现过）和XE9685L结尾多了个 “L”，应该就是液冷的意思。GPU密度保持不变，但机箱高度降低，可增大机架部署密度；

2、排除XE9680老机型，上图中新发布的5款GPU服务器，其中 2款使用Intel Xeon CPU、2款AMD EPYC CPU、1款NVIDIA Grace ARM（GB200）。在 GPU服务器的底座方面，从国际市场来看走向了3家CPU并存的格局。

3、M7725是一款高密度液冷CPU服务器，以前Dell的“M”开头是对应刀片服务器——M7000模块化系列。

昨天的文章我就想过简单整理个表格，后来实在整不动了。今天的内容还是没忍住，大家凑合看看，希望能有点价值吧：）

风冷/液冷GPU服务器机架功率密度 （仅供参考）

上表的计算可能不够严谨，因为有些机型只计算了GPU的功率，而对比NVL72的XE9712就算上了CPU，以及机架中的交换机等设备。总体来看，液冷的密度肯定还是比风冷有优势。风冷GPU机架也能达到48-57.6KW 的功率水平（还没算CPU等的耗电），而液冷则能轻易翻倍。

关于GB200 NVL72液冷机架的功率密度，我在《 Xeon 6和EPYC 9005推动双节点模块化服务器增长 》中曾有过一段描述。

关于IR7000这里说的480KW，只是针对未来

在SC大会相关的新闻中，我看到HP/Cray等品牌也有关于单机架达到300KW的规划。比如基于NVL4之类的可以搞更高密度，但也要看针对的行业，有些超算客户是不差钱的。想想当初的神威太湖之光HPC用的液冷，是不是也比较“超前”。

XE9680 “8卡”风冷GPU服务器忆旧

上图截自Dell网站，列举了一些在售的NVIDIA GPU。在这一波新品之前，GPU服务器上的CPU还是用Intel相对多一些，GPU功率在350-700W之间（不算L4）。而在《 NVIDIA Blackwell 架构技术文档 》中，最新B200、B100 GPU的TDP功耗分别为1000W和700W。

某次活动上展出过一台XE9680，上图就是在国内销售的8路HGX H20 GPU模组——每个SXM功率降到500W，比H100/H200低些。

作为一款6U服务器，XE9680能支持到8个700W NVIDIA SXM GPU，或者基于OAM模块互连的8个750W的AMD INSTINCT MI300X，也支持900W的Intel Gaudi3 UBB。

GPU MI300X Inside view

GPU Gaudi3 Inside view （Intel这个严格说不叫GPU吧）