本文介绍了Dell的新品GPU服务器的发展,包括风冷和液冷GPU服务器的功率密度对比、不同型号服务器的GPU和CPU配置,以及用于HPC的高密度CPU服务器等。文章还提到了一些关于散热技术、GPU和CPU功率的发展趋势和讨论。
文章介绍了Dell的新品GPU服务器,包括IR7000 OCP 21英寸机架的液冷服务器和IR5000系列19英寸机架的风冷/液冷GPU服务器。
文章详细阐述了不同型号GPU服务器的配置和特点,包括XE9680、XE9680L、XE9685L、XE7740、XE7745等型号的服务器的GPU和CPU配置。
文章讨论了用于HPC的高密度CPU服务器的发展,包括M7725等型号的服务器的特点,以及它们如何替代刀片和2U 4节点。
目录
- H200 NVL 600W双宽GPU卡:散热如何解?
- 风冷/液冷GPU服务器机架功率密度(对比表格)
- XE9680 “8卡” GPU风冷服务器忆旧
- 新款GPU服务器预览:2款液冷SXM/OAM、2款风冷PCIe
- 用于HPC的高密度CPU服务器:替代刀片和2U 4节点?
接前文:《
风冷500W CPU?Dell PowerEdge 17G AMD服务器预览 (1)
》
NVIDIA在
SC24超算大会
期间传出的新闻,除了GB200 NVL4(单PCB 4颗Blackwell
GPU)之外,还有个H200 NVL。下方有图片:
注:禁售门槛的事情我当然清楚,一年前我在《
GPU禁令限制计算…
》和《
NVIDIA
AI性能计算更正…
》中总结讨论过。本文的目的只是技术分享,而我也要为了搞明白而做些功课。
H200 NVL 600W双宽GPU卡:散热如何解?
H200 NVL相当于4块H200 PCIe GPU卡,并整体使用
单个NVLink桥接板互连
在一起。
当我最初看到PCIe双插槽风冷、最高600W功耗的时候,想到的是:“什么样的服务器系统才能把这卡跑到峰值啊?”
在昨天的文章中,我介绍了PowerEdge 17G中的4款常规AMD机架式服务器,应该是最近开始出货了。
今天继续以Dell的新品(出货时间应该是晚一些)为例来看看GPU服务器的发展。上图列出了2个整机架产品系列,左边的
IR7000 OCP 21英寸机架
对应2款液冷服务器;右边的
IR5000系列19英寸机架
对应5款GPU服务器——2款液冷、3款风冷,其中也包括先前就有的XE9680机型。
上图中可以展开的信息较多,我先简单交待几点吧:
1、首先XE9680是风冷GPU服务器,XE9680L(在较早的新闻中就出现过)和XE9685L结尾多了个
“L”,应该就是液冷
的意思。GPU密度保持不变,但
机箱高度降低
,可增大机架部署密度;
2、排除XE9680老机型,上图中新发布的5款GPU服务器,其中
2款使用Intel Xeon CPU、2款AMD EPYC CPU、1款NVIDIA Grace ARM(GB200)
。在
GPU服务器的底座方面,从国际市场来看走向了3家CPU并存的格局
。
3、M7725是一款高密度液冷CPU服务器,以前Dell的“M”开头是对应刀片服务器——M7000模块化系列。
昨天的文章我就想过简单整理个表格,后来实在整不动了。今天的内容还是没忍住,大家凑合看看,希望能有点价值吧:)
风冷/液冷GPU服务器机架功率密度
(仅供参考)
上表的计算可能不够严谨,因为有些机型只计算了GPU的功率,而对比NVL72的XE9712就算上了CPU,以及机架中的交换机等设备。总体来看,液冷的密度肯定还是比风冷有优势。
风冷GPU机架也能达到48-57.6KW
的功率水平(还没算CPU等的耗电),而
液冷则能轻易翻倍
。
关于GB200 NVL72液冷机架的功率密度,我在《
Xeon
6和EPYC 9005推动双节点模块化服务器增长
》中曾有过一段描述。
关于IR7000这里说的480KW,只是针对未来
在SC大会相关的新闻中,我看到HP/Cray等品牌也有关于单机架达到300KW的规划。比如基于NVL4之类的可以搞更高密度,但也要看针对的行业,有些超算客户是不差钱的。想想当初的神威太湖之光HPC用的液冷,是不是也比较“超前”。
XE9680 “8卡”风冷GPU服务器忆旧
上图截自Dell网站,列举了一些在售的NVIDIA
GPU。在这一波新品之前,GPU服务器上的CPU还是用Intel相对多一些,GPU功率在350-700W之间(不算L4)。而在《
NVIDIA
Blackwell 架构技术文档
》中,最新B200、B100 GPU的TDP功耗分别为1000W和700W。
某次活动上展出过一台XE9680,上图就是在国内销售的8路HGX
H20 GPU模组——每个SXM功率降到500W,比H100/H200低些。
作为一款6U服务器,XE9680能支持到8个700W NVIDIA SXM GPU,或者基于OAM模块互连的8个750W的AMD INSTINCT MI300X,也支持900W的Intel Gaudi3 UBB。
GPU MI300X Inside view
GPU Gaudi3 Inside view
(Intel这个严格说不叫GPU吧)