专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

风冷、液冷GPU服务器密度提升 - PowerEdge 17G预览 (2)

企业存储技术  · 公众号  ·  · 2024-12-01 11:11

主要观点总结

本文介绍了Dell的新品GPU服务器的发展,包括风冷和液冷GPU服务器的功率密度对比、不同型号服务器的GPU和CPU配置,以及用于HPC的高密度CPU服务器等。文章还提到了一些关于散热技术、GPU和CPU功率的发展趋势和讨论。

关键观点总结

关键观点1: H200 NVL 600W双宽GPU卡的散热解决方案。

文章讨论了H200 NVL GPU卡的散热问题,包括风冷和液冷两种散热方式的比较。

关键观点2: Dell新品的GPU服务器系列。

文章介绍了Dell的新品GPU服务器,包括IR7000 OCP 21英寸机架的液冷服务器和IR5000系列19英寸机架的风冷/液冷GPU服务器。

关键观点3: 不同型号GPU服务器的配置和特点。

文章详细阐述了不同型号GPU服务器的配置和特点,包括XE9680、XE9680L、XE9685L、XE7740、XE7745等型号的服务器的GPU和CPU配置。

关键观点4: 用于HPC的高密度CPU服务器的发展。

文章讨论了用于HPC的高密度CPU服务器的发展,包括M7725等型号的服务器的特点,以及它们如何替代刀片和2U 4节点。


正文

目录

- H200 NVL 600W双宽GPU卡:散热如何解?

- 风冷/液冷GPU服务器机架功率密度(对比表格)

- XE9680 “8卡” GPU风冷服务器忆旧

- 新款GPU服务器预览:2款液冷SXM/OAM、2款风冷PCIe

- 用于HPC的高密度CPU服务器:替代刀片和2U 4节点?

接前文:《 风冷500W CPU?Dell PowerEdge 17G AMD服务器预览 (1)

NVIDIA在 SC24超算大会 期间传出的新闻,除了GB200 NVL4(单PCB 4颗Blackwell GPU)之外,还有个H200 NVL。下方有图片:

注:禁售门槛的事情我当然清楚,一年前我在《 GPU禁令限制计算… 》和《 NVIDIA AI性能计算更正… 》中总结讨论过。本文的目的只是技术分享,而我也要为了搞明白而做些功课。

H200 NVL 600W双宽GPU卡:散热如何解?

H200 NVL相当于4块H200 PCIe GPU卡,并整体使用 单个NVLink桥接板互连 在一起。

当我最初看到PCIe双插槽风冷、最高600W功耗的时候,想到的是:“什么样的服务器系统才能把这卡跑到峰值啊?”

在昨天的文章中,我介绍了PowerEdge 17G中的4款常规AMD机架式服务器,应该是最近开始出货了。

今天继续以Dell的新品(出货时间应该是晚一些)为例来看看GPU服务器的发展。上图列出了2个整机架产品系列,左边的 IR7000 OCP 21英寸机架 对应2款液冷服务器;右边的 IR5000系列19英寸机架 对应5款GPU服务器——2款液冷、3款风冷,其中也包括先前就有的XE9680机型。

上图中可以展开的信息较多,我先简单交待几点吧:

1、首先XE9680是风冷GPU服务器,XE9680L(在较早的新闻中就出现过)和XE9685L结尾多了个 “L”,应该就是液冷 的意思。GPU密度保持不变,但 机箱高度降低 ,可增大机架部署密度;

2、排除XE9680老机型,上图中新发布的5款GPU服务器,其中 2款使用Intel Xeon CPU、2款AMD EPYC CPU、1款NVIDIA Grace ARM(GB200) 。在 GPU服务器的底座方面,从国际市场来看走向了3家CPU并存的格局

3、M7725是一款高密度液冷CPU服务器,以前Dell的“M”开头是对应刀片服务器——M7000模块化系列。

昨天的文章我就想过简单整理个表格,后来实在整不动了。今天的内容还是没忍住,大家凑合看看,希望能有点价值吧:)

风冷/液冷GPU服务器机架功率密度 (仅供参考)

上表的计算可能不够严谨,因为有些机型只计算了GPU的功率,而对比NVL72的XE9712就算上了CPU,以及机架中的交换机等设备。总体来看,液冷的密度肯定还是比风冷有优势。 风冷GPU机架也能达到48-57.6KW 的功率水平(还没算CPU等的耗电),而 液冷则能轻易翻倍

关于GB200 NVL72液冷机架的功率密度,我在《 Xeon 6和EPYC 9005推动双节点模块化服务器增长 》中曾有过一段描述。

关于IR7000这里说的480KW,只是针对未来

在SC大会相关的新闻中,我看到HP/Cray等品牌也有关于单机架达到300KW的规划。比如基于NVL4之类的可以搞更高密度,但也要看针对的行业,有些超算客户是不差钱的。想想当初的神威太湖之光HPC用的液冷,是不是也比较“超前”。

XE9680 “8卡”风冷GPU服务器忆旧

上图截自Dell网站,列举了一些在售的NVIDIA GPU。在这一波新品之前,GPU服务器上的CPU还是用Intel相对多一些,GPU功率在350-700W之间(不算L4)。而在《 NVIDIA Blackwell 架构技术文档 》中,最新B200、B100 GPU的TDP功耗分别为1000W和700W。

某次活动上展出过一台XE9680,上图就是在国内销售的8路HGX H20 GPU模组——每个SXM功率降到500W,比H100/H200低些。

作为一款6U服务器,XE9680能支持到8个700W NVIDIA SXM GPU,或者基于OAM模块互连的8个750W的AMD INSTINCT MI300X,也支持900W的Intel Gaudi3 UBB。

GPU MI300X Inside view

GPU Gaudi3 Inside view (Intel这个严格说不叫GPU吧)







请到「今天看啥」查看全文