专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

3U 8卡:对AI推理服务器意味着什么?

企业存储技术  · 公众号  ·  · 2024-12-09 07:40

正文

目录

- 3U 机架式服务器的驱动因素

- PCIe Switch GPU 直通 CPU 的区别

- OCP Grand Teton AI 服务器:训练和推理的配置异同

- EDSFF SSD EPYC CPU 散热器一瞥

- 支持 MI308X GPU 的服务器,来自谁家

- 2U 4 节点双路 500W CPU :风冷 / 液冷?

上周四( 12 5 日)在北京举办的“ AMD Advancing AI 中国解决方案峰会”,我去看个热闹。参展的服务器 OEM ODM 厂商、展出的机型数量都比较可观,有点让我感觉回到几年前灯厂(樱桃司)同类市场活动的感觉。

我还看到一个特点,就是现场的样机大约 半数以上为 GPU 服务器机型 ,显然受当今 AI 热潮的影响。大家既然来露个脸,非 GPU 优化的传统服务器感觉新意不大吧。

虽然我拍了不少照片,但由于时间和精力有限,只能挑一些重点分享给大家。受限于个人水平,以及对各家服务器机型的了解,如描述有误或不足支持还望多包涵、指正。

3U 机架式服务器的驱动因素

在《 风冷500W CPU ?Dell PowerEdge 17G AMD 服务器预览 》一文中,我提到过 2U 7725 双路机型参数中,写了风冷散热能支持到 500W EPYC 9005 CPU 。由于还没看到详细资料,暂时不确定是否有进风温度等方面限制?

这几年来,我也曾不只一次听到同行朋友说,如果 2U 服务器加高到 3U ,就不难面对 CPU 功耗不断提升 的情况了。按最简单的理解,如果只是加高 CPU 散热器的高度(鳍片总面积成正比),还有机箱空间 / 风扇排的改变,效果应该是可以的。

3U 机箱还有另一点好处。记得我在多年前曾选型过一款机箱,当时看重 3U 机架式的原因就是 能插全高 PCI/PCIe 板卡 (考虑支持工作站的显卡),不需要像 2U 机箱那样转接为横插。下面这款服务器的特点也是如此:

上面照片,我们看到的是服务器前窗。数一数 PCIe I/O 金属挡片的物理位置,一共是 18 个——左边留出了一个存储盘位区域(这台配置是 4 E3.S NVMe SSD )。具体支持的扩展卡数量请往下看。

这台服务器机型是 Lenovo SR675 V3 3U 机架式,最多支持 2 AMD EPYC 9004/9005 系列处理器。 曾经 写过 ,因为都是 SP5 插槽,所以改换 BIOS 就能用同样主板适配 2 CPU

NVIDIA HGX H200 H100 4-GPU SXM 模组的支持,并不是我想谈的重点,因为如果采用冷板式液冷, 2U 服务器就能支持这些。而我在《 风冷、液冷GPU 服务器密度提升 - PowerEdge 17G 整机架预览 》中也提到, 8-GPU SXM 模组可以适配在 6U 风冷和 4U 液冷机型中。

8 个双宽 600W GPU 的支持,又让我想起了 NVIDIA H200 NVL ;既然是标准 PCIe 卡,联想资料中也写了支持 AMD Instinct™ MI 系列加速器。我之前提到过 D 厂商对应的机型,是 4U XE7740 XE7745

PCIe Switch GPU 直通 CPU 的区别

支持 GPU 8 PCIe x16 插槽,分布在 2 PCIe 交换板上;最右边还有块“ PCB 小板”, 2 个单宽 PCIe 槽位看上去是通过 Retimer 芯片直通连接的。

SR675 V3 这机箱长度不短。为了照顾 PCIe 板卡的散热,把该区域放在了机箱的最前端。我们可以看到 2 颗散热片下面的应该是 PCIe Switch 芯片。

SR675 V3 也像不少GPU服务器那样提供了 PCIe 直通 CPU 的选项 ,此时是最多 14 PCIe 插槽,其中 8 个双宽 GPU 槽位支持 x8 Lane 宽度。

从表面上看,这款 3U 机箱只有 5 个系统风扇 ,但尺寸却是 80cm 2U 服务器一般是 60cm 风扇)。 Nidec 这个风扇标称的 12V 电流可达 5.54A ,不知配满 8 600W GPU 时具体转多快。

图片点开后可放大查看

在上图中,我用红框圈出了 SR675 V3 可选的几种“正面 IO 配置”。除了 8 x 双宽 GPU 之外,还有 4 x 双宽,以及 SXM 系统几种选项。对应的技术文档我还没有细读,供大家参考。

如图:我用红框标出的上面一看,是左侧 PCIe Switch 芯片的 2 x16 上行通道(连接到 EPYC CPU ),那么 4 x16 PCIe 5.0 插槽就是对应的下行通道。因此 PCIe Switch 芯片应该 不少于 96 Lane

位于 PCIe 交换板下方的“长条小板”,右侧也是 2 PCIe x16 连接器, 直通 给左边的 2 个单宽插槽 。也没看到像 GPU 插槽那样有供电加强,所以它们应该就是 为网卡等而设计的

PCIe Switch的作用不只是信道扩展,它还可以作为Root Port,让GPU之间的通信,以及GPU与网卡等之间的I/O可以不用经过CPU PCIe 控制器。当然在这里的情况应该有些不同:

1、 最新的 H200 NVL 支持 4 块卡间的 NVLink







请到「今天看啥」查看全文