目录
-
3U
机架式服务器的驱动因素
-
PCIe Switch
与
GPU
直通
CPU
的区别
-
OCP Grand
Teton AI
服务器:训练和推理的配置异同
-
EDSFF SSD
、
EPYC CPU
散热器一瞥
-
支持
MI308X
GPU
的服务器,来自谁家
…
-
2U 4
节点双路
500W CPU
:风冷
/
液冷?
上周四(
12
月
5
日)在北京举办的“
AMD Advancing AI
中国解决方案峰会”,我去看个热闹。参展的服务器
OEM
、
ODM
厂商、展出的机型数量都比较可观,有点让我感觉回到几年前灯厂(樱桃司)同类市场活动的感觉。
我还看到一个特点,就是现场的样机大约
半数以上为
GPU
服务器机型
,显然受当今
AI
热潮的影响。大家既然来露个脸,非
GPU
优化的传统服务器感觉新意不大吧。
虽然我拍了不少照片,但由于时间和精力有限,只能挑一些重点分享给大家。受限于个人水平,以及对各家服务器机型的了解,如描述有误或不足支持还望多包涵、指正。
3U
机架式服务器的驱动因素
在《
风冷500W CPU
?Dell PowerEdge 17G AMD
服务器预览
》一文中,我提到过
2U
的
7725
双路机型参数中,写了风冷散热能支持到
500W
的
EPYC 9005 CPU
。由于还没看到详细资料,暂时不确定是否有进风温度等方面限制?
这几年来,我也曾不只一次听到同行朋友说,如果
把
2U
服务器加高到
3U
,就不难面对
CPU
功耗不断提升
的情况了。按最简单的理解,如果只是加高
CPU
散热器的高度(鳍片总面积成正比),还有机箱空间
/
风扇排的改变,效果应该是可以的。
3U
机箱还有另一点好处。记得我在多年前曾选型过一款机箱,当时看重
3U
机架式的原因就是
能插全高
PCI/PCIe
板卡
(考虑支持工作站的显卡),不需要像
2U
机箱那样转接为横插。下面这款服务器的特点也是如此:
上面照片,我们看到的是服务器前窗。数一数
PCIe I/O
金属挡片的物理位置,一共是
18
个——左边留出了一个存储盘位区域(这台配置是
4
个
E3.S NVMe SSD
)。具体支持的扩展卡数量请往下看。
这台服务器机型是
Lenovo SR675 V3
,
3U
机架式,最多支持
2
颗
AMD EPYC
9004/9005
系列处理器。
我
曾经
写过
,因为都是
SP5
插槽,所以改换
BIOS
就能用同样主板适配
2
代
CPU
。
NVIDIA HGX H200
或
H100
4-GPU SXM
模组的支持,并不是我想谈的重点,因为如果采用冷板式液冷,
2U
服务器就能支持这些。而我在《
风冷、液冷GPU
服务器密度提升 - PowerEdge 17G
整机架预览
》中也提到,
8-GPU SXM
模组可以适配在
6U
风冷和
4U
液冷机型中。
而
8
个双宽
600W GPU
的支持,又让我想起了
NVIDIA
的
H200 NVL
;既然是标准
PCIe
卡,联想资料中也写了支持
AMD Instinct™ MI
系列加速器。我之前提到过
D
厂商对应的机型,是
4U
的
XE7740
和
XE7745
。
PCIe Switch
与
GPU
直通
CPU
的区别
支持
GPU
的
8
个
PCIe x16
插槽,分布在
2
块
PCIe
交换板上;最右边还有块“
PCB
小板”,
2
个单宽
PCIe
槽位看上去是通过
Retimer
芯片直通连接的。
SR675 V3
这机箱长度不短。为了照顾
PCIe
板卡的散热,把该区域放在了机箱的最前端。我们可以看到
2
颗散热片下面的应该是
PCIe Switch
芯片。
SR675 V3
也像不少GPU服务器那样提供了
PCIe
直通
CPU
的选项
,此时是最多
14
个
PCIe
插槽,其中
8
个双宽
GPU
槽位支持
x8 Lane
宽度。
从表面上看,这款
3U
机箱只有
5
个系统风扇
,但尺寸却是
80cm
(
2U
服务器一般是
60cm
风扇)。
Nidec
这个风扇标称的
12V
电流可达
5.54A
,不知配满
8
块
600W GPU
时具体转多快。
图片点开后可放大查看
在上图中,我用红框圈出了
SR675 V3
可选的几种“正面
IO
配置”。除了
8 x
双宽
GPU
之外,还有
4 x
双宽,以及
SXM
系统几种选项。对应的技术文档我还没有细读,供大家参考。
如图:我用红框标出的上面一看,是左侧
PCIe Switch
芯片的
2
个
x16
上行通道(连接到
EPYC CPU
),那么
4
个
x16 PCIe 5.0
插槽就是对应的下行通道。因此
PCIe Switch
芯片应该
不少于
96 Lane
。
位于
PCIe
交换板下方的“长条小板”,右侧也是
2
个
PCIe x16
连接器,
直通
给左边的
2
个单宽插槽
。也没看到像
GPU
插槽那样有供电加强,所以它们应该就是
为网卡等而设计的
。
PCIe Switch的作用不只是信道扩展,它还可以作为Root Port,让GPU之间的通信,以及GPU与网卡等之间的I/O可以不用经过CPU
的
PCIe
控制器。当然在这里的情况应该有些不同:
1、
最新的
H200 NVL
支持
4
块卡间的
NVLink