引言:由于服务器CPU核心数量的不断提升,不少客户发现在部分场景用单插槽(即单路CPU)就能替代以前的双CPU。
当前单CPU的I/O扩展能力也比较强,但并不是每种业务都能完全上。在一些偏重计算密度,特别是互联网/云服务提供商中流行的2U机箱内双节点(双子星)设计,虽然早已不是什么新概念,但确实在空间和机箱/电源的共享上达到了高效。
扩展阅读:《
AMD
EPYC 9005 (Zen 5&5c)
服务器CPU
架构解读
》
目录
-
OCP DC-MHS模块化硬件系统规范
-
2U双节点单路服务器、Xeon 6和EPYC (Turin) 的三款主板
-
DC-SCM管理模块和RoT安全模块
-
2OU双节点双路液冷Turin服务器
-
Open Rack v3液冷 vs. GB200 NVL72液冷机架
-
5U 112盘存储服务器
周末简单写一点学习笔记,参考资料主要来自《
2024
OCP Global Summit会议资料分享 (完整&推荐)
》。
前几天看到一篇国内某品牌服务器的新闻,里面有一句:“
基于开放架构设计,业界率先实现‘多芯’一架构支持英特尔®至强®6处理器及AMD EPYC™
9005系列处理器
”。我想到的第一个念头是机箱共用。之前我在《
服务器设计新趋势:Xeon 6 SoC
、前I/O
、模块化、1U&2U
共用主板?
》中提到过PowerEdge R770和R670 CSP的主板布局已经相当接近,但其实背后并不只是结构这一个方面。在近几年OCP组织开源/分享的资料中,DC-MHS(Modular
Hardware System)早已成为一项标准。
OCP DC-MHS模块化硬件系统规范
如上图,按照时间出现的先后顺序,依次是
OCP NIC
(网卡)、
DC-SCM
(Secure Control
Module)——其实是指我们平时讲的服务器管理模块;然后是
DC-MHS
,进一步规范化主板的尺寸和相关接口(连接器)。
这里列出部分品牌的
HPM
模块,实际上就是服务器的主板——不含OCP网卡和DC-SCM管理模块。上面有
全宽
也有
半宽
尺寸主板,分别来自不同的ODM和OEM厂商。下面我就借用另一家ODM的资料。
这份资料是PEGATRON
(和硕)
在OCP全球峰会上分享的。下面我想大致谈几部分:首先重点是模块化服务器设计,接着再带大家简单看看CPU、GPU机架中的液冷/风冷,以及一款5U 112盘存储服务器。
2U双节点单路服务器、Xeon 6和EPYC (Turin)的三款主板
上面列出的几个型号,都属于EIA 19英寸标准宽度的2U2N 1P双节点单路服务器。所谓“双子星”,如今这些是
前I/O出线
,所以从Front视角就是左右2个对等的Compute
Sled、或者GPU Sled服务器模块。二者的主要区别是GPU
Sled每节点支持1块双宽或2块单宽全尺寸PCIe扩展卡,而Compute Sled则多支持4个E1.S SSD。
Rear View后视图比较简单,2侧分列共4个8056风扇,中间是2个2400W PSU电源模块(冗余),或者走机架的Busbar(铜排)供电。
具体到每个节点的配置,分别有支持Intel Birch-Stream SP/AP(Xeon 6平台)或者AMD TURIN(EPYC 9005家族)处理器的DC-SCM规范主板;然后关键的DC-SCM 2.0管理模块和OCP NIC 3.0网卡也不能少。
注:文中图片可以点开后放大
注意:上图中可能有2处文字错误——左下和右上方的主板都是12个DIMM内存槽吧?但文字里写的是16。
得益于DC-MHS标准,这3款不同CPU Socket的主板可以
复用相同的半宽节点和机箱
。
其中左上方的MS-301-2T1支持
Intel GNR-SP
——FCLGA4710插座,应该也包括代号为“Sierra Forest-SP”的Xeon 67xxE系列“小核”CPU。由于CPU支持
8通道内存
,且Socket尺寸相对较小,所以左右两边共设计了
16个DDR5 DIMM
内存插槽。
左下方的MS-302-2T1支持
Intel
GNR-AP
——FCLGA7529插座,对应当前“Granite
Rapids-AP”代号的Xeon 69xxP系列“大核”CPU。由于CPU支持
12通道内存
,且Socket尺寸较大,所以左右两边共设计了
12个DDR5 DIMM
内存插槽。
右上方的MS-304-2A1采用
AMD
Turin SP5
CPU插座。我以前提到过SP5 Socket从上一代EPYC 9004系列沿用到现在,并且最新一代的
Zen5“大核”与Zen5c(高密度核)的EPYC 9005
系列都能支持,在这里不需要设计2款主板了。同样由于CPU支持12通道内存,且LGA
6096 Socket尺寸较大,所以左右两边也设计了12个DDR5
DIMM内存插槽。
在服务器主板上的PCIe扩展连接器一共有几种:Muiti track PCIe Gen5 x16、Gen5 x8 MCIO以及Gen Z 1C (Gen 5x4) / 2C (Gen5 x8),另外OCP 3.0 NIC其实也是一个PCIe x16。所有这些都加起来,3款主板相比AMD
Turin平台的PCIe扩展性有些优势
,因为单路EPYC支持128 lane PCIe 5.0;而Intel Xeon 6 SP/AP分别支持到88/96 lane。
上图右下方的DC-SCM 2.0管理模块硬件上是通用的,甚至BMC固件在同一CPU架构下也可以是通用的(比如基于OpenBMC)。BMC module(Nvidia
Type)我理解应该是用于HGX那些GPU板的管理模块吧。PROT又是啥呢?研究服务器的专家朋友可不要笑话我,RoT其实是Root of Trust(可信根)的缩写。
DC-SCM管理模块和RoT安全模块