专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
51好读  ›  专栏  ›  企业存储技术

Xeon 6和EPYC 9005推动双节点模块化服务器增长

企业存储技术  · 公众号  ·  · 2024-10-28 07:40

正文

引言:由于服务器CPU核心数量的不断提升,不少客户发现在部分场景用单插槽(即单路CPU)就能替代以前的双CPU。

当前单CPU的I/O扩展能力也比较强,但并不是每种业务都能完全上。在一些偏重计算密度,特别是互联网/云服务提供商中流行的2U机箱内双节点(双子星)设计,虽然早已不是什么新概念,但确实在空间和机箱/电源的共享上达到了高效。

扩展阅读:《 AMD EPYC 9005 (Zen 5&5c) 服务器CPU 架构解读

目录

- OCP DC-MHS模块化硬件系统规范

- 2U双节点单路服务器、Xeon 6和EPYC (Turin) 的三款主板

- DC-SCM管理模块和RoT安全模块

- 2OU双节点双路液冷Turin服务器

- Open Rack v3液冷 vs. GB200 NVL72液冷机架

- 5U 112盘存储服务器

周末简单写一点学习笔记,参考资料主要来自《 2024 OCP Global Summit会议资料分享 (完整&推荐) 》。

前几天看到一篇国内某品牌服务器的新闻,里面有一句:“ 基于开放架构设计,业界率先实现‘多芯’一架构支持英特尔®至强®6处理器及AMD EPYC™ 9005系列处理器 ”。我想到的第一个念头是机箱共用。之前我在《 服务器设计新趋势:Xeon 6 SoC 、前I/O 、模块化、1U&2U 共用主板? 》中提到过PowerEdge R770和R670 CSP的主板布局已经相当接近,但其实背后并不只是结构这一个方面。在近几年OCP组织开源/分享的资料中,DC-MHS(Modular Hardware System)早已成为一项标准。

OCP DC-MHS模块化硬件系统规范

如上图,按照时间出现的先后顺序,依次是 OCP NIC (网卡)、 DC-SCM (Secure Control Module)——其实是指我们平时讲的服务器管理模块;然后是 DC-MHS ,进一步规范化主板的尺寸和相关接口(连接器)。

这里列出部分品牌的 HPM 模块,实际上就是服务器的主板——不含OCP网卡和DC-SCM管理模块。上面有 全宽 也有 半宽 尺寸主板,分别来自不同的ODM和OEM厂商。下面我就借用另一家ODM的资料。

这份资料是PEGATRON (和硕) 在OCP全球峰会上分享的。下面我想大致谈几部分:首先重点是模块化服务器设计,接着再带大家简单看看CPU、GPU机架中的液冷/风冷,以及一款5U 112盘存储服务器。

2U双节点单路服务器、Xeon 6和EPYC (Turin)的三款主板

上面列出的几个型号,都属于EIA 19英寸标准宽度的2U2N 1P双节点单路服务器。所谓“双子星”,如今这些是 前I/O出线 ,所以从Front视角就是左右2个对等的Compute Sled、或者GPU Sled服务器模块。二者的主要区别是GPU Sled每节点支持1块双宽或2块单宽全尺寸PCIe扩展卡,而Compute Sled则多支持4个E1.S SSD。

Rear View后视图比较简单,2侧分列共4个8056风扇,中间是2个2400W PSU电源模块(冗余),或者走机架的Busbar(铜排)供电。

具体到每个节点的配置,分别有支持Intel Birch-Stream SP/AP(Xeon 6平台)或者AMD TURIN(EPYC 9005家族)处理器的DC-SCM规范主板;然后关键的DC-SCM 2.0管理模块和OCP NIC 3.0网卡也不能少。

注:文中图片可以点开后放大

注意:上图中可能有2处文字错误——左下和右上方的主板都是12个DIMM内存槽吧?但文字里写的是16。

得益于DC-MHS标准,这3款不同CPU Socket的主板可以 复用相同的半宽节点和机箱

其中左上方的MS-301-2T1支持 Intel GNR-SP ——FCLGA4710插座,应该也包括代号为“Sierra Forest-SP”的Xeon 67xxE系列“小核”CPU。由于CPU支持 8通道内存 ,且Socket尺寸相对较小,所以左右两边共设计了 16个DDR5 DIMM 内存插槽。

左下方的MS-302-2T1支持 Intel GNR-AP ——FCLGA7529插座,对应当前“Granite Rapids-AP”代号的Xeon 69xxP系列“大核”CPU。由于CPU支持 12通道内存 ,且Socket尺寸较大,所以左右两边共设计了 12个DDR5 DIMM 内存插槽。

右上方的MS-304-2A1采用 AMD Turin SP5 CPU插座。我以前提到过SP5 Socket从上一代EPYC 9004系列沿用到现在,并且最新一代的 Zen5“大核”与Zen5c(高密度核)的EPYC 9005 系列都能支持,在这里不需要设计2款主板了。同样由于CPU支持12通道内存,且LGA 6096 Socket尺寸较大,所以左右两边也设计了12个DDR5 DIMM内存插槽。

在服务器主板上的PCIe扩展连接器一共有几种:Muiti track PCIe Gen5 x16、Gen5 x8 MCIO以及Gen Z 1C (Gen 5x4) / 2C (Gen5 x8),另外OCP 3.0 NIC其实也是一个PCIe x16。所有这些都加起来,3款主板相比AMD Turin平台的PCIe扩展性有些优势 ,因为单路EPYC支持128 lane PCIe 5.0;而Intel Xeon 6 SP/AP分别支持到88/96 lane。

上图右下方的DC-SCM 2.0管理模块硬件上是通用的,甚至BMC固件在同一CPU架构下也可以是通用的(比如基于OpenBMC)。BMC module(Nvidia Type)我理解应该是用于HGX那些GPU板的管理模块吧。PROT又是啥呢?研究服务器的专家朋友可不要笑话我,RoT其实是Root of Trust(可信根)的缩写。

DC-SCM管理模块和RoT安全模块







请到「今天看啥」查看全文