专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
中国舞台美术学会  ·  关注丨江苏省消保委公开约谈12家文娱演出经营 ... ·  2 天前  
中国舞台美术学会  ·  思维碰撞干货满满!2024台湖舞美国际论坛圆满落幕 ·  4 天前  
中国舞台美术学会  ·  分享丨“文旅+”跨界融合,沉浸式演艺重构文化 ... ·  2 天前  
中国舞台美术学会  ·  关注丨必须把顶层设计和摸着石头过河结合起来 ·  5 天前  
中国舞台美术学会  ·  “美学、声学、共生”——2024台湖舞美国际 ... ·  5 天前  
51好读  ›  专栏  ›  企业存储技术

Gen-Z互连(上):Intel缺席的内存中心架构

企业存储技术  · 公众号  ·  · 2017-08-20 09:00

正文

本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博ID:唐僧_huangliang,以便更好地与读者互动。

听说Gen-Z这个新的互连标准组织已经有段时间了,之前没太仔细研究,直到看了《FMS2017闪存峰会演讲资料下载(持续更新)》中的这份资料,觉得有必要写点东西跟大家分享一下。

 

内存、PCIe带宽跟不上CPU核心数增长

 

如上图,从Xeon5500/5600时代开始IntelCPU中集成了内存控制器,当时是每个LGA-1366插槽3通道;到XeonE5时代增加到每个LGA-2011插槽4通道;及至代号为Skylake-EPPurley)的最新一代Xeon Scalable服务器,每个LGA-3647插槽控制6通道内存,参见IntelXeon SP服务器架构曝光:ApachePassQuickAssist》。

 

AMD现在又一次想做超车者,在EPYCNaples)平台上祭出LGA-4094超大封装和8通道内存控制器。(扩展阅读:《AMDEPYC官方资料乌龙?谈服务器CPU互连效率》)可以预见的是,Intel下一代服务器CPU插槽也只有增大而没有减小的道理。

 

而内存通道的增加赶不上核心数量,于是平均每个Core的内存带宽总体呈下降趋势。最大28核的Xeon SP核这一代是个例外,不知2019年计划的60核又会是怎样的设计?

 

 

伴随而来的是,CPU、内存的功耗和物理空间占用等方面的不断提升。关于上图中列出的2U 4节点服务器演进,我在《2U4节点XeonSP服务器设计:扩展性与散热的权衡》里面曾有深入一些的讨论,有兴趣的读者可以看看。

 

除了内存带宽,没有和计算密度成正比增长的还有I/O带宽。Intel这一代更新每CPU提供的PCIe lane数量从40加到了48个,PCIe 3.x 8GT/s到单一设备的带宽不变。到下一代的PCIe4.0PCIex16双向总带宽可接近64GB/s,而CPU本地DDR4内存带宽已达100GB/sGPU上的HBM带宽更是超过732GB/s

 

 

在尚未发布的POWER9 LaGrange平台上,整合有PCI Gen4控制器,两颗CPU一共引出84lane,此外每CPU还支持2x8 laneNVLink/OpenCAPI@ 25Gbps。更多细节参见《初探OpenPOWER9服务器设计:x86不再寂寞》。

 

有人说是PCIe 4.0正式规范不断跳票导致了Power9的发布推迟,胡乱猜测一句,Intel在这里面有没有点私心呢?另一方面IBM也开始多条腿走路,NVLink/OpenCAPI25Gbps速率就已经超过了PCIe 4.016GT/s,而PCIe 5.0草案中才涉及25GT/s32GT/s

 

Gen-Z为什么要以内存为中心?

 

Gen-Z支持直连、交换或者Fabric拓扑

 

面对挑战,Gen-Z提出了以内存为中心的架构,其核心思想是一个内存语义的Fabric通信协议。如上图,主内存脱离CPU而池化CPU角色相对弱化为SoC(其本地控制的内存可能用于管理),而FPGAGPU加速器,网络、存储I/O则提升到对等的角色。

 

是不是和HP The Mechine有点相似呢?而该架构显然是Intel不愿接受的,因为这些年来他们做了以下事情:

 

在当初IntelXeon 5000/5400系列和之前的服务器平台,MCH北桥一直是整个系统的核心枢纽,向上有FSB前端总线连接CPU,同时提供内存控制器、PCIe控制器,并向下连接南桥。

 

后来AMDOpteronK8)开始在CPU整合内存控制器,听说因为他们请来了Alpha的架构师,而这个方向也是从RISC小型机学来的。

 

 

后来的事情许多朋友都清楚,Intel为了提高内存性能/降低延时,并且让CPU间通信不在受FSB绕道北桥所累,在Xeon 5500平台上取消MCH同时引入QPI互连,把内存控制器整合进CPU

 

此时PCIe控制器仍保留在IOH芯片组中,并且还可以增加第二颗IOH以提高PCIe扩展能力。但IOH使用的QPIIntel私有协议,毕竟不能实现像PCIe Switch那样拓扑。再后来到了Xeon E5平台,Intel进一步提高集成度,PCIe控制器整合进CPU,回到了我们前面的讨论。

 

在当前的架构体系(包括x86)中,CPU控制的内存总线是每个通道72bit(含ECC)同步接口,每个DDR4 DIMM内存插槽288pin4-8个内存通道提供每通道17-25GB/s带宽

 

而换成Memory Semantic Fabric之后,处理器和内存(Media Module)之间通过Gen-Z Logic连接,把内存控制器拆分到CPU之外。此时可以有2-8个高速串行链路,号称低延时、高性能的异步接口,处理器和内存介质无关性(即支持DDR几代不再取决/绑定于CPU)。

 

外置内存控制器是否划算?

 

其实Intel也不是没干过类似的事情,其实在历史上他们曾经两次引入内存缓冲技术,大家还记得FBD(全缓冲内存)和SMI吗?

 

Fully Buffered DIMM出现于Intel 5000系列芯片组,在双路服务器平台上终止于5400。当时刚开始在主板上引入4通道内存,大概是64/72DDR接口布线设计遇到难度,于是改用一种14bit下行(北向)/10bit上行(南向)的接口技术。北桥的内存通道连接到内存中央的AMB芯片,再由此在同一个通道内的向下串连更多DIMM。这个时期遇到的问题是内存不对等的延时增加,以及每条DIMMAMB增加了成本和功耗

 

第二次是从Xeon 7500一直到XeonE7  v4。上图以Dell PowerEdge R910服务器资料为例,4CPU支持8块内存板,内存控制器SMI接口经过缓存芯片之后连接通用内存。提高内存数量和容量的支持是SAP HANA类应用喜欢的,但这也带来了一定的性能影响

 

PowerEdge R910的内存板,我在《四路服务器进化:R930内存板瘦身、偏置CPU散热》中曾经提到后来的设计尺寸缩小了不少,但增加的成本和耗电却不可避免。

 

最终Intel也放弃了这种设计,详情参见《四路XeonSP服务器内存减半:Intel葫芦里卖的什么药?》,我在这里就不再重复。

 

相比之下,Gen-Z的高速串行链路有点类似于用PCIe点对点连接CPU和内存控制器,如果只是从成本和主板设计复杂性上看未必比现在的Xeon  E5SP划算Gen-Z的价值还不只这些,我将在明天的下篇中继续和大家讨论以下主题:

-         另类RSD:复用PCIe pin提升整体内存带宽

-         在更小连接器上跑出更高带宽(25-100GB/s

-         联盟中还缺席了谁?PCI-SIG的反应


未完待续


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage


长按二维码可直接识别关注

历史文章汇总(传送门):http://chuansong.me/account/huangliang_storage

点击下方“阅读原文”,查看更多历史文章
↓↓↓