专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
宝玉xp  ·  转发微博-20250205142851 ·  昨天  
爱可可-爱生活  ·  【GRPO with Verifiable ... ·  昨天  
宝玉xp  ·  转发微博-20250203132616 ·  3 天前  
爱可可-爱生活  ·  【[58星]ComfyUI_LoRA_Sid ... ·  4 天前  
黄建同学  ·  Cursor官方宣布支持DeepSeek了… ... ·  5 天前  
51好读  ›  专栏  ›  新智元

英特尔至强6独享MRDIMM,内存带宽飙升,加速推理达2.4倍!

新智元  · 公众号  · AI  · 2024-12-26 14:55

主要观点总结

本文介绍了英特尔至强6性能核处理器的特点与优势。该处理器在架构、核数、内存带宽等方面有显著提升,加速了推理性能,提高了推理性价比。文章详细阐述了至强6性能核处理器的内存控制器、NUMA与集群模式、SNC3 Mode与HEX Mode等特性,并探讨了MRDIMM内存技术对性能的提升作用。此外,文章还介绍了至强6性能核处理器在AI训练、大型数据库等领域的应用优势。

关键观点总结

关键观点1: 至强6性能核处理器在架构、核数、内存带宽等方面有显著提升,加速了推理性能。

至强6性能核处理器通过增加内核数量和提升内存带宽,实现了推理性能的激增。与上一代处理器相比,至强6具有更多的计算单元和更大的内存控制器,从而提高了处理能力和效率。

关键观点2: 至强6性能核处理器的NUMA与集群模式提高了内存访问效率和性能。

至强6性能核处理器采用NUMA(Non-Uniform Memory Access)和集群模式,将内核分为若干组,并分配相对独立的缓存和内存空间,以减少内存访问冲突,提高访问效率。

关键观点3: MRDIMM内存技术对于至强6性能核处理器来说是一项重要的优势。

MRDIMM内存技术通过增加多路复用数据缓冲器和改进寄存时钟驱动器,实现了内存带宽的翻倍。这项技术对于至强6性能核处理器来说是一项独占的能力,可以显著提升内存带宽和内存容量,对于AI训练、大型数据库等应用需求非常有利。

关键观点4: 至强6性能核处理器在内存带宽上的优势和潜力对于大语言模型推理有重要意义。

大语言模型推理对内存带宽和容量有较高要求,至强6性能核处理器的内存带宽优势和潜力可以显著提升大模型推理性能。通过MRDIMM和CXL内存扩展带宽,将进一步提升推理性能。


正文



新智元报道

编辑:编辑部 HYZ
【新智元导读】 英特尔至强6性能核处理器加速推理达2.4倍,可谓是获得了业界的一波关注。通过深入分析其架构,核数、内存带宽大幅提升的加持可谓功不可没。也正因此,至强6得以推理性能激增,进一步提升了推理性价比。而推理成本正是大语言模型落地最后最关键的挑战。

之前的文章中,有业者预测至强6性能核处理器每颗计算单元芯片中的内核数量为43,加上每个计算单元有两组双通道内存控制器各占一个网格,那么总共占用43+2=45个网格,可以由5×9的布局构成。

但这个假设有一个问题,要构成128核的6980P,三颗芯片只屏蔽1个内核,这良率要求比较高啊。

至今还未在公开渠道看到至强6性能核处理器的Die shot或架构图,但英特尔发布了晶圆照片作为宣传素材。

虽然晶圆照片并不能提供每颗芯片的清晰信息,但隐约能感觉到,网格构成更像是5×10,而不是5×9或6×8。

另外,左上角和左下角疑似内存控制器的区域面积比预想的要大得多,每一侧占了三个网格。

如果接受了两组内存控制器共占用6个网格的设定,那么每个芯片中就是50-6=44个内核,在构成6980P的时候分别屏蔽一到两个核即可,感觉就合理多了。

在获得相对可信的内核数量后,新的疑惑就是:为什么至强6性能核的内存控制器这么占地——这个区域有其他未知功能?还是因为增加了MRDIMM(Multiplexed Rank DIMM)的支持?

毕竟在此之前,英特尔的双通道DDR5、三通道DDR4内存控制器只占一个网格,甚至,连信号规模更大、带宽更高的HBM控制器(至强CPU Max处理器)也是一个网格。

至强CPU Max处理器的HBM2e是工作在3,200MT/s,那么每个控制器带宽是410GB/s,整颗CPU有超过2TB/s的HBM带宽。

虽然对疑似内存控制器区域所占芯片面积的疑惑未解,还需要进一步解惑,但我们至少可以确定,英特尔在这一代至强的内存控制器上是下了大本钱的。

至少在相当一段时间内,它是可以「独占」MRDIMM的优势了。

至强6性能核的NUMA与集群模式

谈服务器的内存就绕不过NUMA(Non-Uniform Memory Access,非统一内存访问)。 因为随着CPU内核数量的增加,各内核的内存访问请求冲突会迅速增加。

NUMA是一个有效的解决方案,将内核分为若干组,分别拥有相对独立的缓存、内存空间。 规模缩小后,冲突就会减少。

一般来说,NUMA划分的原则是让物理上临近某内存控制器的内核为一个子集。这个子集被英特尔称为SUB-NUMA Clustering,简称SNC。同一SNC的内核绑定了末级缓存(LLC)和本地内存,访问时的时延最小。

譬如,在第三代至强可扩展处理器中,一个CPU内可划分两个SNC域,每个SNC对应一组三通道DDR4内存控制器。如果关闭NUMA,那么整个CPU的内存将对称访问。

而第四代至强可扩展处理器使用了4颗芯粒的封装,可以被划分为2个或4个SNC域。

如果希望每个内核可以访问所有的缓存代理和内存,可以将第四代至强可扩展处理器设置为Hemisphere Mode或者Quadrant Mode,默认是后者。

第五代至强可扩展处理器是2颗芯粒,可以划分为两个SNC域。

在至强6性能核中,可以将每个计算单元芯片作为一个SNC,每个域拥有4个内存通道,这被称为SNC3 Mode。

如果要通过其他芯粒的缓存代理访问所有内存,那就是HEX Mode。

根据英特尔提供的数据,几种不同模式的内存访问时延差异较大,与内核、内存控制器之间的「距离」直接相关。

至强6性能核的内核规模、内存控制器数量增加之后,相应的访问时延也会上升。

例如,根据我们前面的观察,至强6性能核内每个计算单元芯片中,内核与内存控制器的最远距离为10列,而第四代/第五代至强可扩展处理器无NUMA的为8列。 这反映在英特尔的数据上,就是至强6900P在SNC3 Mode的时延略高于上一代至强处理器的Quad Mode。

如果至强6900P设为HEX Mode,那么内核与内存控制器的最远距离将达到13甚至15列,时延增加会比较明显。

整体而言,由于SNC3 Mode时延低,其将成为至强6服务器的默认模式。这种模式主要是适合虚拟化/容器化这类常见云应用,以及并行化程度高的计算(如编解码)等。

当然,HEX Mode可以直接访问更大规模的内存,这对于大型数据库,尤其是以OLTP为代表的应用来说更为有利。

Oracle和SQL通常建议关闭NUMA以获得更佳的性能。Apache Cassandra 5.0这类引入向量搜索的数据库也能从HEX Mode显著获益。部分科学计算也更适合HEX Mode,譬如通过偏微分方程建模的PETSs、分子动力学软件NAMD等。

HEX Mode的另一个典型场景是配合CXL内存使用。

譬如英特尔在今年12月11日发布的一篇利用CXL内存优化系统内存带宽的论文中,使用了至强6900P搭配12条64GB DDR5 6400以及8个128GB CXL内存模块,其中至强6900P本地的768GB DDR5内存在HEX Mode下配置为NUMA0,所有的1TB CXL内存配置为NUMA1,采用优化交错配置(Interleaving Strategy)。

测试表明,在内存带宽敏感的应用中,使用CXL内存扩展可以提升20%~30%的性能。

MRDIMM领跑者

对于至强6性能核处理器而言,提升内存带宽最直接的方法莫过于MRDIMM。这也是这款处理器相比其他同类产品比较独占的一项能力,近期看不到任何其他CPU厂商有明确支持MRDIMM的时间表,更不要说推出实际产品了。

相对而言,内存厂商对MRDIMM的支持比较积极,美光、SK海力士、威刚都推出了相应的产品,包括高尺寸(Tall formfactor,TFF)。

第一代DDR5 MRDIMM的目标速率为8,800 MT/s,未来会逐步提升至12,800 MT/s、17,600 MT/s。

MRDIMM增加了多路复用数据缓冲器(MDB),改进了寄存时钟驱动器(MRCD)。

MDB布置在内存金手指附近,与主机侧的CPU内存控制器通讯。MDB主机侧的运行速度是DRAM侧的双倍,DRAM侧的数据接口是主机侧的双倍。

MRCD可以生成4个独立的芯片选择信号(标准的RCD是两个,对应两个Rank)。

MDB可通过两个数据接口将两个Rank分别读入缓冲区,再从缓冲区一次性传输到CPU的内存控制器,由此实现了带宽翻倍。

由于MRCD可以支持4个Rank,也意味着可以支持双倍的内存颗粒。已经展示的MRDIMM普遍引入更高的板型(TFF),单条容量也由此倍增。

由于至强6900P插座尺寸大增,导致双路机型的内存槽数量从上一代的32条减少到24条。要能够继续扩展内存容量,增加内存条的面积(增加高度)确实是最简单直接的手段。

通过使用256GB的MRDIMM,双路至强6900P机型可以获得6TB内存容量。除了更大的内存带宽,更高的内存容量也非常有利于AI训练、大型数据库等应用的需求,进一步强化至强6900P在AI机头领域的优势。

与DDR5 6,400MT/s相比,MRDIMM 8,800MT/s的实际运行频率略低(4,400MT/s),导致轻量级的应用不能从内存带宽的增加当中明显获益。

其实类似的问题在内存代际转换之初均会存在,能够充分利用更大内存带宽的主要还是计算密集的应用,譬如加密、科学计算、信号处理、AI训练和推理等。从目前的测试看,对MRDIMM受益最大的应用主要包括HPCG(High Performance Conjugate Gradient)、AMG(Algebraic Multi-Grid)、Xcompact3d这些科学计算类的应用,以及大语言模型推理。

内存带宽与大模型推理







请到「今天看啥」查看全文