一、Nvlink和NVSwitch相关的概念
1、英伟达官网的定义如下:
2、
个人总结:
-
Nvlink是英伟达的芯片互联技术,通常用于GPU之间或者GPU到CPU。
-
Nv Switch是基于Nvlink技术的芯片或者类似交换机的设备。
-
在主机内部NvSwitch就是芯片,跨主机互联时NVSwitch就是搭载Nv switch芯片的独立设备。
3、
历代Nvlink的版本变化
二、Nvlink和PCIe两种互联技术对比
Nvidia GPU互联技术最新的是NVLink 5.0。与前代4.0相比通道数目不变,速率翻倍至1.8TB/s,PCIe目前最新的版本是Gen5,作为计算机当中最通用的互联技术,和Nvlink相比差距有多大呢?
NVLink5.0
-
1、每条链路单向50GB/s
-
2、双向是2倍关系,100GB/s
-
3、总带宽:18x100=1.8TB/s
PCIe 5.0
PCIe 5.0和最新的NVlink5.0相比,约是14倍的差距
三、GPU服务器:PCIe vs SXM内部互联分析
1、标准的GPU服务器CPU和GPU,GPU之间都是通过PCIE链路互联, 只能在成对的 GPU之间通过 NVLink 桥接器连接,无法做到全互联,对比SXM机型,PCIE更加灵活,包括GPU卡的数量,以及PCIE的拓扑都可以调整。
2、以英伟达的DGX H100服务器为例。它通过 4个NVLink SW芯片将 8 个 GPU 互连起来,实现了 GPU之间的高带宽互联Nvlink解决的是GPU之间的高速互联,GPU与CPU之间的还需要标准的PCIE链路链接。
四、NVLink技术在标准PCIe GPU服务器上的应用
Nvlink 桥接器实现卡卡互联
标准的GPU服务器,通常GPU间是采用PCIe通道互联,如果要增加卡卡互联速率,可采用Nvlink桥接器方案,以A100为例支持最多3个,满配三个时互联带宽可达600GB/s。(Tesla和Quadro系列的部分型号)
注:根据英伟达公开的资料,桥接器互联的速率上限是600GB/s,用三个桥接器实现,H100的PCIe卡也是如此,
Nvlink桥接器正确使用举例如下
五、NVL72基于Nv Switch的超级“GPU”
2024年3月份,GTC大会除了最新B200芯片的备受瞩目外,NVL72产品的关注点也居高不下,作为NVIDIA技术的集大成的产品,一体化的设计亮点十足,包括B200、GB200、计算节点、NvSwitch节点、 Nvlink 5.0技术等。
18个计算节点:
每个节点包括2个GB200,
每个GB200包括1个CPU和2个B200,所以18x2x2=72
9个Nvlink Switch:
每个Switch节点包括2个Nvlink Switch4.0的芯片
如何理解NVL72?
一体化的设计,装满一个机柜,相当于一个由72块B200组成的逻辑的“大GPU”,GPU内部需要通过链路互联。
六、GB200“节点内部”组成和连接
GB200 节点(Compute Tray) 包含 2 个 GB200,每个GB200包括1个 Grace CPU、2个 GPU
①蓝色-GPU到NVlink交换机之间的互联,
NVLink 5.0技术,1.8TB/s
②橙色-GPU到Grace CPU之间的互联,
NVLink C-C技术,900GB/s
七、NVL72“集群内部”GPU互联方案
9个NVLink Switch将72个GPU互联为一个逻辑的“大GPU”
每个B200有18个NVLINK Port,72x18=1296个
1个Switch Tray包含2颗NVLINK Swtich 芯片,每个芯片提供72个接口,共计144个NVLink 接口
1296÷144=9(台),因此正好通过9台的Switch将72个GPU进行互联。
如图所示:每一个GPU都与18个互联,因此通过SW芯片,GPU到GPU直接能实现18条NVLink的全互联。
八、英伟达特殊芯片-Grace Hopper举例
NVIDIA Grace Hopper 超级芯片通过 NVIDIA® NVLink®-C2C 技术将 Grace 和 Hopper 架构相结合,为加速 AI 和 HPC 应用提供 CPU+GPU 相结合的一致内存模型。
芯片基本信息如下: