(1)制程优化,首次采用双芯片设计:
采用定制的、双reticle的台积电4NP(4N工艺的改进版本)制程工艺,首次采用MCM(多芯片封装),将两个GPU裸片通过C2C以10 TB/s通信速率融合在一个芯片中,晶体管数量达到了2080亿。没有内存局部性问题或缓存问题,因此CUDA将其视为单块GPU,从而大幅度提高了处理能力。
(2)内嵌第二代Transformer Engine提升Transformer模型的加速效果:
第二代Transformer Engine 使用
Blackwell Tensor 核心
技术,将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合,使Blackwell具备在FP4精度的AI推理能力,可支持2倍的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度,提升了不同参数规模Transformer模型的加速效果。
(3)第5代NVLink技术和NVLink Switch提升集群通信连接速率:
第五代NVLink将GPU卡间连接速率提升到1.8TB/S,NVLink Switch支持与多个NVLink连接,可高速互联576颗GPU组成计算集群,为AI大模型高密度、大规模训练提供有力的AI算力支持。
(4)内嵌加密协议,保障数据安全:
Blackwell芯片引入的原生界面加密协议包含NVIDIA机密运算,能以强大的硬件安全防护来保护敏感资料和AI模型,保障计算过程中的数据安全。
(5)配备解压引擎,为大数据处理和数据科学场景提供有力支持:
Blackwell 配备解压引擎,运用900 GB/s的双向频宽,有效支持当前最新的数据格式的处理、查询和分析,实现资料分析与资料科学的最高效能。
(6)内嵌RAS引擎,保障AI训练的稳定性:
Blackwell架构的芯片内嵌的RAS引擎可快速定位问题来源并实行有效的补救措施,尽可能减少停机时间,同时可自动预测、通过智能化预防措施处理在训练过程中可能出现的问题,从而保障长时间的AI训练。
1.2、 B200 GPU:基于Blackwell架构,实现算力增长、内存升级和网络传输加快
B200首次采用多芯片封装(MCM),实现算力增长、内存升级和网络传输加快。
作为NVIDIA Blackwell架构首款新产品,B200采用双芯片设计,两个芯片通过C2C连接成一个GPU,互联速度高达10TB/s;并采用台积电定制的4NP制程,晶体管数量达到2080亿,对比上一代Hopper架构的H100晶体管数量只有800亿(未采用双芯片设计)。B200预计2024年晚些时间上市。
1)双芯片设计+第二代Transformer引擎,助力算力大幅提升至2.5倍。使用定制的Blackwell Tensor核心技术,支持新的FP4、FP6精度计算加速AIGC推理和LLM,在FP4精度下,AI算力可实现20 PFLOPs,提升至H100 4PFLOPs的2.5倍;
2)搭配8颗HBM3e内存(Hopper架构的H200共计6颗),内存容量达到192GB;
3)采用第五代NVLink高速互联,带宽突破1.8 TB/s,相比Hopper架构和Ampere架构有了巨幅提升,最大可支持10万亿参数的模型的训练。
1.3、 通信互联:NVLink+NVLink Switch+X800系列交换机,增强大规模AI算力网络传输速度
第五代NVLink带宽突破1.8TB/s。
NVLink可在内存墙无法突破的情况下,最大化提升CPU和GPU之间通信的效率,于2016年在基于Pascal架构的GP100芯片和P100运算卡上率先采用,当时的带宽为160GB/s,到H100采用的第四代NVLink,其带宽已经达到900GB/s,而B200采用的第五代NVLink带宽提升一倍、突破1.8TB/s。
最新NVLink Switch芯片支持576颗GPU组成计算集群。
NVLink Switch支持与多个NVLink连接,实现NVLink在单节点、节点之间互联,进而创建更高带宽的GPU算力集群,基于最新的NVLink Switch芯片(台积电4nm工艺,500亿个晶体管),可实现576颗GPU组成计算集群,上一代产品仅支持256颗GPU。
X800系列交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台。
英伟达还新发布了搭载64个800Gb/s端口、配备RoCE自适应路由的NVIDIA Quantum-X800 InfiniBand交换机,和搭载144个800Gb/s端口,网络内计算性能达到14.4TFLOPs的Spectrum-X800交换机。X800系列新交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台,与上一代产品相比,带宽容量提高了5倍,网络计算能力则凭借NVIDIA SHARPv4技术提高9倍。Quantum-X800 InfiniBand交换机和Spectrum-X800交换机面对客户群体略有差异:
1)Quantum-X800 InfiniBand:包含Nvidia Quantum Q3400交换机和Nvidia connectX-8 SuperNlc,适用于追求超大规模、高性能的客户;
2)Spectrum-X800以太网:包含Spectrum SN5600 800GB/S交换机和Nvidia BlueField-3 SuperNIC,适用于多租户、工作负载多样性,且需融入生成式AI应用的客户
X800系列交换机的首批采用者包括Microsoft Azure、Oracle Cloud Infrastructure(OCI)和Coreweave等,预计将于明年上市。
1.4、 单芯片和互联产品帮助打造大规模AI算力集群,实现性能跃升和能耗降低
英伟达从售卖单芯片转向售卖算力硬件系统,推出超级芯片GB200(2 GPU+1 CPU)、超级计算机GB200 NVL72(72 GPU+36 CPU)和DGX Super POD一站式AI超算解决方案(576 GPU+288 CPU)。
超级芯片GB200:新精度下算力大幅提升。
GB200是通过900GB/s 低功耗NVLink芯片间互连,将2颗Blackwell GPU + 4个die + 1颗ARM Grace CPU连接得到的超级芯片,具备16TB/s的HBM、3.6TB/s的显存带宽。计算性能上,在新的FP4精度下可达到40PFLOPs的AI算力,是上一代产品H200在FP8精度的5倍。
超级计算机GB200 NVL72:训练和推理性能跃升,能耗成本大幅下降。
英伟达在会上发布了通过第五代NVL互连的72颗Blackwell GPU、36颗Grace CPU以及BlueField-3 DPU组合而成的服务器GB200 NVL72,在新的FP4精度下推理算力高达1440 PFLOPs,FP8精度的训练算力高达720Pflops,传输量最大达到260TB/s,几乎相当于一个超级计算机集群。GB200 NVL72在训练和推理方面相比上一代均实现大幅提升:
1)训练性能高达GH100的4倍:2000颗GPU的GB200 NVL72加速卡可在90天内消耗4兆瓦电力训练1.8万亿参数的GPT-Moe,等同于使用8000颗GPU的GH100加速卡消耗15兆瓦电力训练90天的效果,训练性能高达GH100的4倍;
2)推理性能提升至30倍,成本与能耗降低25倍:与相同数量(72颗)H100相比,GB200 NVL72 对于LLM推理工作负载的性能提升高达30倍,并将成本和能耗降低高达25倍。
一站式AI超算解决方案DGX Super POD:打造大型AI算力集群,有望成为训练和推理的重要基础设施。
英伟达还推出了基于GB200的DGX Super Pod一站式AI超算解决方案,采用高效的一体式液冷机架,搭载8套DGX GB200 NVL72系统,即288颗Grace CPU和576颗Blackwell 200 GPU,内存达到240TB,FP4精度计算性能达到11.5ELOPs(每秒11.5百亿亿次),相比上一代产品的推理性能提升30倍,训练性能提升4倍。