本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。
GTC25上,老黄拿出了最新也是最强的BLackWell Ultra GPU(B300),
不过这个不是重点,毕竟去年就发布了B100和B200,
这个就是小升级。
除了最强GPU之外,
同时也推出了基于NV72互联的72卡的机柜。
这是机柜中,GPU的节点,每层机架上面两组GB300;
每组GB300应该是两个GPU(B300),和一个CPU;
所以一个机架应该是,4个GPU,2个CPU
最上面是GPU节点,右边盖子上应该是液冷的走线。
整板的设计图应该如上所示。
这CPU和GPU以及NVLINK连接的图,可以参照如下
可以看到,除了NVLINK之外,还为每个GPU配了一个800G的网卡,CX-8。
所以,72个GPU,需要18层。上面10层,下面8层,
中间是NVLINK交换机。
中间则是NV-Switch的部分。14.4T的聚合带宽。
除了单个机柜,还有八个机柜的superpod,里面集成了
288 Grace CPU,
576 Blackwell Utlra GPU(GB300),
300TB HBM3e内存
288个 800G的CX8;
还有NVSwich
51.2T的网络交换机(SpectrumS)
最终达到的效果也比较惊人:11.5 ExaFLOPS FP4。
可以说,通过8个机柜就可以达到E级别超算能力(只在FP4)下。
也算一个不小本事。
在芯片部分,BLackWell Ultra也就是B300。
与现有的B200相比,提升了50%以上的内存和FP4计算能力。
整好是B100的两倍。
Blackwell Ultra B300还增加HBM3e堆栈的容量。
从192GB增加到288GB。
B300的实现有两种可能,
一种是封装了4个DIE,就是两个B100(B100就是两个DIE)的就计算能力
第二种就是还是2个DIE,只不过每个DIE上更多的SM核。
就像从B100升级到B200。
具体哪一种,还要看后续,目前有没有更详细的手册。
Blackwell Ultra可以使用DeepSeek R1-671B模型进行了评估。
每秒发送多达1000个token。
(这个应该不是最大的,ISSCC上的groq的LPU也能达到上千的token)。
与之相比,H100秒只提供最多100个token。
因此,吞吐量增加了10倍,将处理较大查询的时间从1.5分钟缩短到10秒。
并且预告了下一代的rubin和在再下一代的Feynman