专栏名称: 锦缎
为上市公司提供知识产权解决方案
目录
相关文章推荐
知产宝  ·  专利案例 | ... ·  20 小时前  
知识产权界  ·  开幕倒计时 | ... ·  昨天  
国家知识产权局  ·  国家知识产权局党组召开会议 ... ·  3 天前  
知识产权那点事  ·  擅用“明星代言”宣传卖货,家居公司被判道歉赔款 ·  5 天前  
知识产权那点事  ·  专家解读 | 《人工智能生成合成内容标识办法》 ·  5 天前  
51好读  ›  专栏  ›  锦缎

从GPU到AI工厂,有种“吃干抹净”叫英伟达

锦缎  · 公众号  · 知识产权  · 2025-03-20 11:31

正文

图片 本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。

GTC25上,老黄拿出了最新也是最强的BLackWell Ultra GPU(B300),

不过这个不是重点,毕竟去年就发布了B100和B200,

这个就是小升级。

除了最强GPU之外,

同时也推出了基于NV72互联的72卡的机柜。

这是机柜中,GPU的节点,每层机架上面两组GB300;

每组GB300应该是两个GPU(B300),和一个CPU;

所以一个机架应该是,4个GPU,2个CPU

图片

最上面是GPU节点,右边盖子上应该是液冷的走线。

图片

整板的设计图应该如上所示。

这CPU和GPU以及NVLINK连接的图,可以参照如下

图片

可以看到,除了NVLINK之外,还为每个GPU配了一个800G的网卡,CX-8。

所以,72个GPU,需要18层。上面10层,下面8层,

中间是NVLINK交换机。

图片

中间则是NV-Switch的部分。14.4T的聚合带宽。

图片

除了单个机柜,还有八个机柜的superpod,里面集成了

288 Grace CPU,

576 Blackwell Utlra GPU(GB300),

300TB HBM3e内存

288个 800G的CX8;

还有NVSwich

51.2T的网络交换机(SpectrumS)

图片

最终达到的效果也比较惊人:11.5 ExaFLOPS FP4。

可以说,通过8个机柜就可以达到E级别超算能力(只在FP4)下。

也算一个不小本事。

在芯片部分,BLackWell Ultra也就是B300。

与现有的B200相比,提升了50%以上的内存和FP4计算能力。

整好是B100的两倍。

Blackwell Ultra B300还增加HBM3e堆栈的容量。

从192GB增加到288GB。

B300的实现有两种可能,

一种是封装了4个DIE,就是两个B100(B100就是两个DIE)的就计算能力

第二种就是还是2个DIE,只不过每个DIE上更多的SM核。

就像从B100升级到B200。

具体哪一种,还要看后续,目前有没有更详细的手册。

图片

Blackwell Ultra可以使用DeepSeek R1-671B模型进行了评估。

每秒发送多达1000个token。

(这个应该不是最大的,ISSCC上的groq的LPU也能达到上千的token)。

与之相比,H100秒只提供最多100个token。

因此,吞吐量增加了10倍,将处理较大查询的时间从1.5分钟缩短到10秒。

并且预告了下一代的rubin和在再下一代的Feynman

图片






请到「今天看啥」查看全文