更多一手调研纪要和研报数据,点击上面图片小程序
事件:据报道,英伟达正在为中国市场开发一款符合美国现行出口管制的新旗舰人工智能芯片。
英伟达今年3月发布了“Blackwell”芯片系列,并将于今年晚些时候量产。在该系列中,B200在某些任务(如提供聊天机器人的回答)上的速度比前代产品快30倍。消息人士称,英伟达将与其中国经销商伙伴合作推出和分销这款暂定名为“B20”的芯片。
近期英伟达开发B20加速卡,叠加GB200产业链备货节奏加速,持续关注铜互连+PCB产业链,我们更新行业及公司近况如下:
1、B20带来
供应链弹性
1)英伟达开发符合出口中国的“B20”加速卡,采用机柜形式;
2)此前市场预期2025年的H20出货量为70万-100万颗,若全部切换为B20,则将带来PCB+铜互联的显著增量。
2、GB200供货节奏加速
1)据此前调研来看,3Q24安费诺产线备货提速,9-10月出货量提升至每日300-400套cartridge;
2)3Q24末安费诺产线已达到基本满产状态,说明备货提速,GB200产业链业绩贡献节奏有望加快。
3、重视铜互联+PCB产业链弹性
考虑到推理+训练效率显著提升,以及英伟达产业链话语权增强,机柜形态有望成为后续AI服务器主流形态,重视弹性较大的铜互连+PCB产业链;
- 铜互联:机柜产业链弹性最大的赛道,NVL 72单机柜价值量100万+,建议关注安费诺、沃尔核材、立讯精密、鸿腾精密、神宇股份、
鼎通科技
等;
- PCB:B系列单GPU提升至3500元,且PCB价值量在连接器、电源等环节有显著增长,建议关注沪电股份、胜宏科技、景旺电子、威尔高等。
美国的管制
根据美国2022年10月推出的出口管制的政策,英伟达对华出口GPU 的 TPP(总处理能力)需要低于 4800 分。最初的 A100/H100 就是超出了这个限制,因此也导致了英伟达被迫推出了经过“阉割”的A800/H800。
随后在2023年10月17日,美国政府又推出了新的限制规则,进一步收紧了限制范围:
(1)ECCN 3A090a针对最高性能芯片,集成电路中包含一个或多个处理单元达到以下任一标准:a) 综合运算性能(Total Processing Performance,TPP)达到4800,或b) 综合运算性能达到1600,同时“性能密度”(Performance Density,PD)达到5.92。
(2)ECCN 3A090b针对次高性能芯片,集成电路中包含一个或多个处理单元达到以下任一标准:a) 综合运算性能达到2400但低于4800,性能密度达到1.6但低于5.92;b) 综合运算性能达到1600,性能密度达到3.2但低于5.92。
只要在上述两项性能标准范围内的美国芯片都将会受到限制。这也直接导致了英伟达针对中国市场推出的A800和H800芯片的对华出口受限。此外,英伟达L40S、高端显卡RTX 4090等产品也受到了限制。
今年3月,美国升级对华芯片出口禁令,表示将对中国出口的AI半导体产品采取“逐案审查”政策规则,全面限制英伟达、AMD及更多先进AI芯片和半导体设备向中国销售。
就算是阉割版,也要禁?
H20是英伟达为中国市场特别定制的GPU ,其性能虽然相较于H100有所降低,但也是基于H100专门面向中国市场推出的三款“阉割版”GPU当中性能最强的,仍具备一定的市场竞争力。
根据公开资料,NVIDIA H20只配备了78组SM单元,相当于H100 SXM版本的六成、PCIe 5.0版本的接近七成,而显存为96GB HBM3,只有H100 144GB的三分之二,内存带宽砍半到4TB/s,NVNlink互连带宽为900GB/s,功耗为400W。它的算力性能也被阉割得一塌糊涂:INT8/FP8 296TFlops,BF16/FP16 48TFlops,TF32 74TFlops,FP32 44TFlops,FP64 1TFlops。
H20相对于原来的H100的AI性能降低了近85%,尽管性能有所阉割,但其HBM容量比H100更高,并且与CUDA平台完全兼容,使得其在实际AI训练和推理方面相比其他国产AI芯片仍有一定的优势。
H20依然吸引了百度、阿里、腾讯、字节跳动等巨头的大量采购。市场研究机构SemiAnalysis预测,英伟达这个财年有望向中国交付100万颗H20芯片,单价1.2-1.3万美元,销售总额超过120亿美元。
然而,美国政府可能会在10月份再次审查半导体出口政策,届时H20的销售可能会受到进一步限制。限制措施可能包括完全禁售、再次阉割性能或精简内存。此外,美国还可能对马来西亚、印度尼西亚、泰国等其他亚洲国家进行类似的出口管制,以防止被禁售的产品绕路进入中国市场。
新的特供版B20已经在路上
英伟达在2024年3月推出了Blackwell系列芯片,预计于2024年下半年投入生产。Blackwell系列芯片专门针对大规模语言模型的计算需求设计,迎合了过去一年AI领域迅速增长的兴趣,基于该架构的B200芯片在某些任务上的处理速度是其前代产品的30倍。