专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
51好读  ›  专栏  ›  Dots机构投资者社区

英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表

Dots机构投资者社区  · 公众号  ·  · 2024-12-28 08:15

正文

本文转自微信公众号“新智元”,作者:新智元。




编辑:编辑部 HYZ
【导读】 英伟达的圣诞大礼包曝光,最强B300、GB300算力和显存直接提高50%,模型推理训练性能史诗级提升,同时还打破了利润率下降的魔咒。

多亏了老黄,圣诞节如期而至。
尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。
距离GB200和B200的发布才刚刚过去几个月,英伟达便推出了全新一代的AI GPU——GB300和B300。
更为有趣的是,这次看似普通的更新背后,实则内含玄机。其中最为突出的,便是模型的推理和训练性能得到了大幅增强。
而随着B300的推出,整个供应链正在进行重组和转型,赢家将从中获益(获得礼物),而输家则处境不妙(收到煤炭)。

这正是英伟达送给所有超大规模云计算供应商、特定供应链合作伙伴、内存供应商以及投资者的特别「圣诞礼物」
不过就在上周,天风国际分析师郭明錤却在研报中曝出,B300/GB300的DrMOS存在严重的过热问题!
而这 ,很可能会影响B300/GB300的量产进度。
具体分析如下——

这已经不是Blackwell第一次被曝出存在设计问题了

B300和GB300:绝不仅是一次小升级


根据SemiAnalysis的最新爆料,B300 GPU对计算芯片的设计进行了优化,并采用了全新的TSMC 4NP工艺节点进行流片。
相比于B200,其性能的提升主要在以下两个方面:
1. 算力
  • FLOPS性能提升50%
  • 功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW;前代则为1.2KW和1KW)
  • 架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)

2. 内存
  • HBM容量增加50%,从192GB提升至288GB
  • 堆叠方案从8层HBM3E升级为12层
  • 针脚速率保持不变,带宽仍为8TB/s

专为「推理模型」优化


序列长度的增加,导致KV Cache也随之扩大,从而限制了关键批处理大小和延迟。
因此,显存的改进对于OpenAI o3这类大模型的训练和推理至关重要。
下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效能提升,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。

H100和H200的Roofline模拟,通过FP8精度的Llama 405B模型完成
H100到H200的升级,主要在于更大、更快的显存:
  1. 更高的带宽使交互性能普遍提升了43%(H200为4.8TB/s,而H100为3.35TB/s)
  2. 更大的批处理规模,使每秒token生成量提升了3倍,进而使成本也降低了约3倍

而对运营商而言,这H100和H200之间的性能与经济差异,远远超过技术参数的数字那么简单。
首先,此前的推理模型时常因请求响应时间长而影响体验,而现在有了更快的推理速度后,用户的使用意愿和付费倾向都将显著提高。
其次,成本降低3倍的效益,可是极为可观的。仅通过中期显存升级,硬件就能实现3倍性能提升,这种突破性进展远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。
最后,性能最顶尖、具有显著差异化优势的模型,能因此获得更高溢价。
SOTA模型的毛利率已经超过70%,而面临开源竞争的次级模型利润率仅有20%以下。推理模型可突破单一思维链限制,通过扩展搜索功能提升性能(如o1 Pro和o3),从而使模型更智能地解决问题,提高GPU收益。
当然,英伟达并非唯一能提供大容量显存的厂商。
ASIC和AMD都具备这样的能力。而AMD更是凭借更大的显存容量(MI300X:192GB、MI325X:256GB、MI350X:288GB)占据了优势地位。
不过,老黄手里还有一张「绝对王牌」—— NVLink
NVL72在推理领域的核心优势在于,它能让72个GPU以超低延迟协同工作、共享显存。
而这也是全球唯一具备全连接交换(all-to-all switched connectivity)和全规约运算(all reduce)能力的加速器系统。
英伟达的GB200 NVL72和GB300 NVL72,对以下这些关键能力的实现极其重要——
  1. 更高交互性,实现更低思维链延迟
  2. 72个GPU分散KV Cache,支持更长思维链,提升智能水平
  3. 相比传统8 GPU服务器,具备更优批处理扩展性
  4. 支持更多样本并行搜索,提升准确性和模型性能

总体而言,NVL72可以 在经济效益上实现10倍以上提升,尤其是在长推理链场景中。
而且,NVL72还是 目前唯一能在高批处理下,将推理长度扩展至10万以上token的解决方案。

供应链重构

此前GB200时期,英伟达提供完整的Bianca主板(包含Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM),同时还提供交换机托盘和铜质背板。
但随着GB300的推出,供应链的结构和产品内容,将发生重大调整。






请到「今天看啥」查看全文