英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

Dots机构投资者社区 · 公众号 · · 2024-12-28 08:15

正文

本文转自微信公众号“新智元”，作者：新智元。

编辑：编辑部 HYZ

【导读】英伟达的圣诞大礼包曝光，最强B300、GB300算力和显存直接提高50%，模型推理训练性能史诗级提升，同时还打破了利润率下降的魔咒。

多亏了老黄，圣诞节如期而至。

尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布，但这并不能阻挡他们前进的脚步。

距离GB200和B200的发布才刚刚过去几个月，英伟达便推出了全新一代的AI GPU——GB300和B300。

更为有趣的是，这次看似普通的更新背后，实则内含玄机。其中最为突出的，便是模型的推理和训练性能得到了大幅增强。

而随着B300的推出，整个供应链正在进行重组和转型，赢家将从中获益（获得礼物），而输家则处境不妙（收到煤炭）。

这正是英伟达送给所有超大规模云计算供应商、特定供应链合作伙伴、内存供应商以及投资者的特别「圣诞礼物」

不过就在上周，天风国际分析师郭明錤却在研报中曝出，B300/GB300的DrMOS存在严重的过热问题！

而这，很可能会影响B300/GB300的量产进度。

具体分析如下——

这已经不是Blackwell第一次被曝出存在设计问题了

B300和GB300：绝不仅是一次小升级

根据SemiAnalysis的最新爆料，B300 GPU对计算芯片的设计进行了优化，并采用了全新的TSMC 4NP工艺节点进行流片。

相比于B200，其性能的提升主要在以下两个方面：

1. 算力

FLOPS性能提升50%
功耗增加200W（GB300和B300 HGX的TDP分别达到1.4KW和1.2KW；前代则为1.2KW和1KW）
架构改进和系统级增强，例如CPU和GPU之间的动态功率分配（power sloshing）

2. 内存

HBM容量增加50%，从192GB提升至288GB
堆叠方案从8层HBM3E升级为12层
针脚速率保持不变，带宽仍为8TB/s

专为「推理模型」优化

序列长度的增加，导致KV Cache也随之扩大，从而限制了关键批处理大小和延迟。

因此，显存的改进对于OpenAI o3这类大模型的训练和推理至关重要。

下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效能提升，这与OpenAI的o1和o3模型中的思维链（CoT）模式相似。

H100和H200的Roofline模拟，通过FP8精度的Llama 405B模型完成

H100到H200的升级，主要在于更大、更快的显存：

更高的带宽使交互性能普遍提升了43%（H200为4.8TB/s，而H100为3.35TB/s）
更大的批处理规模，使每秒token生成量提升了3倍，进而使成本也降低了约3倍

而对运营商而言，这H100和H200之间的性能与经济差异，远远超过技术参数的数字那么简单。

首先，此前的推理模型时常因请求响应时间长而影响体验，而现在有了更快的推理速度后，用户的使用意愿和付费倾向都将显著提高。

其次，成本降低3倍的效益，可是极为可观的。仅通过中期显存升级，硬件就能实现3倍性能提升，这种突破性进展远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。

最后，性能最顶尖、具有显著差异化优势的模型，能因此获得更高溢价。

SOTA模型的毛利率已经超过70%，而面临开源竞争的次级模型利润率仅有20%以下。推理模型可突破单一思维链限制，通过扩展搜索功能提升性能（如o1 Pro和o3），从而使模型更智能地解决问题，提高GPU收益。

当然，英伟达并非唯一能提供大容量显存的厂商。

ASIC和AMD都具备这样的能力。而AMD更是凭借更大的显存容量（MI300X：192GB、MI325X：256GB、MI350X：288GB）占据了优势地位。

不过，老黄手里还有一张「绝对王牌」—— NVLink 。

NVL72在推理领域的核心优势在于，它能让72个GPU以超低延迟协同工作、共享显存。

而这也是全球唯一具备全连接交换（all-to-all switched connectivity）和全规约运算（all reduce）能力的加速器系统。

英伟达的GB200 NVL72和GB300 NVL72，对以下这些关键能力的实现极其重要——

更高交互性，实现更低思维链延迟
72个GPU分散KV Cache，支持更长思维链，提升智能水平
相比传统8 GPU服务器，具备更优批处理扩展性
支持更多样本并行搜索，提升准确性和模型性能

总体而言，NVL72可以 在经济效益上实现10倍以上提升，尤其是在长推理链场景中。

而且，NVL72还是 目前唯一能在高批处理下，将推理长度扩展至10万以上token的解决方案。

供应链重构

此前GB200时期，英伟达提供完整的Bianca主板（包含Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM），同时还提供交换机托盘和铜质背板。

但随着GB300的推出，供应链的结构和产品内容，将发生重大调整。

英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

正文

【导读】 英伟达的圣诞大礼包曝光，最强B300、GB300算力和显存直接提高50%，模型推理训练性能史诗级提升，同时还打破了利润率下降的魔咒。

请到「今天看啥」查看全文

【导读】英伟达的圣诞大礼包曝光，最强B300、GB300算力和显存直接提高50%，模型推理训练性能史诗级提升，同时还打破了利润率下降的魔咒。