过去一周不得不说是NV躺赢的一周。我们之前就一直在路演强调,中长期我们看好ASIC,是看好自研大模型+自研ASIC的组合,类似Google Gemini+TPU。而第三方模型,毫无疑问NV是最合适的硬件平台。DeepSeek和幻方之前表示,自己比NV还懂NV GPU的优化,目前看起来是当之无愧的
。总结来说,DeepSeek R1,以及开源周的一系列工作(FlashMLA,DeepEP,DualPIPE,DeepGEMM,EPLB,Profile-data),短期毫无疑问的是让老黄和NV躺赢的:不光送一个全世界用量top的模型,然后全世界最能打的infra团队之一,还贴心的针对NV GPU和Hopper架构做了深度优化,把DeepSeek V3和R1在NV GPU的性能优化基本上做到了极致。
DeepSeek周三和周四开源的项目:
-
DeepGEMM: 白送NV一个全世界优化的最好的GEMM(General Matrix Multiplications)算子,GEMM可能又是使用量最大的深度学习算子之一,在模型训练和推理prefill阶段的用量巨大。
DeepSeek仅用300行代码就吊打了目前NV的官方算子实现,借鉴了 NVIDIA CUTLASS 等库的一些理念,但避免了后者复杂的模板,实现了类似教程般清晰易读的代码风格。借助 FP8 数据类型,DeepGEMM 显著降低了显存占用并加速运算,相比传统 FP16/FP32 具有数量级的效率提升。与 NVIDIA 官方库 cuBLAS 或 TensorRT 中的矩阵乘法实现相比,DeepGEMM 在 FP8 运算上展现了强劲的竞争力
-
DualPIPE:
是一种双向 Pipeline 并行训练算法,它能够在模型训练时同时执行正向和反向的计算-通信过程。传统的流水线并行训练,正向传播和反向传播在不同微批次之间串行交替,会出现管道“气泡”(空闲等待)现象。而DualPipe 的创新在于前向与后向完全重叠:一边执行后面的微批次前向计算,同时另一边执行前面微批次的反向计算,并将通信穿插其中,从而极大减少管道中的空闲时间,能够极大的提升Sparse MoE架构的大规模并行训练效率。与早期的 GPipe 模型并行或 Megatron-LM 的流水线调度相比,DualPipe 更进一步减少了等待开销。更有意思的是,社区已经开始讨论如何进一步优化DualPIPE算法了
-
EPLB:
专家并行负载均衡器。PLB(Expert-Parallel Load Balancer)是一种针对 Mixture-of-Experts (MoE) 架构的负载均衡算法。在 MoE 模型中,不同的“专家”子模型通常分散在不同 GPU 上,某些专家可能因被选择次数多而负载过重,导致整体效率下降。EPLB 提出的创新策略是:冗余专家复制+智能放置。具体而言,它会检测重载的专家,将其复制一个或多个副本到其他 GPU,以分摊工作负载。EPLB 尽量将同组的专家放在同一计算节点(比如8卡H800,彼此Nvlink互联),以减少跨节点通信开销,解决了 MoE 专家并行中 GPU 资源分配不均的问题,让多GPU协同训练/推理更高效。结合DeepEP,使得大规模 MoE 训练更加稳定、高效,避免了传统专家并行方法中的计算热点问题,并充分发挥 NVIDIA Hopper GPU 的 高速计算和 NVLink +IB在训练时的整体互联优势。
-
Profile-data:
Profile-Data 是一个用于分析 DeepSeek 框架中计算与通信重叠效果的数据集和工具项目,DeepSeek 将其训练和推理框架的性能剖析数据公开分享,开发者可以通过这些真实数据深入了解 DualPipe 等并行策略在底层的运行情况,让大家可以清楚看到,DeepSeek的优化到底是怎么吊打其他的优化方案的,550万usd的训练成本不是吹牛!
相信接下来的V4和R2,还会继续针对Hopper GPU做深度优化。老黄和NV要做的,可能就是做B卡(比如FP4)的优化,把B卡的TCO优势进一步发挥。本质上来时,B200相对H200,Memory带宽是8T v.s. 4.8T,然后FP4比FP8再有两倍的提升,直接就有3.3x的性能提升。目前我们初步了解下来,B200的租金大概是H200的1.3-1.5x。那么不考虑NVL72、1.8T Nvlink、更强的计算单元,rule of thumb的算一算
,假如FP4可以被充分验证,那么B200比H200就有2.2-2.5 x的TCO优势了。
而更重要的是,DeepSeek开源SOTA模型、NV官方下场优化,实际上是有可能加速NVidia FP4的adoption的。
一般来说,一个新的计算精度,从推出到大规模应用,大概需要2年的时间,因为需要下游模型厂商来适配。然而,如果最后NV官方可以把FP4在DeepSeek R1类似的模型大规模落地,那么实际上FP4是有可能更快的被广泛接受的。
今天OpenAI也即将发布GPT 4.5,也就是传说中的Orion模型。
据透露,Orion模型的激活参数达到了1T,在120T tokens上训练,同时也具有深度思考的功能,虽然并不像GPT5那样全面整合了O3。
多模态可能是GPT 4.5相对比较大的亮点,图片、视频、3D的功能都有集成,看一些demo的表现也都很亮眼。Orion最初研发的时候,是希望通过模型参数的提升+O系列产生的合成数据,打破数据的bottleneck,成为GPT5,但是看起来并没有达到最初的预期,于是作为GPT4.5发布了出来。我们之前也分析了,
目前GPT5,看起来更像是4.5 + O3 + agents的集成,而不是一个完全突破预训练数据bottleneck的下一代预训练模型。
那么下一步,就需要10万卡以上的GB200集群,来验证能否突破多模态,合成数据和self-play RL,彻底打破数据的bottleneck
如同我们之前分析的,北美头部公司投入天价的算力,本质上和研发创新药一样,需要海量的成本来试错,找出最好的recipe,找到具体的方向。而我们相信DeepSeek可以用全世界最强的研发效率,来跟上GPT 4.5和GPT5,甚至可以跟上下一代的预训练模型。假如在这个senario下,DeepSeek还会继续开源SOTA模型,那么开源模型相对于闭源模型的优势是会不断提升的,NV的地位反而会更加稳固。而更有意思的是,美国政府的禁运,反而会降低NV的领先地位。
这几天看到一个有趣的比喻,DeepSeek和NV就像罗密欧与朱丽叶,DeepSeek是全世界最懂NV的团队之一,老黄目前也把内部支持DeepSeek的优先级放到了最高之一,双方郎有情妾有意,耐不住美国爸爸强行要拆散这一对苦命鸳鸯。
更有意思的是,假如未来真的中国完全买不到NV卡了,那么DeepSeek这个全世界最强的infra团队,就必须去全面支持国产卡了,这对于国产算力,毫无疑问是巨大的利好!