专栏名称: 中金点睛
图文并茂讲解中金深度研究报告
目录
相关文章推荐
法询金融固收组  ·  债券基金净值大跌背后:债牛退潮,何去何从? ·  17 小时前  
大道无形我有型  ·  TSMC的商业模式和企业文化都很强。it’s ... ·  2 天前  
金融早实习  ·  微观博易2025春季校园招聘 ·  3 天前  
金融早实习  ·  市政集团2025届审计/财务岗招聘! ·  3 天前  
51好读  ›  专栏  ›  中金点睛

中金 | AI进化论(1):DeepSeek推动“大模型平权”,是训练算力的拐点还是黑洞?

中金点睛  · 公众号  · 金融  · 2025-02-25 07:51

正文

中金研究

近期,中国企业DeepSeek(以下简称DS)全面开源的创新成果引发了市场对生成式AI技术发展与算力硬件需求的热烈讨论,其V3版本模型以仅1/10训练成本消耗便获得了与海外领先模型GPT-4o/Llama3.3对标的能力,并通过对V3同一基础模型的后训练,获得了能力对齐GPT-o1的R1模型。我们认为,DS的创新是在命题作文下(中美贸易摩擦背景下AI硬件采购受限)的较优解,并未提出任何反“Scaling Law”的趋势,杰文斯悖论(Jevons Paradox)为DS带来的“大模型平权”创新行为影响指明了方向——全行业算力资源使用效率的提升,可能会创造更大的需求。

点击小程序查看报告原文


Abstract

摘要


模型层四大创新优化训练过程,减少算力开销。 我们看到,DSV3通过以下多种方式来优化算力使用 :1)坚持在MLP层引入稀疏化的MoE架构, 只需根据输入数据特点调动部分专家模型进行处理,无需复用所有参数,优化算力使用,V3模型相较V2进一步增加专家数至256个; 2)引入FP8精度训练: 对计算密集型任务采用FP8计算,相较过往FP16计算方法直接带来算力节省,并辅以算法优化保证模型训练结果; 3)采用MTP(多token生成)优化训练效率;4) 在后训练阶段简化模型数量,优化奖励机制, 独创GRPO算法 为强化学习(Reinforced Learning)发展提供方向。


PTX代码加持释放硬件使用效率,AI infra(基础设施部署)的重要性日益显著。 我们认为,在确定了一个创新的模型网络结构后,再有针对性的设计、优化AI infra是当前又一迫切的需求。DS团队具有软硬件一体化系统性的思考能力更是其取得成功的重要因素之一,使用相较CUDA更深层级的PTX代码的加持带来更优硬件使用效率。随着“大模型平权”带来的进一步硬件需求释放,我们认为未来AI infra的重要性有望日益凸显。


MoE结构对算力硬件需求变化: 1)可能带来对处理器架构进一步的定制化需求,如更大的计算单元、和更高效的通信kernel相匹配的设计单元、近存计算单元等,利好DSA架构发展;2)通信方面大量使用专家并行而减少张量并行并不能证明高速互联需求在更强基础模型训练中呈下降趋势;3)国产算力若要运行训练场景,需对FP8数据类型及高算力做好进一步支持。


风险


生成式AI模型创新、AI算力硬件技术迭代、AI应用落地进展不及预期。


Text

正文


分析:DeepSeek在模型训练过程中引入了哪些创新?




模型创新


坚定不移延续MoE(Mix of Expert)路径,稀疏化架构减少算力消耗


MoE最早在1991年的《Adaptive Mixtures of Local Experts》 被提出,是一种网络层结构,主要由三部分组成:专家网络、门控网络与选择器。专家网络(Expert Network)是一个前馈网络,每个专家专注于处理特定子任务。门控网络(Gating Network)负责产出专家偏好的权重,用于指示后续如何根据每个token路由不同设备的不同专家。选择器(selector)根据专家权重激活专家,可以选择Top1专家或TopK专家来融合得到最终的结果。


在Transformer架构中,MoE层替换Transformer的FFN层,核心思想是将FFN密集模型切割成多个部分,重新训练它,并且在给定时间内只激活一组专家。DeepSeek在训练上采用稀疏MoE架构,其门控机制仅激活少数设备上的少量专家,在扩大模型容量同时控制训练资源消耗。


根据DeepSeek的MoE技术论文 ,其在MoE架构上的技术创新包括:1)精细化专家分割:将专家细分m*N个单元,并从中根据权重激活m*K个专家,实现知识的细粒度分解。在保持计算成本不变的约束下,增加专家数量并灵活激活响应单元,使得不同专家能更精准地学习多样化知识,同时维持高水平的专业化能力。2)共享专家隔离:保留 K个专家作为共享专家,专注于捕获通用知识,给予其他路由专家更多的自由来摆脱这些共同知识,从而减少非共享专家之间的冗余。


图表1:DeepSeek MoE架构示意图

资料来源:DeepSeek《Deepseekmoe: Towards ultimate expert specialization in mixture-of-experts language models》(2024年),中金公司研究部


在实证结果上,DeepSeek 团队从2B参数规模的轻量级模型出发,展示了以下结果:


DeepSeekMoE 2B的性能与 GShard 2.9B相当,而后者专家参数量和计算量均为前者的1.5倍;DeepSeekMoE 2B几乎达到同等总参数量密集模型(即MoE模型的理论性能上限)的水平。进一步将DeepSeekMoE扩展至16B参数规模时:其性能与LLaMA2 7B相当,而计算量仅需后者的约40%。在145B参数规模的初步实验中:DeepSeekMoE较GShard展现出显著优势,性能媲美DeepSeek 67B,而计算量仅需后者的28.5%。


图表2:DeepSeek 16B 参数 MoE模型与其他大语言模型对比

资料来源:DeepSeek《Deepseekmoe: Towards ultimate expert specialization in mixture-of-experts language models》(2024年),中金公司研究部


DeepSeek-V3总体而言延续了DeepSeek-V2的MoE架构,根据DeepSeek-V3的技术报告,DeepSeek-V3共有671B参数,每个token只激活37B个参数,而DeepSeek-V2共有236B参数,每个token只激活21B个参数。V3在V2版本上做出的重要升级创新在于首创了无需辅助损失的负载均衡策略。


采用FP8精度训练,节省计算单元占用,进而节省算力资源


低数据精度训练是降低训练成本的较有前景的方向之一,因为它可以提供高速度、小内存占用和低通信开销。


通常的大模型训练会采用BF16或FP32/TF32精度作为数据计算和存储的格式,来确保较高的训练精度。相比之下,FP8占用的数据位宽仅为FP32的1/4,FP16的1/2,可以有力地提升计算速度,降低对存储的消耗。微软2023年的论文《FP8-LM: Training FP8 Large Language Models》就提出了一种用于LLM训练的极度优化的FP8混合精度框架。其核心思想是计算、储存和通信(包括正向和反向传播)全部使用低精度FP8,从而大大降低系统工作负载。然而,使用FP8格式训练LLM存在数据下溢出或上溢出等挑战以及FP8数据格式较低精度所导致训练失败等问题。


DeepSeek团队在训练DeepSeek-V3时,采用的是混合精度框架,大部分密集计算操作都以FP8格式进行,而少数关键操作则策略性地保留其原始数据格式,以平衡训练效率和数值稳定性。


图表3:DeepSeek-V3 混合精度框架示意图

资料来源:DeepSeek《DeepSeek-V3 Technical Report》(2024年),中金公司研究部


DeepSeek在FP8训练框架上所作的创新包括:1)细粒度量化:细粒度量化将数据分解成更小的组,每个组都使用特定乘数进行调整以保持高精度,即在不同组别中根据需要,更为精细地平衡准确度与效率。2)混合精度:DeepSeek对以下模块维持原有精度(如BF16或FP32):嵌入模块、输出头、混合专家门控模块、标准化算子以及注意力算子,在保持计算效率优势的同时保持数据稳定性。相应来看,截至目前,微软已经跑通了FP4(4位浮点数)的完整模型训练,Nvidia已经宣布将在Blackwell一代GPU中以硬件级别支持FP4,未来低精度训练有望进一步提高训练效率 。


图表4:DeepSeek-V2 FP8 与 BF16 的相对损失误差比较

资料来源:DeepSeek《DeepSeek-V3 Technical Report》(2024年),中金公司研究部


采用MTP方法,多token预测提高模型训练效率


最早发布的把MTP应用于模型训练阶段的学术研究,要数2024年4月由Meta发布的论文《Better & Faster Large Language Models via Multi-token Prediction》 。该篇论文提出在训练时,让大模型一次性预测多个token,并依据多个token计算loss


图表5:DeepSeek-V3应用MTP示意图

资料来源:DeepSeek《DeepSeek-V3 Technical Report》(2024年),中金公司研究部


在训练中使用MTP技术主要会以下述两大路径降低模型的训练成本。1)首先是针对每个输入token会进行多次预测、计算多个交叉熵损失,进而增加了给定数据量下获得的训练信号的密度,提高数据利用效率、减少训练所需数据总量。2)另一个路径是MTP的并行预测机制改变了传统模型的计算模式,从而显著提升了硬件资源的利用率。


后训练阶段引入GRPO算法,抛弃MCTS等传统方法,优化算力开销


DeepSeek团队于2024年4月发表的的论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》 (下文简称《DS-Math》论文)中,首次提出了GRPO的概念并将其应用于强化学习过程中,并指出应用了GRPO技术的强化学习对于强化LLMs的数学推理能力非常有效。在训练R1-Zero的过程中,DeepSeek团队直接抛弃了此前训练LLMs时常用的RLHF,而是完全依赖于应用了GRPO技术的强化学习。


强化学习中最重要的两个部分明显是如何对智能体的决策给予反馈,以及智能体将如何依据反馈进行优化。实现上述两个关键步骤的方式,经历了策略梯度方法-TRPO-PPO-GRPO几个关键的技术发展节点。 前三者均在不同程度上对于一个单独训练的价值模型(Value Model)存在需求,而训练出一个合格的价值模型需要占用大量的显存与算力资源,并且过程中不可避免地存在一定的误差。


图表6:GRPO算法示意图

资料来源:DeepSeek《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》(2024年),中金公司研究部


与上述三种技术路线相比,GRPO技术最大的特点即是在为智能体的决策提供反馈时不需要借助价值模型。其核心思想是用组内候选输出平均水平替代此前由价值模型计算出的状态值作为比较基准,并据此计算当前模型的优势值。


图表7:DeepSeekMath-Instruct 1.3B模型在分别使用RFT、Online RFT、GRPO+OS、GRPO+PS方法进行强化学习后的benchmark表现

资料来源:DeepSeek《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》(2024年),中金公司研究部


上图在GSM8K与MATH两大benchmark下比较了使用RFT与GRPO两大技术路线进行强化学习的DeepSeekMath-Instruct 1.3B模型的表现。RFT代表RLHF(基于人类反馈的强化学习)技术路线;OS与PS分别代表outcome supervision与process supervision。可以看出,使用GRPO进行强化学习后的模型明显比使用RFT(代表RLHF)的模型表现更好。



硬件工程化创新


随着大模型沿着Scaling Law路径不断发展,全球各团队正在面临模型参数越来越大、数据量越来越多的问题,这对训练、运行模型所使用的硬件提出了较高的要求——此时单台计算设备难以独自满足大模型的要求,使用多台设备同时运算的“分布式并行”策略成为了未来发展的主流选择。 随之而来的挑战是如何部署、连接和调用这些分布式的计算设备,以实现给定硬件条件下的最高运算效率,我们认为这就是硬件工程化研究要解决的核心问题。目前,大模型训练和运行的大量需求已然倒逼硬件工程化领域出现了大量技术创新,我们看到在DeepSeek的模型训练中,也充分运用了相应的创新手段。


专家并行(EP,Expert Parallel)策略


EP策略本质上即是把MoE架构下的各个“专家”子模型部署到不同的GPU或计算节点上,让它们可以独立地运算、进行前向和反向传播。最早将其与Transformer结合应用的要数2020年由Google团队发布的论文《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》 。由于MoE架构下,同一个专家子模型拆分开的张量并行(Tensor Parallel,TP)会带来大量的跨设备通信开销,而EP就不存在这一问题,所以在MoE架构中传统TP策略应用较少。但这并不能证明未来EP策略对高速通信需求降低。


与《GShard》等论文中设计的传统EP策略不同的是,DeepSeek团队在训练中所使用的EP策略中引入了无辅助损耗的负载平衡。DeepSeek的改进方案直接对专家的亲和力得分施加动态偏置项,在计算负载过高的专家的亲和力得分时为负,反之为正,偏置项的大小则由开发者通过超参数手动控制,从而在不损耗模型性能的同时实现对每个专家的训练程度的平衡。


在EP策略实践部署中,DeepSeek采用分布式训练架构,通过以下策略优化通信开销:1)在连接方式方面,节点内的GPUs通过高带宽(160GB/s)的NVLink方式连接,不同节点之间通过带宽相对较低(50GB/s)的IB(InfiniBand)方式连接;输入Token的路由传输采用IB与NVLink的重叠传输模式,节约一定的通信开销;2)在限制传输范围上限方面,设定token传输至的节点数量上限为4个,路由专家子模型上限为8个,最大可扩展至13个专家子模型。


图表8:EP策略示意图

资料来源:FasterMoE论文 ,中金公司研究部


双重流水线(DualPipe)策略


在应用分布式并行策略时,无论是数据并行策略下的梯度聚合步骤,还是模型并行下各模型组件之间的通信,都会带来大量的跨设备数据传输需求。若不同阶段的计算耗时差别较大,则会出现计算设备的空闲,即为“气泡(bubble)”。为解决这一问题,流水线并行(pipeline parallel,PP)策略应运而生。其通过将一个较大数据批次分解为多个微批次(micro batch),使得每次计算的总耗时减少,从而减少了计算设备所处于的计算和等待两种状态在时间轴上的颗粒度,进而使得每个bubble被缩小。


在这一背景下,DeepSeek团队在传统PP策略的基础上创新性地提出并应用了Dual Pipe技术。与传统PP策略相比,Dual Pipe技术最明显的革新在于其有效地融合了前向和后向计算加速通信。此外,DS团队还通过调节GPU中流式多处理器(SM)的调度来实现对其在计算和通信之间进行精细化分配,进而进一步加速了通信过程。


图表9:DualPipe策略及实际运行效果示意

资料来源:DeepSeek《DeepSeek-V3 Technical Report》(2024年),中金公司研究部


PTX代码加持为硬件工程化创新带来进一步可能


我们看到,DS团队在实施硬件工程优化的过程中使用了PTX代码,PTX是英伟达专门为CUDA编程环境所设计的底层并行计算指令集架构,在主机端的高级语言代码和GPU硬件机器码之间作为中间表示层。这样的分层编译机制设计显著提升了CUDA程序的可移植性,便于优化和精确控制硬件调度。 通过由熟悉被训练LLM架构的开发者运用PTX技术对硬件进行针对性的微调,能够在给定的硬件条件下使其运行某些特定模型的效率提升至最大化,我们认为这对于算力提升成本较高的开发团队来说是提升算力性价比的重要手段。


图表10:PTX的地位、作用,以及同时带来的迁移难题

资料来源:中国科学院计算技术研究所,智东西,中金公司研究部


PTX指令集可以实现矩阵乘法加速、数据精度转化、精细Cache行为控制等多项硬件调度优化方向,广泛应用于CUTLASS、FlashAttention和FlashInferLLMs等训练与推理领域的开源技术或计算库;这些技术和库将PTX指令集以高层API的形式提供给开发者以供调度,便利了想要通过PTX指令集实现硬件调度优化的开发者们,同时也侧面印证了PTX技术在全面发挥硬件能力过程中所起的重要作用。


启示:训练硬件技术发展趋势和市场需求的变化方向?




计算架构设计:稀疏化的MLP层可能带来芯片架构设计带来哪些影响?


未来,随着MoE架构的进一步成为大模型的主流选择,我们认为芯片架构也有望发生变化,比如设计针对不同MLP层的定制化架构加速专家运算。同时,在数据精度方面,由于FP8混合精度计算模式涉及多次数据精度转化,若采用近内计算设计,将计算逻辑放置在靠近HBM的位置以便于BF16精度数据在从HBM读入GPU时直接转换为FP8,可减少片外内存访问。另外,我们看到在DS团队的工程方案中,占用了NVIDIA H800 GPU的SM核来实现通信,影响了计算效率,我们认为未来也可能会出现将通信代码固化到处理器设计中的可能性。



通信设计:MoE架构下的专家并行对高速通信的需求就一定少吗?


按照过去市场固有认知,在并行计算实施模型层面中的张量并行(Tensor Parallel,TP)所产生的通信开销较大(由于要每一次张量计算完后均需要与其他张量频繁的交换中间结果),且与张量大小和并行度成正比,通常放在计算节点内进行,并依赖高速域通信(如NVLink)。而在DSV3论文中,专家并行(Expert Parallel,EP)受到更多关注。鉴于DS团队在硬件工程化上的强劲能力,以较低的通信成本完成模型训练,市场开始对高速域通信需求(或者称之为节点内扩容,scale-up)呈现一定顾虑。


相比过去Dense MLP层的情况,我们认为MoE架构引出了两个问题:All2All通信成本及Expert的均衡。在数据并行(Data Parallel,DP)及模型并行(包含张量并行,Tensor Parallel/流水线并行,Pipeline Parallel)中,一般常见AllReduce/AllGather的通信操作,操作结果会广播到所有设备,或将所有设备的结果汇聚到一个设备。而All2All则是一种双向通信操作,用于专家并行策略中,每个设备既接收也发送数据,适用于需要设备间双向信息交换的场景(具体详见图表13),本身从通信方式来看并没有呈现复杂度降低的趋势,反而All2All通信的情况更为复杂。


我们认为,不可以简单地去比较EP与TP的通信开销,因为在1)TP/EP并行度、2)专家激活数、3)是否已经考虑到EP并行时token数和TP已经不是可比口径等因素(因为本身EP是数据并行的一种形式)等多种原因作用下,所面临的通信开销计算结果是不同的,需要具体问题具体分析。且由于节点内的EP容易出现负载不均衡时内存溢出,影响计算效率,因此跨节点间的EP在实际情况中会频繁出现,我们认为这对高速通信的需求也是偏正面的。


图表11:专家并行通信情况示意

资料来源:Github,中金公司研究部


图表12:张量并行通信情况示意

资料来源:Mohammad Shoeybi et.al., Megatron-LM:Training Multi-Billion Parameter Language Models Using Model Parallelism (2020), 中金公司研究部


如上文所述,由于张量并行和专家并行的通信开销比较没有绝对的多少之分,受制于多种因素限制, 因此对于张量/专家并行的选择上,我们认为需要具体问题具体分析,本质上都是现有硬件条件下的平衡。 从下图来看,张量并行在计算方向上更友好,执行的是大矩阵乘法,计算使用率会更高。举例来看,在显存足够、多专家的场景中,不会优先切分张量,其核心原因是张量的切分会导致矩阵乘的形状更小,计算单元利用率过低。


图表13:专家并行和张量并行的计算量对比(左vs.右)

资料来源:Github,中金公司研究部








请到「今天看啥」查看全文