专栏名称: 中金点睛
图文并茂讲解中金深度研究报告
目录
相关文章推荐
法询金融固收组  ·  纠结的债农:从期待调整到崩溃流泪 ·  23 小时前  
金融早实习  ·  工银安盛资管2025年度春季校园招聘 ·  昨天  
庆阳市场监管  ·  行动方案陆续出台 银行多举措助燃消费 ·  2 天前  
NEW财金  ·  3・15 ... ·  2 天前  
红古发布  ·  微信紧急提醒! ·  3 天前  
红古发布  ·  微信紧急提醒! ·  3 天前  
51好读  ›  专栏  ›  中金点睛

中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览

中金点睛  · 公众号  · 金融  · 2025-03-17 07:55

正文

点击小程序查看报告原文


Abstract

摘要


2025年2月24-28日,DeepSeek进行为期一周的Infra开源周,Infra工程优化能力国内领先。 我们就开源周内容进行梳理,并对推理算力及毛利率水平进行测算。


DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型-算力全栈协同体系,FP8精度与通信优化为核心。 计算层,FlashMLA实现可变长序列解码加速,配合DeepGEMM的FP8动态精度矩阵运算突破算力瓶颈。通信层,DeepEP通过FP8压缩与RDMA(Remote Direct Memory Access)技术打通MoE模型跨节点传输,DualPipe/EPLB则以计算-通信流水线重叠消除分布式训练间隙并实现负载均衡;存储层通过3FS文件系统以SSD(Solid State Drive)+RDMA架构保障数据高效存取。DeepSeek以“单卡算力提升-核心计算加速-通信延迟降低-多卡协作优化-数据流高速供给”为技术脉络,形成软硬协同的优化闭环,最终将千亿参数模型的训练、推理效率推向硬件极限,实现大模型开发成本的大幅压缩。


DeepSeek成本及算力测算:毛利率水平国内领先 DeepSeek在3月1日公开了模型推理效率和成本,我们以模型API定价测算收入、GPU     hours租赁成本作为考虑的核心成本项,来测算综合毛利率:倘若这些输入/输出Token全按照R1的定价,收费是56万美元;而按照V3的定价,收费是30万美元左右,则对应毛利率分别为84.5%/71%,因此综合毛利率应在71-84.5%,这一毛利率在行业中处于领先的水平。


Infra优化能力进一步推动大模型平权,Agent等应用有望带来AI应用百花齐放、推理算力需求乐 观。1)推理算力侧, 我们认为AI     infra的进步将会提升算力利用效率,推动整个行业的繁荣,这对于未来的推理算力需求影响为正面;此外,我们认为多模态、Manus等Agent应用有望驱动更大规模的推理算力需求。 2)应用侧, 我们认为随着模型推理成本的持续降低,推理成本已进入“不敏感”区间,更多AI应用的规模商业化取决于模型能力、工程优化。其中2C应用,我们更看好互联网公司在产品化的沉淀;2B应用,我们则更为关注垂类卡位的企业服务厂商的客户、场景沉淀。


风险

技术进展不及预期,商业化落地不及预期。


DeepSeek开源周:Infra层优化能力行业领先



DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型-算力全栈协同体系。 计算层,FlashMLA实现可变长序列解码加速,配合DeepGEMM的FP8动态精度矩阵运算突破算力瓶颈。通信层,DeepEP通过FP8压缩与RDMA(Remote Direct Memory Access)技术打通MoE模型跨节点传输,DualPipe/EPLB则以计算-通信流水线重叠消除分布式训练间隙并实现负载均衡;存储层通过3FS文件系统以SSD(Solid State Drive)+RDMA架构保障数据高效存取。DeepSeek以“单卡算力提升-核心计算加速-通信延迟降低-多卡协作优化-数据流高速供给”为技术脉络,形成软硬协同的优化闭环,最终将千亿参数模型的训练、推理效率推向硬件极限,实现大模型开发成本的大幅压缩。


图表1:DeepSeek开源周成果汇总

注:开源周为2025年2月24-28日,3月1日发布收入成本估算,技术侧不单独列示,测算详见正文
资料来源:deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation,中金公司研究部


Day1:DeepSeek发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,旨在实现MoE模型推理加速。 FlashMLA针对变长序列处理、对话系统等场景深度优化并已投入实际应用。其核心创新包括三大模块:1)分页KV缓存(Paged KV Cache),采用分块管理(块大小64)分配显存,减少每次查询的KV缓存量(约93.3%);2)分块调度与内存优化,融合FlashAttention 2&3和Cutlass设计理念,优化内存访问模式,减少数据搬运开销,使BF16精度下计算峰值达580 TFLOPS;3)原生稀疏注意力(Native Sparse Attention),通过算法裁剪冗余计算,在降低显存占用的同时增强长上下文处理能力。此外,系统支持动态调度与并行计算和BF16精度计算,兼顾硬件资源利用效率与高吞吐需求。实测显示,在H800 SXM5平台(CUDA 12.6)中,FlashMLA可实现内存受限配置下3000GB/s带宽、计算受限配置下580 TFLOPS的顶尖性能表现(较传统方法提升30%以上)。


Day2:发布DeepEP,为MoE模型和专家并行(EP)设计的专用通信库,支持FP8的低精度通信,实现训练和推理环节的高吞吐、低延迟性能。 主要特点包括:1)高效优化的all-to-all通信,提供高吞吐量和低延迟的GPU全互联内核,用于MoE的调度和组合操作,且内核吞吐量高,适用于模型训练和推理预填充任务;2)内部节点和节点间均支持NVLink和RDMA(Remote Direct Memory Access)技术,借助NVLink的高速带宽和RDMA的远程直接内存访问能力,加速数据传输;3)为推理解码提供低延迟内核,针对对延迟敏感的推理解码任务,包含一组纯RDMA实现的低延迟内核,可最小化延迟;4)原生支持FP8低精度运算,配合BF16格式进行组合运算,在保证模型精度的同时,减少计算量;5)灵活的GPU资源控制,实现计算与通信的并行处理。


Day3:发布了DeepGEMM,是专门针对FP8通用矩阵乘法打造的库,支持密集GEMM和MoE GEMM。 DeepGEMM采用CUDA 核心的两级累加(提升)机制,解决FP8张量核心累加不精确的问题,为V3/R1训练和推理提供支持,在H800上最高可以实现2.7倍加速。核心优化包括:1)线程束优化,通过操作重叠优化、寄存器计数控制和持久线程专用化,减少计算时间、提高寄存器利用率并解决FP8张量核心累加不精确问题;2)利用Hopper TMA 具有快速异步数据移动等特点,在数据加载存储、多播和描述符预取等方面更加充分运用,提升计算连贯性和效率;3)特殊优化上,包括GPU计算时支持非对齐块大小,让更多的流式多处理器(SM)参与工作以提升硬件资源利用率,采用FFMA(Fused Multiply-Add)和SASS(Shader Assembly)交错提升性能,以及使用栅格化提高L2缓存重用。


图表2:普通GEMM(非分组)在H800上性能最高可以实现2.7倍加速

资料来源:deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling,AGI Hunt,中金公司研究部


Day4: DeepSeek 开源三个代码库,分别是DualPipe,一种双向流水线并行算法,用于V3/R1训练中的计算-通信重叠;EPLB,专家并行负载均衡器;Profile-data,公开分享来自训练和推理框架的分析数据。


DualPipe算法:旨在通过重叠计算与通信阶段、减少流水线气泡来提升整体训练性能。 DeepSeek-V3训练里,跨节点专家并行引发较高通信开销,使计算与通信比例约为1:1,严重影响训练效率。为解决该问题,DualPipe重叠计算与通信阶段,提升整体训练性能。具体而言,将每个计算块细分为四个组件,即注意力、全对全分发、MLP、全对全组合,其中对于反向计算块中的注意力和MLP进一步拆分为用于输入和用于权重的反向计算。通过精心重新排列这些组件,并手动调整GPU的流式多处理器(SMs)分配给通信和计算的比例,实现计算与通信在前后向块中的重叠执行。DualPipe采用双向流水线调度策略,让微批次从流水线的两端同时输入,使得大部分通信操作能在计算过程中完成,从而减少通信开销和流水线气泡。


图表3:DualPipe采用双向流水线调度,使得大部分通信操作都能被完全重叠

资料来源:deepseek-ai/DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.,中金公司研究部


专家并行负载均衡器(EPLB):解决不同专家负载不均衡的问题。 在使用专家并行(EP)技术时,不同专家被分配到不同GPU,由于各专家的负载会因当前工作量不同而产生差异,容易造成GPU负载不均衡,影响计算资源的有效利用和整体计算效率,因此需要EPLB来进行负载均衡。冗余专家策略和组限制专家路由是EPLB解决负载不均衡问题的基本思路。冗余专家策略通过复制高负载专家,为平衡GPU负载提供了更多可调配的资源;组限制专家路由则从数据传输优化的角度,减少节点间通信开销,提升整体性能。层负载均衡和全局负载均衡这两种算法策略,是基于核心策略在不同条件下的具体实现方式。在分层负载均衡策略中,当服务器节点数能被专家组数整除时,先依据组限制专家路由,将专家组均匀分配到节点,确保节点间负载平衡,接着在节点内复制专家,并将复制后的专家分配到GPU,通过专家复制和重新分配来平衡GPU负载;全局负载均衡策略在其他情况下使用,不考虑专家分组,直接在全局复制专家并分配到GPU,同样是利用冗余专家策略,通过大规模的专家复制和分配来应对较大规模的专家并行场景,以实现负载均衡。


图表4:大规模跨节点专家并行(EP)并实现最佳负载平衡







请到「今天看啥」查看全文