中金 | AI智道（7）：DeepSeek Infra开源周总结，及算力测算一览

中金点睛 · 公众号 · 金融 · 2025-03-17 07:55

正文

点击小程序查看报告原文

Abstract

摘要

2025年2月24-28日，DeepSeek进行为期一周的Infra开源周，Infra工程优化能力国内领先。 我们就开源周内容进行梳理，并对推理算力及毛利率水平进行测算。

DeepSeek开源周深度适配GPU特性，通过五大Infra核心技术构建大模型-算力全栈协同体系，FP8精度与通信优化为核心。 计算层，FlashMLA实现可变长序列解码加速，配合DeepGEMM的FP8动态精度矩阵运算突破算力瓶颈。通信层，DeepEP通过FP8压缩与RDMA（Remote Direct Memory Access）技术打通MoE模型跨节点传输，DualPipe/EPLB则以计算-通信流水线重叠消除分布式训练间隙并实现负载均衡；存储层通过3FS文件系统以SSD（Solid State Drive）+RDMA架构保障数据高效存取。DeepSeek以“单卡算力提升-核心计算加速-通信延迟降低-多卡协作优化-数据流高速供给”为技术脉络，形成软硬协同的优化闭环，最终将千亿参数模型的训练、推理效率推向硬件极限，实现大模型开发成本的大幅压缩。

DeepSeek成本及算力测算：毛利率水平国内领先 。 DeepSeek在3月1日公开了模型推理效率和成本，我们以模型API定价测算收入、GPU hours租赁成本作为考虑的核心成本项，来测算综合毛利率：倘若这些输入/输出Token全按照R1的定价，收费是56万美元；而按照V3的定价，收费是30万美元左右，则对应毛利率分别为84.5%/71%，因此综合毛利率应在71-84.5%，这一毛利率在行业中处于领先的水平。

Infra优化能力进一步推动大模型平权，Agent等应用有望带来AI应用百花齐放、推理算力需求乐 观。1）推理算力侧， 我们认为AI infra的进步将会提升算力利用效率，推动整个行业的繁荣，这对于未来的推理算力需求影响为正面；此外，我们认为多模态、Manus等Agent应用有望驱动更大规模的推理算力需求。 2）应用侧， 我们认为随着模型推理成本的持续降低，推理成本已进入“不敏感”区间，更多AI应用的规模商业化取决于模型能力、工程优化。其中2C应用，我们更看好互联网公司在产品化的沉淀；2B应用，我们则更为关注垂类卡位的企业服务厂商的客户、场景沉淀。

风险

技术进展不及预期，商业化落地不及预期。

DeepSeek开源周：Infra层优化能力行业领先

DeepSeek开源周深度适配GPU特性，通过五大Infra核心技术构建大模型-算力全栈协同体系。 计算层，FlashMLA实现可变长序列解码加速，配合DeepGEMM的FP8动态精度矩阵运算突破算力瓶颈。通信层，DeepEP通过FP8压缩与RDMA（Remote Direct Memory Access）技术打通MoE模型跨节点传输，DualPipe/EPLB则以计算-通信流水线重叠消除分布式训练间隙并实现负载均衡；存储层通过3FS文件系统以SSD（Solid State Drive）+RDMA架构保障数据高效存取。DeepSeek以“单卡算力提升-核心计算加速-通信延迟降低-多卡协作优化-数据流高速供给”为技术脉络，形成软硬协同的优化闭环，最终将千亿参数模型的训练、推理效率推向硬件极限，实现大模型开发成本的大幅压缩。

图表1：DeepSeek开源周成果汇总

注：开源周为2025年2月24-28日，3月1日发布收入成本估算，技术侧不单独列示，测算详见正文
资料来源：deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation，中金公司研究部

Day1：DeepSeek发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA，旨在实现MoE模型推理加速。 FlashMLA针对变长序列处理、对话系统等场景深度优化并已投入实际应用。其核心创新包括三大模块：1）分页KV缓存（Paged KV Cache），采用分块管理（块大小64）分配显存，减少每次查询的KV缓存量（约93.3%）；2）分块调度与内存优化，融合FlashAttention 2&3和Cutlass设计理念，优化内存访问模式，减少数据搬运开销，使BF16精度下计算峰值达580 TFLOPS；3）原生稀疏注意力（Native Sparse Attention），通过算法裁剪冗余计算，在降低显存占用的同时增强长上下文处理能力。此外，系统支持动态调度与并行计算和BF16精度计算，兼顾硬件资源利用效率与高吞吐需求。实测显示，在H800 SXM5平台（CUDA 12.6）中，FlashMLA可实现内存受限配置下3000GB/s带宽、计算受限配置下580 TFLOPS的顶尖性能表现（较传统方法提升30%以上）。

Day2：发布DeepEP，为MoE模型和专家并行（EP）设计的专用通信库，支持FP8的低精度通信，实现训练和推理环节的高吞吐、低延迟性能。 主要特点包括：1）高效优化的all-to-all通信，提供高吞吐量和低延迟的GPU全互联内核，用于MoE的调度和组合操作，且内核吞吐量高，适用于模型训练和推理预填充任务；2）内部节点和节点间均支持NVLink和RDMA（Remote Direct Memory Access）技术，借助NVLink的高速带宽和RDMA的远程直接内存访问能力，加速数据传输；3）为推理解码提供低延迟内核，针对对延迟敏感的推理解码任务，包含一组纯RDMA实现的低延迟内核，可最小化延迟；4）原生支持FP8低精度运算，配合BF16格式进行组合运算，在保证模型精度的同时，减少计算量；5）灵活的GPU资源控制，实现计算与通信的并行处理。

Day3：发布了DeepGEMM，是专门针对FP8通用矩阵乘法打造的库，支持密集GEMM和MoE GEMM。 DeepGEMM采用CUDA 核心的两级累加（提升）机制，解决FP8张量核心累加不精确的问题，为V3/R1训练和推理提供支持，在H800上最高可以实现2.7倍加速。核心优化包括：1）线程束优化，通过操作重叠优化、寄存器计数控制和持久线程专用化，减少计算时间、提高寄存器利用率并解决FP8张量核心累加不精确问题；2）利用Hopper TMA 具有快速异步数据移动等特点，在数据加载存储、多播和描述符预取等方面更加充分运用，提升计算连贯性和效率；3）特殊优化上，包括GPU计算时支持非对齐块大小，让更多的流式多处理器（SM）参与工作以提升硬件资源利用率，采用FFMA（Fused Multiply-Add）和SASS（Shader Assembly）交错提升性能，以及使用栅格化提高L2缓存重用。

图表2：普通GEMM（非分组）在H800上性能最高可以实现2.7倍加速

资料来源：deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling，AGI Hunt，中金公司研究部

Day4： DeepSeek 开源三个代码库，分别是DualPipe，一种双向流水线并行算法，用于V3/R1训练中的计算-通信重叠；EPLB，专家并行负载均衡器；Profile-data，公开分享来自训练和推理框架的分析数据。

DualPipe算法：旨在通过重叠计算与通信阶段、减少流水线气泡来提升整体训练性能。 DeepSeek-V3训练里，跨节点专家并行引发较高通信开销，使计算与通信比例约为1:1，严重影响训练效率。为解决该问题，DualPipe重叠计算与通信阶段，提升整体训练性能。具体而言，将每个计算块细分为四个组件，即注意力、全对全分发、MLP、全对全组合，其中对于反向计算块中的注意力和MLP进一步拆分为用于输入和用于权重的反向计算。通过精心重新排列这些组件，并手动调整GPU的流式多处理器（SMs）分配给通信和计算的比例，实现计算与通信在前后向块中的重叠执行。DualPipe采用双向流水线调度策略，让微批次从流水线的两端同时输入，使得大部分通信操作能在计算过程中完成，从而减少通信开销和流水线气泡。

图表3：DualPipe采用双向流水线调度，使得大部分通信操作都能被完全重叠

资料来源：deepseek-ai/DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.，中金公司研究部

专家并行负载均衡器（EPLB）：解决不同专家负载不均衡的问题。 在使用专家并行（EP）技术时，不同专家被分配到不同GPU，由于各专家的负载会因当前工作量不同而产生差异，容易造成GPU负载不均衡，影响计算资源的有效利用和整体计算效率，因此需要EPLB来进行负载均衡。冗余专家策略和组限制专家路由是EPLB解决负载不均衡问题的基本思路。冗余专家策略通过复制高负载专家，为平衡GPU负载提供了更多可调配的资源；组限制专家路由则从数据传输优化的角度，减少节点间通信开销，提升整体性能。层负载均衡和全局负载均衡这两种算法策略，是基于核心策略在不同条件下的具体实现方式。在分层负载均衡策略中，当服务器节点数能被专家组数整除时，先依据组限制专家路由，将专家组均匀分配到节点，确保节点间负载平衡，接着在节点内复制专家，并将复制后的专家分配到GPU，通过专家复制和重新分配来平衡GPU负载；全局负载均衡策略在其他情况下使用，不考虑专家分组，直接在全局复制专家并分配到GPU，同样是利用冗余专家策略，通过大规模的专家复制和分配来应对较大规模的专家并行场景，以实现负载均衡。

图表4：大规模跨节点专家并行（EP）并实现最佳负载平衡

中金 | AI智道（7）：DeepSeek Infra开源周总结，及算力测算一览

正文

请到「今天看啥」查看全文