专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
AI前线  ·  刚刚,DeepSeek ... ·  12 小时前  
爱可可-爱生活  ·  【[193星]Autiobooks:一键将电 ... ·  昨天  
新智元  ·  Grok ... ·  2 天前  
机器学习研究组订阅  ·  英伟达下场,首次优化DeepSeek-R1! ... ·  3 天前  
51好读  ›  专栏  ›  新智元

刚刚,DeepSeek全面开源V3/R1推理系统!成本利润率高达545%

新智元  · 公众号  · AI  · 2025-03-01 15:03

正文



新智元报道

编辑:KingHZ 好困
【新智元导读】 DeepSeek公开推理系统架构,成本利润率可达545%!明天还有更大惊喜吗?

就在刚刚,当 大家以为开源周已经结束的时候,真「Open AI」DeepSeek带来了压轴大戏——DeepSeek-V3/R1推理系统,全面揭秘!
吞吐量和延迟优化:
  • 跨节点高效并行(EP)驱动的批处理扩展

  • 计算与通信并行处理

  • 智能负载均衡

在线服务性能数据:
  • 每个H800节点每秒处理73,700/14,800输入/输出token
  • 成本利润率高达545%

DeepSeek表示,希望本周分享的技术见解能为开源社区带来价值,共同推进通用人工智能的发展目标。
看到这里,网友都惊了!
所以,基本免费的DeepSeek成本利润率高达545%,而堪称世界最贵的OpenAI却在亏损?

系统设计原则


简单来说,DeepSeek-V3/R1推理服务的优化目标是: 提高吞吐量和降低延迟。
为了实现这两个目标,团队采用了跨节点专家并行(Expert Parallelism,EP)技术。
首先,EP显著扩大了批处理规模,提高了GPU矩阵计算效率,从而提升吞吐量。
其次,EP将专家模块分布在不同GPU上,每个GPU仅处理少量专家模块(减少内存访问需求),从而降低延迟。
然而,EP也增加了系统复杂度,主要体现在两个方面:
  1. EP引入了跨节点通信。为了优化吞吐量,需要设计合理的计算工作流,使通信过程与计算过程能够并行进行。

  2. EP涉及多个节点,因此必然需要数据并行(Data Parallelism,DP),并要求在不同DP实例之间进行负载均衡。

为此,DeepSeek通过以下方式应对这些挑战:
  • 利用EP技术扩展批处理规模
  • 将通信延迟与计算过程重叠处理
  • 实现有效的负载均衡

大规模跨节点专家并行(EP)

DeepSeek-V3/R1中包含大量专家模块:每层256个专家中仅激活8个,所以模型的高稀疏性特点要求采用极大的整体批处理规模。
这样才能确保每个专家模块获得足够的批处理量,从而实现更高的吞吐量和更低的延迟。因此,大规模跨节点EP技术成为必不可少的选择。
DeepSeek采用了预填充-解码解耦架构(prefill-decode disaggregation architecture),在预填充和解码阶段分别采用不同程度的并行策略:
  1. 预填充阶段「路由专家EP32,MLA/共享专家DP32」:每个部署单元跨越4个节点,配置32个冗余路由专家,每个GPU负责处理9个路由专家和1个共享专家。

  2. 解码阶段「路由专家EP144,MLA/共享专家DP144」:每个部署单元跨越18个节点,配置32个冗余路由专家,每个GPU管理2个路由专家和1个共享专家。

计算-通信重叠处理

大规模跨节点EP技术引入了显著的通信开销。
为了缓解这一问题,采用dual-batch重叠策略,将同一批请求分割为两个microbatch,以隐藏通信成本并提高整体吞吐量。

在预填充阶段,两个microbatch交替执行,一个microbatch的通信开销被另一个microbatch的计算过程所掩盖。

在解码阶段,各执行阶段的时长存在不平衡现象。
为此,需要将注意力层细分为两个步骤,并采用五阶段流水线(5-stage pipeline)技术,实现计算与通信的无缝重叠。

实现最优负载均衡

大规模并行(包括数据并行DP和专家并行EP)带来了一个关键挑战:如果单个GPU在计算或通信方面过载,它将成为整个系统的性能瓶颈,导致系统速度下降,同时造成其他GPU资源闲置。
为了最大限度地提高资源利用率,DeepSeek的目标是在所有GPU上实现计算和通信负载的平衡。
1. 预填充阶段负载平衡器
  • 关键问题:不同数据并行实例之间的请求数量和序列长度差异导致核心注意力计算和分发发送负载不平衡。

  • 优化目标:
    • 平衡各GPU之间的核心注意力计算(核心注意力计算负载均衡);
    • 均衡每个GPU处理的输入token数量(分发发送负载均衡),避免特定GPU出现处理延迟。

2. 解码阶段负载平衡器
  • 关键问题:数据并行实例之间请求数量和序列长度不均导致核心注意力计算(与KV缓存使用相关)和分发发送负载的差异。

  • 优化目标:
    • 平衡各GPU之间的KV缓存(KVCache)使用(核心注意力计算负载均衡);
    • 均衡每个GPU的请求处理数量(分发发送负载均衡)。

3. 专家并行负载平衡器
  • 关键问题:在混合专家模型(Mixture of Experts,MoE)中,存在天然的高负载专家,导致不同GPU上的专家计算工作负载不平衡。

  • 优化目标:
    • 平衡每个GPU上的专家计算工作量(即最小化所有GPU中的最大分发接收负载)。

DeepSeek在线推理系统图示







请到「今天看啥」查看全文