专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

DeepSeek突袭公布成本利润率：545%

AI算法与图像处理 · 公众号 · · 2025-03-01 22:23

正文

开源周：Day 06 ，编辑：机器之心

DeepSeek 官方：如果所有 tokens 全部按照 DeepSeek R1 的定价计算，理论上一天的总收入为 $562,027，成本利润率 545%。但实际上没有这么多收入，因为 V3 的定价更低，同时收费服务只占了一部分，另外夜间还会有折扣。

太突然了！原来 DeepSeek 也有 One More Thing。

就在所有人以为 DeepSeek 预告的 5 天开源告一段落时，今天中午 12 点 11 分，官方 𝕏 帐号再次更新，宣告「开源周」还在继续。不过这第六天 DeepSeek 并没有开源新的软件库，而是介绍了 DeepSeek-V3/R1 的推理系统。

概述地址：https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

DeepSeek 的推文中写到，DeepSeek-V3/R1 的推理系统采用了跨节点 EP 驱动的批量扩展、计算 - 通信重叠、负载平衡来实现对吞吐量和延迟的优化。同时，DeepSeek 还给出了其在线服务的统计数据：

每个 H800 节点实现了 73.7k/14.8k 个每秒输入 / 输出 token；
（理论）成本利润率高达 545% 。

DeepSeek 还表示：「我们希望本周的洞见能够为社区带来价值，并为我们共同的 AGI 目标做出贡献。」

一时之间，社区再次沸腾，不仅仅是因为明明说的 5 天开源却来到了第 6 天以及 73.7k、14.8k、545% 这三个惊人的数字，大家尤其期待明天 —— 开源周的最后一天，DeepSeek 将用什么来压轴。

系统设计原则

为了实现更高的吞吐量和更低的延迟，DeepSeek 采用了跨节点专家并行（EP，Expert Parallelism）策略。

首先，EP 显著扩展了 batch 大小，提高了 GPU 矩阵计算效率并增加了吞吐量。

其次，EP 将专家分布到各个 GPU 上，每个 GPU 只处理一小部分专家（减少内存访问需求），从而降低延迟。

然而 EP 增加了系统的复杂性，主要表现在两个方面：

EP 引入了跨节点通信。为了优化吞吐量，必须设计适当的计算工作流，shi 通信与计算重叠。
EP 涉及多个节点，因此本质上需要数据并行 (DP)，并且需要在不同的 DP 实例之间进行负载平衡。

为此，该项目重点介绍如何通过以下方式应对这些挑战：

利用 EP 扩展 batch 大小；
隐藏计算背后的通信延迟；
执行负载平衡。

大规模跨节点专家并行（EP）

由于 DeepSeek-V3/R1 中专家数量庞大 —— 每层 256 个专家中只有 8 个被激活 —— 模型的高度稀疏性导致需要极大的总 batch 大小。这样才能确保每个专家有足够的 batch 大小，从而实现更高的吞吐量和更低的延迟。大规模跨节点 EP（专家并行）是至关重要的。

由于 DeepSeek 采用了预填充 - 解码分解架构，因此他们在预填充和解码阶段采用不同程度的并行性：

预填充阶段 [路由专家 EP32、MLA / 共享专家 DP32]：每个部署单元跨越 4 个节点，拥有 32 个冗余路由专家，其中每个 GPU 处理 9 个路由专家和 1 个共享专家。
解码阶段 [路由专家 EP144、MLA / 共享专家 DP144]：每个部署单元跨越 18 个节点，拥有 32 个冗余路由专家，其中每个 GPU 管理 2 个路由专家和 1 个共享专家。

计算 - 通信重叠

大规模跨节点 EP 会引入显著的通信开销。为了缓解这一问题，DeepSeek 采用了「dual-batch」重叠策略，通过将一个 batch 请求拆分为两个 microbatch 来隐藏通信成本并提高整体吞吐量。在预填充阶段，这两个 microbatch 交替执行，一个 microbatch 的通信成本被隐藏在另一个 microbatch 的计算过程中。

预填充阶段通信 - 计算重叠

在解码阶段，不同阶段的执行时间是不平衡的。因此，DeepSeek 将注意力层细分为两个 step，并使用一个 5 阶段的 pipeline 来实现无缝的通信 - 计算重叠。

解码阶段的通信 - 计算重叠

关于通信 - 计算重叠机制的更多细节可以参考：https://github.com/deepseek-ai/profile-data

实现最优负载平衡

大规模并行化（包括 DP 和 EP）存在一个关键难题：如果单台 GPU 的计算或通信负荷过重，它就会成为性能瓶颈，导致整个系统变慢，同时还让其他 GPU 处于闲置状态。为了最大限度地提高资源利用率，DeepSeek 努力实现了所有 GPU 上的计算和通信负载平衡。

1. 预填充负载平衡器

关键问题：DP 实例之间的请求数量和序列长度不同，导致核心注意力（core-attention）计算和调度发送负载不平衡。

优化目标：

平衡 GPU 之间的核心注意力计算（核心注意力计算负载平衡）。
均衡每个 GPU 的输入 token 数量（调度发送负载平衡），防止特定 GPU 上的处理时间过长。

2. 解码负载平衡器

DeepSeek突袭公布成本利润率：545%

正文

请到「今天看啥」查看全文