DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

人工智能与大数据技术 · 公众号 · 大数据 · 2025-03-20 15:24

正文

本文经机器之心（微信公众号：almosthuman2014）授权转载，禁止二次转载

机器之心编辑部

DeepSeek 官方：如果所有 tokens 全部按照 DeepSeek R1 的定价计算，理论上一天的总收入为 $562,027，成本利润率 545%。但实际上没有这么多收入，因为 V3 的定价更低，同时收费服务只占了一部分，另外夜间还会有折扣。

太突然了！原来 DeepSeek 也有 One More Thing。

就在所有人以为 DeepSeek 预告的 5 天开源告一段落时，中午 12 点 11 分，官方 𝕏 帐号再次更新，宣告「开源周」还在继续。不过这第六天 DeepSeek 并没有开源新的软件库，而是介绍了 DeepSeek-V3/R1 的推理系统。

概述地址：https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

DeepSeek 的推文中写到，DeepSeek-V3/R1 的推理系统采用了跨节点 EP 驱动的批量扩展、计算 - 通信重叠、负载平衡来实现对吞吐量和延迟的优化。同时，DeepSeek 还给出了其在线服务的统计数据：

每个 H800 节点实现了 73.7k/14.8k 个每秒输入 / 输出 token；
（理论）成本利润率高达 545% 。

DeepSeek 还表示：「我们希望本周的洞见能够为社区带来价值，并为我们共同的 AGI 目标做出贡献。」

一时之间，社区再次沸腾，不仅仅是因为明明说的 5 天开源却来到了第 6 天以及 73.7k、14.8k、545% 这三个惊人的数字，大家尤其期待明天 —— 开源周的最后一天，DeepSeek 将用什么来压轴。

系统设计原则

为了实现更高的吞吐量和更低的延迟，DeepSeek 采用了跨节点专家并行（EP，Expert Parallelism）策略。

首先，EP 显著扩展了 batch 大小，提高了 GPU 矩阵计算效率并增加了吞吐量。

其次，EP 将专家分布到各个 GPU 上，每个 GPU 只处理一小部分专家（减少内存访问需求），从而降低延迟。

然而 EP 增加了系统的复杂性，主要表现在两个方面：

EP 引入了跨节点通信。为了优化吞吐量，必须设计适当的计算工作流，shi 通信与计算重叠。
EP 涉及多个节点，因此本质上需要数据并行 (DP)，并且需要在不同的 DP 实例之间进行负载平衡。

为此，该项目重点介绍如何通过以下方式应对这些挑战：

利用 EP 扩展 batch 大小；
隐藏计算背后的通信延迟；
执行负载平衡。

大规模跨节点专家并行（EP）

由于 DeepSeek-V3/R1 中专家数量庞大 —— 每层 256 个专家中只有 8 个被激活 —— 模型的高度稀疏性导致需要极大的总 batch 大小。这样才能确保每个专家有足够的 batch 大小，从而实现更高的吞吐量和更低的延迟。大规模跨节点 EP（专家并行）是至关重要的。

由于 DeepSeek 采用了预填充 - 解码分解架构，因此他们在预填充和解码阶段采用不同程度的并行性：

预填充阶段 [路由专家 EP32、MLA / 共享专家 DP32]：每个部署单元跨越 4 个节点，拥有 32 个冗余路由专家，其中每个 GPU 处理 9 个路由专家和 1 个共享专家。
解码阶段 [路由专家 EP144、MLA / 共享专家 DP144]：每个部署单元跨越 18 个节点，拥有 32 个冗余路由专家，其中每个 GPU 管理 2 个路由专家和 1 个共享专家。

计算 - 通信重叠

大规模跨节点 EP 会引入显著的通信开销。为了缓解这一问题，DeepSeek 采用了「dual-batch」重叠策略，通过将一个 batch 请求拆分为两个 microbatch 来隐藏通信成本并提高整体吞吐量。在预填充阶段，这两个 microbatch 交替执行，一个 microbatch 的通信成本被隐藏在另一个 microbatch 的计算过程中。

预填充阶段通信 - 计算重叠

在解码阶段，不同阶段的执行时间是不平衡的。因此，DeepSeek 将注意力层细分为两个 step，并使用一个 5 阶段的 pipeline 来实现无缝的通信 - 计算重叠。

DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

正文

请到「今天看啥」查看全文