专栏名称: 架构师之路

架构师之路，坚持撰写接地气的架构文章

DeepSeek开源V3/R1架构设计思路，原来545%的利润率，它也只是被逼无奈？

架构师之路 · 公众号 · 架构 · 2025-03-19 08:10

正文

《 deepseek原理应用与实践》

15.deepseek-V3/R1架构设计思路

开源周的最后一天， DeepSeek 分享了 DeepSeek-V3/R1 的架构设计思路，让大家能够更系统更全面的了解其推理系统的设计过程，以及更深刻的理解之前开源的 6 个项目。

DeepSeek-V3/R1 推理系统的核心目标是什么？

通过软件架构的优化，达到：

1. 更高的吞吐量；

2. 更低的延时；

为什么 DeepSeek 要走这一条路？

曾经 AI 技术发展， GPU 就是瓶颈。

GPU 是瓶颈的时候，有两条路可走：

其一，水平扩展 scale out ：囤卡，堆 GPU ；

其二，垂直扩展 scale up ： GPU 升级换代；

但这两条路，都被死死的卡在漂亮国的手里。

卡，限制你，不让你囤。

先进的卡，不卖给你，谁叫你你落后 5 年。

为了突破瓶颈，D eepSeek 被逼无奈的走出了第三条路：通过软件优化架构优化。

为了达成目标， DeepSeek 的核心方案是啥？

大规模的跨节点专家并行 EP ， Expert Parallelism 。

通过提升专家并行 EP 的数量（ batch size ），提升 GPU 矩阵乘法的效率，提高吞吐；与此同时，多专家分散在不同的 GPU ，每个 GPU 只需要计算更少的专家，访问更少的数据，从而降低延迟。

大规模的跨节点专家并行 EP ，会对软件架构带来什么新的挑战？

1. EP 跨节点传输，要解决传输与计算并行的问题；

2. EP 多节点联动，要解决数据分发汇总，负载均衡等问题；

大规模的跨节点专家并行 EP 的部署与策略是怎么样的？

由于 V3/R1 的专家数量众多，并且每层 256 个专家中仅激活其中 8 个， DeepSeek 采用多机多卡间的专家并行策略来达到以下目的：

Prefill 预填充阶段：路由专家 EP-32 、 MLA 和共享专家 DP-32 ，一个部署单元是 4 节点， 32 个冗余路由专家，每张卡 9 个路由专家和 1 个共享专家；

Decode 解码阶段：路由专家 EP-144 、 MLA 和共享专家 DP-144 ，一个部署单元是 18 节点， 32 个冗余路由专家，每张卡 2 个路由专家和 1 个共享专家；

这两个阶段的负载均衡策略各不相同。

如何解决计算与传输并行的问题？

多机多卡的专家并行会引入比较大的通信开销，所以DeepSeek使用双向通道，提高整体吞吐。

预填充阶段：计算和通信交错进行，一个通道计算的时候，另一个通道通信。

解码阶段类似：计算与通讯交错进行，通过流水线来实现计算和通信的重叠。

如何最大程度的负载均衡？

由于采用了很大规模的数据并行与专家并行，如果某个 GPU 的计算或通信负载过重，单个长尾将成为整个系统的瓶颈。与此同时其他 GPU 因为等待而空转，造成整体资源利用率下降。因此必须尽可能地为每个 GPU 平均分配计算负载、通信负载。

预填充阶段

请到「今天看啥」查看全文

推荐文章

美团技术团队 · 空降香港！美团无人机率先在港启航

昨天

架构师之路 · 探秘！DeepSeek老板梁文峰，何许人也？

2 天前

架构师之路 · 架构师究竟要不要懂细节？分布式ID生成的6种方法（第45讲）

昨天

架构师之路 · 一个无价的DeepSeek闭门会，送10张门票，只要求能去现场

昨天

架构师之路 · 总有人问，出海怎么用DeepSeek满血版（别问了，上答案）

4 天前

ImportNew · 厉害了，阿里送了一份重磅开源大礼给工程师！

7 年前

游戏陀螺 · 你是怎样在游戏中"反挑衅"对手的丨游戏陀螺

7 年前

界面新闻 · 进入“新零售时代”的阿里巴巴，目光投向了二手车市场

7 年前

广东公共DV现场 · 水浸街！顺德多地爆水管，数千家庭受影响，城区成了海洋啦！

7 年前

旅行雷达 · 珠三角新航线含税440往返印尼！圣诞跨年！含税2K5起往返欧洲多地！荷兰航空等多航司

7 年前