专栏名称: 架构师之路

架构师之路，坚持撰写接地气的架构文章

DeepSeek开源周项目汇总，世界上从来没有什么腾空出世！

架构师之路 · 公众号 · 架构 · 2025-03-22 12:05

正文

请到「今天看啥」查看全文

DeepSeek开源周，6天，7个项目

最近一个月，给了自己一个深入了解DeepSeek的机会，汇总记录如下：用通俗易懂的话，讲述DeepSeek开源的那些项目。

2月24日：FlashMLA

一个高性能显卡定制的“ AI加速工具 ”，加速到什么程度？

1. 处理速度达到3000GB/s；

2. 算力达到580万亿次/s；

《 FlashMLA：GPU高速解码器》

2月25日：DeepEP

为 混合专家MOE 与 并行专家EP 量身定制的通讯库，能达到什么效果？

1. 降低延时；

2. 提升吞吐量；

训练/计算更快，成本更低，模型迭代更快。

《 DeepEP：MOE与EP通讯库》

2月26日：DeepGEMM

一个FP8 通用矩阵乘法库（library）， 300行优美的代码，效率提高N倍。

《 DeepGEMM：FP8通用矩阵乘法库》

2月27日：DualPipe

一个双向管道并行算法，提高了前向传播/反向传播过程中的计算+通信效率，降低了单向流水线的等待时间，作者之中：

梁文峰赫然在列！

《 DualPipe：双向管道并行算法》

2月27日：EPLB

一个动态负载均衡算法，在使用专家并行 EP 时，不同专家会被分配到不同的 GPU ，EPLB保证了GPU负载的均衡。

分级，冗余，就近，动态... 工程架构领域，哪有什么新鲜事，可偏偏在deepseek手里大放异彩。

《 EPLB：EP动态负载均衡算法》

2月28日：3FS

一个用 C++ 写的高性能分布式文件系统， 幻方官网，最显著的位置，说明了3FS是他们最大的三大核心竞争力之一。

它流弊到什么程度？

读：8T/s

写：500G/s

IO响应：18亿次/s

集群使用率：96%

GPU使用率：85%

《 3FS：高性能分布式文件系统》

2月29日：V3/R1整体架构思路

V3/R1软件优化架构优化：

《 V3/R1架构设计思路》

为什么 DeepSeek 要走这一条路？

GPU 是瓶颈的时候，有两条路可走：

其一，水平扩展 scale out ：囤卡，堆 GPU ；

其二，垂直扩展 scale up ： GPU 升级换代；

但这两条路，都被死死的卡在漂亮国的手里。

卡，限制你，不让你囤。

先进的卡，不卖给你，谁叫你你落后 5 年。

为了突破瓶颈，D eepSeek 被逼无奈的走出了第三条路：通过软件优化架构优化。

补充阅读材料：

https://github.com/deepseek-ai/

所有项目细节，git可查。

==全文完==

DeepSeek开源一周，自己学了一个月。在这期间，收获最大的人，一定是我自己。

世界上从来就没有什么腾空出世：

to DeepSeek！

to 我自己！

共勉！