最近一个月,给了自己一个深入了解DeepSeek的机会,汇总记录如下:
用通俗易懂的话,讲述DeepSeek开源的那些项目。
2月24日:FlashMLA
一个高性能显卡定制的“
AI加速工具
”,加速到什么程度?
1. 处理速度达到3000GB/s;
2. 算力达到580万亿次/s;
为
混合专家MOE
与
并行专家EP
量身定制的
通讯库
,能达到什么效果?
1. 降低延时;
2. 提升吞吐量;
训练/计算更快,成本更低,模型迭代更快。
《
DeepEP:MOE与EP通讯库
》
2月26日:DeepGEMM
一个FP8
通用矩阵乘法库
(library)
,
300行优美的代码,效率提高N倍。
2月27日:DualPipe
一个
双向管道并行算法
,提高了前向传播/反向传播过程中的计算+通信效率,降低了单向流水线的等待时间,作者之中:
梁文峰赫然在列!
2月27日:EPLB
一个
动态负载均衡算法
,
在使用专家并行
EP
时,不同专家会被分配到不同的
GPU
,EPLB保证了GPU负载的均衡。
分级,冗余,就近,动态... 工程架构领域,哪有什么新鲜事,可偏偏在deepseek手里大放异彩。
2月28日:3FS
一个用
C++
写的高性能
分布式文件系统
,
幻方官网,最显著的位置,说明了3FS是他们最大的三大核心竞争力之一。
它流弊到什么程度?
读:8T/s
写:500G/s
IO响应:18亿次/s
集群使用率:96%
GPU使用率:85%
2月29日:V3/R1整体架构思路
为什么
DeepSeek
要走这一条路?
GPU
是瓶颈的时候,有两条路可走:
其一,水平扩展
scale out
:囤卡,堆
GPU
;
其二,垂直扩展
scale up
:
GPU
升级换代;
但这两条路,都被死死的卡在漂亮国的手里。
卡,限制你,不让你囤。
先进的卡,不卖给你,谁叫你你落后
5
年。
为了突破瓶颈,D
eepSeek
被逼无奈
的走出了第三条路:
通过软件优化架构优化
。
https://github.com/deepseek-ai/
DeepSeek开源一周,自己学了一个月。
在这期间,收获最大的人,一定是我自己。