《
deepseek原理应用与实践》
3.deepseek极限潜能 - MOE
最近几周自学deepseek原理+应用+实践,一些成果,和大家分享:
1. 小众关心的,
deepseek核心技术原理
;
今天和大家聊聊,deepseek的核心机制之一的
混合专家
M
OE
。
混合专家,Miture of Experts,该模型思路
不再追求大而全,转而追求多而专精
。它会将任务动态路由给各个领域专家,并将各个领域专家的输出进行组合。
混合专家模型
:Java,FE,QA,DBA,OP工程师...
2. 计算性能差:面对一个产品需求,做设计编码上线周期长;
2. 需求评审完之后,Java,FE,QA... 多个专家可以
并行
设计编码上线;
如今:训练多专家Expert(例如:1万个专家,每个专家
单一职责
SRP)
2.
动态路由
(需要一个
门控网络
作为协调者,Gating Network),分发任务给专家,专家
并行计算
;
i
nput
[提示词] --> 专家分类{专家E1E2...En}
O1O2...On --> 统筹输出[output]
MOE对我们写提示词,
获取更佳的
回答质量有什么
启示呢?
如果觉得AI回复缺乏深度,可以
显性告诉它,你希望它扮演什么专家角色来回复问题
。
画外音:模型分类出来的专家角色不一定100%准确。
good case
:
假设你是由以下专家组成的团队
:
请分别从各自领域提出5项技术选型建议,并组合
设计
方案满足每秒10万次交易,数据满足最终一致性,故障恢复时间小于30秒的系统。
节省
训练资源,缩短回复时间,提升回答质量,多个专家还能够交叉验证(大而全模型可能过拟合)
,deepseek创新性使用MOE之后,很快就得到了业界的广泛认可与复制。