专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【[70星]Extract-chat:通过聊 ... ·  15 小时前  
爱可可-爱生活  ·  【[5星]VolumetricSMPL:让3 ... ·  2 天前  
宝玉xp  ·  Andrej Karpathy ... ·  3 天前  
机器之心  ·  为什么说DeepSeek的R1-Zero比R ... ·  3 天前  
51好读  ›  专栏  ›  黄建同学

目前为止分析DeepSeek最全面的文章了:专家混合(MoE)多-20250131123140

黄建同学  · 微博  · AI  · 2025-01-31 12:31

正文

2025-01-31 12:31

目前为止分析DeepSeek最全面的文章了:
>专家混合(MoE)
>多头潜在注意力(MLA)
>多标记预测(MTP)
>群体相对策略优化(GRPO)
>推理行为

DeepSeek-V2 采用 DeepSeekMoE 架构,旨在优化训练成本和推理效率,同时保持强大的模型性能。与传统的稠密 Transformer 架构不同,DeepSeekMoE 引入了稀疏激活的专家网络,大幅降低了每个 token 的计算开销,同时允许模型拥有更高的总参数量。

DeepSeekMoE 遵循 Mixture of Experts(MoE,专家混合)范式,每个 token 会被动态分配到一部分专门的前馈网络(FFN)专家,而不是通过一个统一的稠密 FFN 进行计算。

……

:aman.ai/primers/ai/deepseek-R1/

#ai创造营##扎克伯格称仍在消化DeepSeek的成果##库克看好DeepSeek#