目前为止分析DeepSeek最全面的文章了:
>专家混合(MoE)
>多头潜在注意力(MLA)
>多标记预测(MTP)
>群体相对策略优化(GRPO)
>推理行为
DeepSeek-V2 采用 DeepSeekMoE 架构,旨在优化训练成本和推理效率,同时保持强大的模型性能。与传统的稠密 Transformer 架构不同,DeepSeekMoE 引入了稀疏激活的专家网络,大幅降低了每个 token 的计算开销,同时允许模型拥有更高的总参数量。
DeepSeekMoE 遵循 Mixture of Experts(MoE,专家混合)范式,每个 token 会被动态分配到一部分专门的前馈网络(FFN)专家,而不是通过一个统一的稠密 FFN 进行计算。
……
:aman.ai/primers/ai/deepseek-R1/
#ai创造营##扎克伯格称仍在消化DeepSeek的成果##库克看好DeepSeek#
>专家混合(MoE)
>多头潜在注意力(MLA)
>多标记预测(MTP)
>群体相对策略优化(GRPO)
>推理行为
DeepSeek-V2 采用 DeepSeekMoE 架构,旨在优化训练成本和推理效率,同时保持强大的模型性能。与传统的稠密 Transformer 架构不同,DeepSeekMoE 引入了稀疏激活的专家网络,大幅降低了每个 token 的计算开销,同时允许模型拥有更高的总参数量。
DeepSeekMoE 遵循 Mixture of Experts(MoE,专家混合)范式,每个 token 会被动态分配到一部分专门的前馈网络(FFN)专家,而不是通过一个统一的稠密 FFN 进行计算。
……
:aman.ai/primers/ai/deepseek-R1/
#ai创造营##扎克伯格称仍在消化DeepSeek的成果##库克看好DeepSeek#