Tom Yeh教授的DeepSeek专门讲座视频↓(就是那个用excel实现Transformer的厉害教授
网页链接
)
讲座大纲:
1. Transformer
2. 注意力机制(Attention)
- 自注意力机制(Self-Attention)
- 多头注意力机制(Multi-Head Attention)
- 多头潜在注意力机制(Multi-Head Latent Attention,DeepSeek)
3. 前馈网络(Feed-Forward)
- 单专家(Single Expert)
- 专家混合(Mixture of Experts, MoE)
- 稀疏专家混合(Sparse Mixture of Experts)
- 共享+路由专家混合(Shared+Routed Mixture of Experts,DeepSeek)
4. 旋转位置编码(RoPE, Rotary Position Embedding)
访问:www.byhand.ai/p/deepseek-lecture-128
#deepseek# #AI.com直达DeepSeek# #ai创造营#
讲座大纲:
1. Transformer
2. 注意力机制(Attention)
- 自注意力机制(Self-Attention)
- 多头注意力机制(Multi-Head Attention)
- 多头潜在注意力机制(Multi-Head Latent Attention,DeepSeek)
3. 前馈网络(Feed-Forward)
- 单专家(Single Expert)
- 专家混合(Mixture of Experts, MoE)
- 稀疏专家混合(Sparse Mixture of Experts)
- 共享+路由专家混合(Shared+Routed Mixture of Experts,DeepSeek)
4. 旋转位置编码(RoPE, Rotary Position Embedding)
访问:www.byhand.ai/p/deepseek-lecture-128
#deepseek# #AI.com直达DeepSeek# #ai创造营#