有相仿的地方。在MoE中，动态路由选择的核心原理类似于“智能调度-20250221075034_黄建同学的专栏文章_微信文章

有相仿的地方。在MoE中，动态路由选择的核心原理类似于“智能调度员”：门控网络会根据输入数据的特点（比如一句话中的关键词或图像的局部特征），实时计算每个专家（子模型）的“匹配度”，并选择匹配度最高的前K个专家参与计算。例如，输入“猫在跑步”时，门控网络可能激活擅长“动物”和“动作”的专家，而忽略其他无关专家。这种选择通过**Top-K稀疏激活**实现，既保留模型的大规模参数量（专家越多能力越强），又让每次计算仅调用少量专家，显著降低算力消耗。整个过程通过端到端训练自动优化，确保专家逐渐专业化，同时门控网络学会精准调度。// @徐小拿爱吃肉 :路有机制这里的动态选择// @徐小拿爱吃肉 : @我的Notion 请教大佬，动态选择这里核心原理是啥呢？和普通检索中的意图识别有相仿的地方吗？

A Visual Guide to Mixture of Experts (MoE)

混合专家模型（Mixture of Experts, MoE）是一种通过动态选择子模型（专家）来处理不同输入的高效架构，广泛应用于大语言模型（LLM）中（ #deepseek# 等）。其核心思想是通过稀疏激活技术，仅激活部分专家进行计算，从而显著降低计算成本，同时提升模型的表现。

MoE的核心组件
1. 专家网络：每个专家是一个独立的子模型（如前馈神经网络），负责处理特定类型的输入数据。专家并不专注于特定领域，而是在特定上下文中处理特定词元。
2. 路由机制：路由网络（门控网络）根据输入数据动态选择最相关的专家。常见的路由策略包括Top-k选择，即每次只激活少数专家（如1-2个），以减少计算开销。
3. 稀疏激活：与传统密集模型不同，MoE仅激活部分专家，从而在保持模型容量的同时显著降低计算资源需求。

MoE的优势
1. 计算高效：通过稀疏激活，MoE能够在相同计算资源下处理更大规模的模型，显著提升训练和推理效率。
2. 灵活性与扩展性：MoE的模块化设计使其易于扩展，通过增加专家数量即可提升模型容量，而无需显著增加计算成本。
3. 任务适应性：路由机制能够根据输入数据动态选择专家，使模型在不同任务和数据模式下表现更优。

有相仿的地方。在MoE中，动态路由选择的核心原理类似于“智能调度-20250221075034

正文

2025-02-21 07:50
本条微博链接

请到「今天看啥」查看全文