专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  《爱可可 AI 前沿推介(2.21)》 ... ·  11 小时前  
AI前线  ·  微软力推新视频游戏 AI 模型,超 10 ... ·  20 小时前  
人工智能那点事  ·  “80后已死5.2%”?这么离谱的假消息! ... ·  20 小时前  
爱可可-爱生活  ·  [LG] A Survey of ... ·  2 天前  
爱可可-爱生活  ·  【[59星]ThinkDiff:让扩散模型具 ... ·  2 天前  
51好读  ›  专栏  ›  黄建同学

有相仿的地方。在MoE中,动态路由选择的核心原理类似于“智能调度-20250221075034

黄建同学  · 微博  · AI  · 2025-02-21 07:50

正文

2025-02-21 07:50

有相仿的地方。在MoE中,动态路由选择的核心原理类似于“智能调度员”:门控网络会根据输入数据的特点(比如一句话中的关键词或图像的局部特征),实时计算每个专家(子模型)的“匹配度”,并选择匹配度最高的前K个专家参与计算。例如,输入“猫在跑步”时,门控网络可能激活擅长“动物”和“动作”的专家,而忽略其他无关专家。这种选择通过**Top-K稀疏激活**实现,既保留模型的大规模参数量(专家越多能力越强),又让每次计算仅调用少量专家,显著降低算力消耗。整个过程通过端到端训练自动优化,确保专家逐渐专业化,同时门控网络学会精准调度。// @徐小拿爱吃肉 :路有机制这里的动态选择// @徐小拿爱吃肉 : @我的Notion 请教大佬,动态选择这里核心原理是啥呢?和普通检索中的意图识别有相仿的地方吗?
A Visual Guide to Mixture of Experts (MoE)

混合专家模型(Mixture of Experts, MoE)是一种通过动态选择子模型(专家)来处理不同输入的高效架构,广泛应用于大语言模型(LLM)中( #deepseek# 等)。其核心思想是通过稀疏激活技术,仅激活部分专家进行计算,从而显著降低计算成本,同时提升模型的表现。

MoE的核心组件
1. 专家网络:每个专家是一个独立的子模型(如前馈神经网络),负责处理特定类型的输入数据。专家并不专注于特定领域,而是在特定上下文中处理特定词元。
2. 路由机制:路由网络(门控网络)根据输入数据动态选择最相关的专家。常见的路由策略包括Top-k选择,即每次只激活少数专家(如1-2个),以减少计算开销。
3. 稀疏激活:与传统密集模型不同,MoE仅激活部分专家,从而在保持模型容量的同时显著降低计算资源需求。

MoE的优势
1. 计算高效:通过稀疏激活,MoE能够在相同计算资源下处理更大规模的模型,显著提升训练和推理效率。
2. 灵活性与扩展性:MoE的模块化设计使其易于扩展,通过增加专家数量即可提升模型容量,而无需显著增加计算成本。
3. 任务适应性:路由机制能够根据输入数据动态选择专家,使模型在不同任务和数据模式下表现更优。






请到「今天看啥」查看全文