专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  [CL]《LLM2: Let Large ... ·  昨天  
黄建同学  ·  #2024进度100%# ... ·  2 天前  
爱可可-爱生活  ·  Clone仿生器官系统的革命性突破,距离仿生 ... ·  3 天前  
爱可可-爱生活  ·  【Triton资源库:一个精选的资源列表,用 ... ·  3 天前  
宝玉xp  ·  转发微博-20241229014116 ·  4 天前  
51好读  ›  专栏  ›  黄建同学

DeepSeek-V3另一个厉害点:Mixture-of-Exp-20241228205016

黄建同学  · 微博  · AI  · 2024-12-28 20:50

正文

2024-12-28 20:50

DeepSeek-V3另一个厉害点:Mixture-of-Experts (MoE)架构,一种将LLM分割成多个子网络(或称为“专家”)的方法,每个子网络专注于处理输入数据的一个子集,以共同完成特定任务。
(1)专家系统:MoE架构包含多个专家,每个专家都是一个独立的神经网络,能够处理特定的任务或数据类型。有多达256个专家,每个专家专注于处理特定任务。
(2)动态路由:不是所有的专家都会参与到每一次的计算中,而是通过一种路由机制动态选择一部分专家进行计算。每次计算会选取前8个最相关的专家(topk=8)参与。
(3)效率与性能:主要优势在于它减少了预训练和推理期间的计算成本。它通过有选择地激活特定任务所需的专家,而不是每次任务都激活整个神经网络,从而提高了效率。
(4)参数激活:拥有671B的总参数,但每个任务仅激活37B参数,这优化了效率和性能。
(5)负载平衡:引入了无辅助损失的负载平衡策略,动态监控和调整专家的负载,以平衡的方式利用它们,而不牺牲整体模型性能。

DeepSeek-V3中的MoE架构通过将大模型分解为专家网络,并根据任务需求动态激活这些专家,实现了计算效率和性能
DeepSeek-V3这个点很厉害:其训练预算非常低,只用了2048 个 GPU,2 个月,600 万美元。

按照Andrej Karpathy,这种级别的能力应该需要接近 16K GPU 的集群,而今天推出的集群大约有 100K GPU。例如,Llama 3 405B 使用了 30.8M GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,仅使用了 2.8M GPU 小时(计算量减少了约 11 倍)。#ai创造营##ai#ChatGPT