专栏名称: 天池大数据科研平台
天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
目录
相关文章推荐
数据派THU  ·  独家|欧盟《人工智能法案》解读 ·  18 小时前  
数据派THU  ·  大语言模型的解码策略与关键优化总结 ·  昨天  
数据派THU  ·  ICLR 2025 | ... ·  3 天前  
51好读  ›  专栏  ›  天池大数据科研平台

DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法

天池大数据科研平台  · 公众号  · 大数据  · 2025-03-05 10:12

正文

本文转载来源:量子位公众号,西风发自凹非寺,不代表官方立场

DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%!

名叫 CoE (Chain-of-Experts) ,被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

与并行处理不同,CoE使 专家能在单层内串行通信 ,形成一种迭代机制 ,即专家能“沟通”,在其它专家输出之上处理token。

研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了 性能提升。

通过 扩展CoE的迭代次数 ,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。

另外,在专家组合自由度、专家使用效率等其它方面,CoE也都具有显著优势,专家组合增加823倍。

目前,研究团队晒出了CoE技术Blog (完整论文即将发布) ,引起不少网友围观。

翻看作者主页,还发现作者Zihan Wang真曾在DeepSeek实习过😯

有网友看过这项研究表示:

MoEs中的IsoFLOP层迭代设计,非常奈斯。

还有网友已经开始预测下一代架构了。


CoE究竟长啥样?以下是团队发布的Notion Blog介绍。

CoE专门针对稀疏MoE打造

CoE关键创新在于 建立沟通性处理机制 ,改变了稀疏神经网络的信息处理方式。

具体来说,是通过在单个层的迭代中将MoE输出反馈为多次迭代的输入来实现的。

CoE迭代处理机制可以形式化表示为下面这个样婶儿:

参考DeepSeek-V2的实现,研究团队定义门控机制为如下:

团队介绍,这种设计的好处在于每次迭代的专家选择由前一次迭代的输出决定,形成 专家间的依赖关系和更动态的路由机制

而且串行信息可以在 迭代过程中累积 ,实现专家间的直接通信。

实验采取DeepSeek V2架构,在参数规模为500M的MoE模型上使用32K Tok的batch size训练1000步,以此来验证CoE的有效性。

结果CoE在性能、扩展策略、资源效率优化、专家组合自由度、专家使用效率方面具有显著优势。

除了开头所展示的在相似的算力和内存要求下,CoE将loss从1.20下降至1.12,且有更陡峭的下降趋势。

团队进一步在“dense” (专家8选8) 模型上也进行了测试,结果证明了串行处理在Sparse MoE上相比Dense模型更有效, CoE是一种专为 (细粒度) 稀疏混合专家模型 (Sparse MoE) 设计的方法

采取2次序列化处理并不能显著提升Dense模型性能。

另外,在计算量和效果相似的情况下,CoE可以减小对内存 的要求。如下,CoE-2(4/48)的效果与MoE(8/64)相近,但使用更少的总专家数量。loss match的情况下减小了17.6%的内存需求。

团队还对比了在预算相似的情况下,扩展CoE迭代次数和扩展模型层数、扩展专家选择个数的效果,结果扩展CoE迭代次数更优。

CoE-2(8/64),4层 vs MoE(8/64),8层/12层,8层MoE和CoE效果几乎相同,但是对内存要求高72%,即CoE相对节省了42%内存。

团队强调, 独立门控机制 内残差连接 是CoE的关键架构创新,消融研究表明,移除任何组件都会显著降低性能。

更多细节,感兴趣的同学可以查看技术报告原文

谁造的?

CoE由一个5人组成的团队提出。







请到「今天看啥」查看全文