动态混合专家：高效Transformer模型的自动调优方法

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-06-05 00:53

正文

24年5月来自香港中文大学深圳分校和其他几个研究机构（包括浙江大学和西湖大学）的论文“Dynamic Mixture of Experts: An Auto-tuning Approach for Efficient Transformer Models”。

稀疏混合专家 (SMoE) 已被广泛用于提高基于 Transformer 基础模型的训练和推理效率，并取得了令人欣喜的效果。然而，SMoE 的性能在很大程度上取决于超参的选择，例如专家数和要激活的专家数（称为 top-k），由于通过搜索各种超参配置进行大量模型训练，导致计算开销巨大。为了解决这个问题，引入了动态混合专家 (DYN-MOE) 技术。DYN-MOE 结合了 (1) 一种新门控方法，使每个 token 能够自动确定要激活的专家数。(2) 自适应过程会在训练期间自动调优专家数。视觉、语言和视觉-语言任务的大量数值结果表明，该方法在视觉和语言任务上的表现优于 GMoE（论文“ Sparse mixture-of-experts are domain generalizable learners ”），在视觉-语言任务上优于 MoE-LLaVA，同时通过激活更少的参数保持效率。

代码开源在 https://github.com/LINs-lab/DynMoE 。

动态混合专家结合两个关键组件：

(1) top-any门控方法（如图所示：输入 token 经过与每个专家 e 对应的门控权重 Wge，得到门控分 Ge。然后将这些门控得分与门控 Ge 进行比较，确定是否激活后续专家。最后，将专家输出组合起来，产生输出 token），将门控机制建模为多标签分类问题，允许 token 自行决定要激活的专家数。这使得不同的 token 可以激活不同数的专家，包括不激活任何专家的零选项。

整个过程总结在如下算法中：

尽管 top-k 门控方法在提高训练和推理效率方面取得了相当大的成功，但仍存在两个限制：

1. 必须对 k 值进行微调以优化模型性能。如上图所示，MoE 模型的性能会随着不同的 top-k 值而发生显著变化。最近的研究也注意到了这一观察结果 [6, 12, 53]。因此，需要大量的计算资源来确定 k 的最佳值。

2. top-k 门控方法假设每个 token 必须激活相同数的专家，但在实践中可能并不总是如此。例如，在考虑不同的任务时，可能存在所有任务共享的 token 和特定于某些任务的 token，即不同的 token 可以激活不同数的专家。

通过无需调整的 top-any 门控方法解决 top-k 门控的局限性。为了解决上述局限性， top-any 门控不需要预定义k 值，允许不同的 token 在训练和推理阶段激活不同数的专家。

top-any 门控方法的设计灵感来自多标签分类问题。将每个专家视为一个单独类，并独立计算每个类（专家）的分类（门控）分数。随后，所有分数超过阈值的类（专家）都被视为positive 类（激活）。具体来说，给定专家表示矩阵 Wg，其中 Wg 的第 k 行作为专家 k 的表示，以及输入token x，top-any 门控的关键步骤可以通过以下等式来表示：

先计算token和专家表征矩阵Wg之间的cosine相似性，得到分数s(x)。然后应用sigmoid函数σ在相似度得分 s(x)，得到 0 到 1 之间的得分。最后，相似度得分大于可训练阈值 G 的专家将被视为对 token x 的激活专家。需要注意的是，符号函数不支持反向传播，因此定制这部分的反向传播过程，即直接将 g(x) 的梯度复制到 σ (s(x)) − σ(G)，以有效绕过符号函数。

给定门控得分g(x) ，那么激活的专家数目计算如下：

动态混合专家：高效Transformer模型的自动调优方法

正文

请到「今天看啥」查看全文