具体而言,专家选择的概率 P 反映了输入token x 在选择不同专家时的置信度。
换句话说,Pi 表示模型对第 i 个专家能够充分处理输入 x 的信心度。
如果 P 中的最高概率足够大,那么可能只需要使用相应的专家。
但是,如果最高概率不够大,需要添加更多专家来提高处理 x 的可靠性。
不断添加专家,直到所选专家的概率总和超过特定阈值 p,此时模型足够自信,这些专家可以有效地处理输入 x。
按 P 中概率的降序添加新专家,尽可能减少激活专家的数量。
正式地,首先将 P 中的元素从高到低排序,得到一个排序索引列表 I。
然后找到累积概率超过阈值 p 的最小专家集。
动态路由机制存在一个风险:它可能会为所有专家分配较低的置信度,从而激活更多专家以实现更好的性能。假设 P 是一个均匀分布,将超参数 p 设置为 0.5,那么模型将激活多达一半的专家。这违背了 MoE 框架的初衷:高效地扩展模型。
为了防止动态路由用过多的参数作弊并失去选择性选择专家的能力,对 P 引入了一个约束。希望路由机制选择一小组必要的专家,因此,目标是最小化分布 P 熵,确保每个 token 都能关注尽可能不具体的专家。
动态损失
旨在鼓励路由机制选择最小的必要专家集。