本文重点探讨其最新升级版本 MOIRAI-MOE。
作为早期时间序列基础模型之一,Salesforce 开发的
MOIRAI
凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。
本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本
MOIRAI-MOE
。该版本通过引入
混合专家模型(Mixture of Experts, MOE)
机制,在模型性能方面实现了显著提升。这一改进也与大语言模型模型采用的多专家机制形成了技术共鸣。
本文将系统性地分析以下核心内容:
MOIRAI 与 MOIRAI-MOE 的技术对比
MOIRAI-MOE 采用纯解码器架构,通过混合专家模型实现了频率无关的通用预测能力,同时显著降低了模型参数规模。
图 1 展示了 MOIRAI 原始版本与 MOIRAI-MOE 的架构对比
下面详细分析这些技术差异:
纯解码器架构的优化
MOIRAI-MOE 摒弃了 MOIRAI 最初采用的掩码编码器架构,转而采用纯解码器配置。
纯解码器的 Transformer 架构具有以下技术优势:
-
支持高效的并行训练
-
能够在单次更新中处理不同上下文长度的多个训练样本
虽然在推理方面,编码器架构通过单次前向传播即可完成多步预测,而纯解码器 Transformer 和 RNN 需要采用自回归方式逐步生成预测结果,但对 MOIRAI-MOE 而言,这一点并不构成性能瓶颈。这得益于其采用的
稀疏混合专家模型(Sparse MOE)架构
,该架构通过激活较少的参数,在推理效率上优于密集参数的 MOIRAI 模型。
在一项针对 MOIRAI、MOIRAI-MOE 和 Chronos 的对照实验中,在相同上下文长度条件下,MOIRAI-MOE 展现出更优的推理速度:
图 2: 不同模型变体的性能对比。括号内数值表示参数规模,对 MOIRAI-MOE 而言分别代表实际激活参数量和总参数量。
实验数据显示,尽管 MOIRAI-MOE-Base 的总参数量是 MOIRAI-Large 的 3 倍,但由于 MOE 机制的作用,其实际仅激活 86M 参数,使得运行时间明显优于 MOIRAI-Large (370s vs. 537s)。
从技术实现角度看,MOIRAI-MOE 使用稀疏混合专家层替代了传统的全连接层。该层包含一个门控函数,用于计算路由分数并将输入分配给得分最高的 K 个专家。
MOIRAI-MOE 总共部署了 32 个专家,每个输入会激活其中得分最高的 2 个(TopK=2):
方程 1: 传统 MOE 模型中常用的基础门控函数
MOIRAI-MOE 对门控机制进行了创新性改进,用更精细的机制替代了简单的线性投影 W:
-
研究团队首先对预训练的 MOIRAI 模型的自注意力权重进行 K-Means 聚类,其中聚类数 M 等于专家总数
-
获得 M 个聚类中心点,每个专家对应一个聚类中心
-
在训练过程中,MOIRAI-MOE 不是从零开始学习门控函数(即方程 1 中的线性投影 W),而是基于输入与专家对应聚类中心的欧氏距离进行专家分配
由此,门控方程优化为:
方程 2: MOIRAI-MOE 采用的基于 token 聚类的改进门控函数
其中 x 表示 MOE 层的输入向量,C 表示聚类中心集合。
基准测试结果表明,这种基于 token 聚类的策略具有显著优势:
图 3: 两种关键设计的实验对比: (左)编码器与解码器架构在 10 万训练步后的 MAE
对比;(右)token 聚类策略的性能优势。
研究发现,聚类中心能够有效捕获结构化数据模式,从而提升路由准确性和整体性能。
此外图 6** 也验证了纯解码器架构相比 MOIRAI 原始编码器架构的优势。
需要注意的是,编码器架构更适合整合
未来已知变量,
这是原始 MOIRAI 的一个重要特性。目前尚需通过代码验证纯解码器架构是否能够保持这一功能。不过 MOIRAI-MOE 仍然保留了使用历史协变量的能力。
MOE 层对多 Patch 层的替代优化
原始 MOIRAI 模型采用多 Patch 层设计,通过学习不同粒度的特定 patch 尺寸来处理多频率问题。
对任何时间序列基础模型而言,多频率处理都是一个关键挑战。MOIRAI 通过多 Patch 层解决这一问题,该层根据用户指定的数据集频率将输入映射到不同的 patch 长度。
图 4: MOIRAI 的架构示意图,采用 64 大小的 patch 处理小时或分钟级数据。
之前的分析也指出,多 Patch 层在某种程度上模拟了混合专家系统的行为。现在 MOIRAI-MOE 直接使用单一投影层代替多 Patch 层,并利用 MOE 机制处理不同频率的数据。
为什么原始的多 Patch 层方案存在局限性?混合专家模型为什么能更好地处理频率问题?
这是因为时间序列数据通常包含多个子频率。此外,不同频率的序列可能共享相似模式,而相同频率的序列却可能表现迥异。因此,简单地通过频率标记来区分数据并不总是准确的:
图 5: 不同频率的时间序列可能表现出相似模式,而同频率序列可能有显著差异。
混合专家模型
通过以下方式优化了 MOIRAI:
-
无需用户手动指定频率参数
-
采用数据驱动的路由机制,将时间序列自动分配给最适合的专家模型
通过引入
混合专家模型
,MOIRAI-MOE 摆脱了人工设定的频率启发式方法,实现了自动化的专家分配机制。
事实上,MOIRAI-MOE 专门为时间序列预测设计了增强型的 MOE 机制,这将在下一节详细讨论。
3. 注意力机制的改进
基于纯解码器架构,MOIRAI-MOE 将任意变量注意力机制替换为类 GPT 的因果自注意力机制。
目前尚无法确认新模型是否保留了类似
ROPE、SwiGLU
激活函数或
RMSNorm
等 LLM 特性,这些细节需要等待代码发布后验证。
但模型的输出形式保持不变:MOIRAI-MOE 不直接预测时间点值,而是预测混合分布的参数,再通过采样生成预测结果。训练目标仍然是最小化混合分布的负对数似然。
因此,MOIRAI-MOE 本质上是一个
概率模型
。可以通过
保形分位数回归
等技术增强其不确定性量化能力,实现预测区间的生成(因为模型可以输出分位数预测)。
MOIRAI-MOE 架构详解
研究提出了两种 MOIRAI-MOE 变体,如图 6所示: