专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  大模型的智能从哪里来? ·  昨天  
数据派THU  ·  MOIRAI-MOE: ... ·  2 天前  
51好读  ›  专栏  ›  数据派THU

MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型

数据派THU  · 公众号  · 大数据  · 2025-03-12 17:00

正文

图片
来源:Deephub IMBA
本文约3300字,建议阅读6分钟
本文重点探讨其最新升级版本 MOIRAI-MOE。


作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。


本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE 。该版本通过引入 混合专家模型(Mixture of Experts, MOE) 机制,在模型性能方面实现了显著提升。这一改进也与大语言模型模型采用的多专家机制形成了技术共鸣。


本文将系统性地分析以下核心内容:

  • MOIRAI-MOE 的技术架构与实现机制

  • MOIRAI 与 MOIRAI-MOE 的架构差异对比

  • 混合专家模型在提升预测准确率方面的作用机理

  • MOE 架构对解决时间序列建模中频率变化问题的技术贡献


MOIRAI 与 MOIRAI-MOE 的技术对比


MOIRAI-MOE 采用纯解码器架构,通过混合专家模型实现了频率无关的通用预测能力,同时显著降低了模型参数规模。


图片

图 1 展示了 MOIRAI 原始版本与 MOIRAI-MOE 的架构对比


下面详细分析这些技术差异:


纯解码器架构的优化


MOIRAI-MOE 摒弃了 MOIRAI 最初采用的掩码编码器架构,转而采用纯解码器配置。


纯解码器的 Transformer 架构具有以下技术优势:

  • 支持高效的并行训练

  • 能够在单次更新中处理不同上下文长度的多个训练样本


虽然在推理方面,编码器架构通过单次前向传播即可完成多步预测,而纯解码器 Transformer 和 RNN 需要采用自回归方式逐步生成预测结果,但对 MOIRAI-MOE 而言,这一点并不构成性能瓶颈。这得益于其采用的 稀疏混合专家模型(Sparse MOE)架构 ,该架构通过激活较少的参数,在推理效率上优于密集参数的 MOIRAI 模型。


在一项针对 MOIRAI、MOIRAI-MOE 和 Chronos 的对照实验中,在相同上下文长度条件下,MOIRAI-MOE 展现出更优的推理速度:


图片
图 2: 不同模型变体的性能对比。括号内数值表示参数规模,对 MOIRAI-MOE 而言分别代表实际激活参数量和总参数量。


实验数据显示,尽管 MOIRAI-MOE-Base 的总参数量是 MOIRAI-Large 的 3 倍,但由于 MOE 机制的作用,其实际仅激活 86M 参数,使得运行时间明显优于 MOIRAI-Large (370s vs. 537s)。


从技术实现角度看,MOIRAI-MOE 使用稀疏混合专家层替代了传统的全连接层。该层包含一个门控函数,用于计算路由分数并将输入分配给得分最高的 K 个专家。


MOIRAI-MOE 总共部署了 32 个专家,每个输入会激活其中得分最高的 2 个(TopK=2):


图片


方程 1: 传统 MOE 模型中常用的基础门控函数


MOIRAI-MOE 对门控机制进行了创新性改进,用更精细的机制替代了简单的线性投影 W:

  • 研究团队首先对预训练的 MOIRAI 模型的自注意力权重进行 K-Means 聚类,其中聚类数 M 等于专家总数

  • 获得 M 个聚类中心点,每个专家对应一个聚类中心

  • 在训练过程中,MOIRAI-MOE 不是从零开始学习门控函数(即方程 1 中的线性投影 W),而是基于输入与专家对应聚类中心的欧氏距离进行专家分配


由此,门控方程优化为:


图片


方程 2: MOIRAI-MOE 采用的基于 token 聚类的改进门控函数


其中 x 表示 MOE 层的输入向量,C 表示聚类中心集合。


基准测试结果表明,这种基于 token 聚类的策略具有显著优势:


图片
图 3: 两种关键设计的实验对比: (左)编码器与解码器架构在 10 万训练步后的 MAE 对比;(右)token 聚类策略的性能优势。


研究发现,聚类中心能够有效捕获结构化数据模式,从而提升路由准确性和整体性能。 此外图 6** 也验证了纯解码器架构相比 MOIRAI 原始编码器架构的优势。


需要注意的是,编码器架构更适合整合 未来已知变量, 这是原始 MOIRAI 的一个重要特性。目前尚需通过代码验证纯解码器架构是否能够保持这一功能。不过 MOIRAI-MOE 仍然保留了使用历史协变量的能力。


MOE 层对多 Patch 层的替代优化


原始 MOIRAI 模型采用多 Patch 层设计,通过学习不同粒度的特定 patch 尺寸来处理多频率问题。


对任何时间序列基础模型而言,多频率处理都是一个关键挑战。MOIRAI 通过多 Patch 层解决这一问题,该层根据用户指定的数据集频率将输入映射到不同的 patch 长度。


图片

图 4: MOIRAI 的架构示意图,采用 64 大小的 patch 处理小时或分钟级数据。


之前的分析也指出,多 Patch 层在某种程度上模拟了混合专家系统的行为。现在 MOIRAI-MOE 直接使用单一投影层代替多 Patch 层,并利用 MOE 机制处理不同频率的数据。


为什么原始的多 Patch 层方案存在局限性?混合专家模型为什么能更好地处理频率问题?


这是因为时间序列数据通常包含多个子频率。此外,不同频率的序列可能共享相似模式,而相同频率的序列却可能表现迥异。因此,简单地通过频率标记来区分数据并不总是准确的:


图片
图 5: 不同频率的时间序列可能表现出相似模式,而同频率序列可能有显著差异。


混合专家模型 通过以下方式优化了 MOIRAI:


  1. 无需用户手动指定频率参数

  2. 采用数据驱动的路由机制,将时间序列自动分配给最适合的专家模型


通过引入 混合专家模型 ,MOIRAI-MOE 摆脱了人工设定的频率启发式方法,实现了自动化的专家分配机制。


事实上,MOIRAI-MOE 专门为时间序列预测设计了增强型的 MOE 机制,这将在下一节详细讨论。


3. 注意力机制的改进


基于纯解码器架构,MOIRAI-MOE 将任意变量注意力机制替换为类 GPT 的因果自注意力机制。


目前尚无法确认新模型是否保留了类似 ROPE、SwiGLU 激活函数或 RMSNorm 等 LLM 特性,这些细节需要等待代码发布后验证。


但模型的输出形式保持不变:MOIRAI-MOE 不直接预测时间点值,而是预测混合分布的参数,再通过采样生成预测结果。训练目标仍然是最小化混合分布的负对数似然。


因此,MOIRAI-MOE 本质上是一个 概率模型 。可以通过 保形分位数回归 等技术增强其不确定性量化能力,实现预测区间的生成(因为模型可以输出分位数预测)。


MOIRAI-MOE 架构详解


研究提出了两种 MOIRAI-MOE 变体,如图 6所示:


图片






请到「今天看啥」查看全文