专栏名称: 深度学习与图网络

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

NeurIPS 2024 | 基于自适应多尺度超图Transfromer的时间序列预测方法

深度学习与图网络 · 公众号 · 科技自媒体 · 2024-12-12 11:05

主要观点总结

本文介绍了浙大研究团队在最新研究中提出的基于自适应多尺度超图Transformer（Ada-MSHyper）的时间序列预测方法。文章详细描述了该方法的背景、关键问题、模型方法以及实验分析。该方法通过设计自适应超图学习模块和多尺度交互模块，解决了语义信息稀疏性和时间变化纠缠的问题，并在多个真实时间序列数据集上取得了显著效果。

关键观点总结

关键观点1: 研究背景

时间序列预测在众多领域有广泛应用，如能源消耗规划、交通与经济预测、疾病传播预测等。观测到的时间序列通常表现出复杂多样的多尺度时间模式，使得预测具有挑战性。

关键观点2: 关键问题

单个时间点的语义信息较少，利用attention建模pair-wise交互会造成信息利用瓶颈；多种时序变化深度纠缠，为建模多尺度时间模式交互带来挑战。

关键观点3: 解决方法

提出基于自适应多尺度超图Transformer（Ada-MSHyper）的框架用于时间序列预测，通过设计自适应超图学习模块和多尺度交互模块，解决上述问题。

关键观点4: 模型特点

引入节点和超边约束机制，聚集具有相似语义信息的节点，并区分每个尺度内的时序变化；分别处理尺度内交互和尺度间交互；在多个真实时间序列数据集上取得显著效果。

关键观点5: 实验结果

在11个真实时间序列数据集上与15个基线方法进行比较，显示Ada-MSHyper在多个预测任务上取得显著效果；消融实验验证了自适应超图学习模块和节点超边约束机制的有效性；可视化分析展示了模型在聚集具有相似语义信息节点和解决时间变化纠缠问题上的有效性。

正文

在现实世界中，观测到的时间序列通常表现出复杂多样的多尺度时间模式。尽管基于 Transformer 的方法在多尺度时间模式交互建模中取得了显著成功，但是两个关键问题限制了其在时间序列预测中的进一步发展：（1）单个的时间点包含的语义信息较少，利用 attention 建模 pair-wise 交互会造成信息利用瓶颈。（2）时间模式中存在多种固有的时序变化（如上升，下降或波动），这些时序变化相互纠缠，为建模多尺度时间模式交互带来了较大的挑战。

针对上述问题，本文介绍一篇来自浙大研究团队的最新相关研究工作，该工作目前已被 NeurIPS 2024 接收。 作者提出了一种基于自适应多尺度超图 Transformer 的框架（Ada-MSHyper），用于时间序列预测。 具体而言，作者通过设计自适应超图学习模块，为建模 group-wise 交互提供基础。然后通过设计多尺度交互模块，赋予 Transformer 建模不同尺度时间模式间 group-wise 交互的能力。此外作者还引入了节点和超边约束机制，用于聚集具有相似语义信息的节点，并区分每个尺度内的时序变化。在11个真实世界数据集上的结果显示，Ada-MSHyper 达到了最先进（SOTA）的性能。

【论文标题】

Ada-MSHyper: Adaptive Multi-Scale Hypergraph Transformer for Time Series Forecasting

【论文地址】

https://arxiv.org/pdf/2410.23992

论文背景

时间序列预测在众多领域中展现了其广泛的应用价值，例如能源消耗规划、交通与经济预测，以及疾病传播预测等。在这些实际应用中，观测到的时间序列通常表现出复杂多样的多尺度时间模式。例如，由于周期性的人类活动，交通流量和电力消耗会呈现出显著的天模式（如早高峰或晚高峰）、周模式（如工作日或周末）以及月模式（如夏季或冬季）。

得益于建模 pair-wise 交互以及提取序列多尺度表示的能力，Transformer 被广泛应用到时间序列预测中。虽然基于 Transformer 的方法在多尺度时间模式交互建模中取得了显著成功，但是两个关键问题限制了 Transformer 在时间序列预测中的进一步发展：

语义信息稀疏性： 不同于自然语言处理和计算机视觉，时间序列中单个的时间点包含较少的语义信息。为了解决语义信息稀疏性的问题，之前的方法通过划分 Patch 或者预定义超图结构的方法增强局部信息并建模 group-wise 交互，但是简单划分 Patch 或者预定义的超图结构容易引入噪声干扰，且难以捕获隐式交互。
时间变化纠缠： 由于真实世界时间序列的复杂性和非平稳性，观察到的时间序列模式通常包含大量固有的变化（如上升，下降或波动），这些变化可能相互混合和重叠。特别是在不同尺度上存在不同的时间模式时，多种时序变化深度纠缠，为时间序列预测带来了极大的挑战。

模型方法

为了解决上述问题，作者提出了一种基于自适应多尺度超图 Transformer 的框架（Ada-MSHyper）， Ada-MSHyper 的核心在于建模不同尺度时间模式间 group-wise 交互 。Ada-MSHyper 首先将输入序列映射为多尺度特征表示，然后通过将多尺度特征表示视为节点，引入了一种自适应多尺度结构，以发掘不同尺度下节点间丰富而隐含的 group-wise 交互。Ada-MSHyper 主要由四个主要部分组成：多尺度特征提取模块、自适应超图学习模块、多尺度交互模块和多尺度融合模块。

图1：Ada-MSHyper的整体框架图

01 多尺度特征提取模块（MFE）

多尺度特征提取（Multi-Scale Feature Extraction，MFE）模块用来将原始输入序列映射为多尺度特征表示，这种多尺度结构可以使模型在不同尺的上观察时间序列表示。具体来说，小尺度可以反映局部变化模式（如天模式），而大尺度可以反应全局变化模式（如周模式和月模式）。

MFE 模块由多个映射函数组成，每个映射函数将前一个尺度的子序列作为输入，并生成更大尺度的子序列作为输出，映射函数可以由1D卷积或 average pooling 实现。

02 自适应超图学习模块（AHL）

自适应超图学习（Adaptive Hypergraph Learning， AHL）模块通过学习点边关联矩阵来捕获每个尺度下节点间group-wise的交互。但是，作者认为纯数据驱动的学习方式存在两大局限：（1）难以有效聚集具有相似语义信息的节点（2）难以有效区分每个尺度内的时序变化。为了解决上述问题，作者在自适应超图学习的过程中引入了节点和超边约束（Node and Hyperedge Constraint，NHC）机制，其具体结构如下：

图2：节点和超边约束机制示意图

如图2（a）所示，在每个尺度内，NHC机制首先根据点边关联矩阵，通过聚合超边所连接的节点特征得到超边特征表示。

如图2（b）所示，节点约束损失通过计算超边特征表示和节点特征表示之间的差异得到。

如图2（c）所示，超边约束损失通过计算超边特征表示间的欧式距离和余弦相似性得到。通过最小化超边约束损失和节点约束损失，NHC机制可以聚集具有相似语义信息的节点并区分每个尺度内的时序变化。

03 多尺度交互模块

在得到超图结构以后，为了建模不同尺度上的时间模式交互，一种直观的方法是混合不同尺度的节点特征表示。然而，作者认为，尺度内交互和尺度间交互反应了时间模式交互的不同方面，其中尺度内交互主要描述具有相似语义信息的节点间细粒度的交互，而尺度间交互则更强调宏观变化交互。

因此，作者提出了多尺度交互模块，分别处理尺度内交互和尺度间交互。具体而言，尺度内交互模块通过超图卷积 attention 计算每个尺度内具有相似语义信息的节点特征间 group-wise 交互，尺度间交互模块通过 attention 计算不同尺度间超边特征间的交互。

04 多尺度融合模块

在通过多尺度交互模块得到更新后的节点特征和超边特征后，多尺度融合模块通过拼接操作将这些特征拼接起来，并送入线性层得到最终输出。

实验分析

01 实验效果

Ada-MSHyper 在11个真实时间序列数据集上和15个基线方法进行了比较。实验结果显示，Ada-MSHyper 在多个预测任务上都取得了 SOTA 性能，对于长时，短时和超长时时间序列预测，Ada-MSHyper 的均方误差（MSE）相比于最优基线分别降低了 4.56%，10.38% 和 4.97%。

表1：长时时间序列预测结果

表2：短时时间序列预测结果