▲ 图1 主流依赖建模方法问题
深度学习在多变量时间序列预测领域取得了显著进展。现有方法从依赖建模视角,大致可以分为通道独立(CI)和通道依赖(CD)两类。其中,通道独立方法只利用每个通道各自的历史值进行预测,相反,通道依赖方法则融合全部通道间关系。
然而,我们观察到,来自不同领域的时序数据往往在潜在的分布和特征上表现出显著的差异,例如在气候相关数据中,通道间往往存在天然的物理学依赖,而在用户用电数据中,不同用户的使用习惯可能迥然不同,几乎没有依赖关系。 这说明通道独立性假设和对盲目通道间依赖关系的建模,均存在固有的局限性。
为了解决这个问题,现有一些工作设计了通道聚类(CC)策略,根据通道相似性划分出不同的簇,动态地为簇内和簇间分配不同的依赖建模策略,比如 CCM [1] 在簇内使用通道依赖策略,簇间使用通道独立策略,DUET [2] 则在通道维度和时间维度上双重聚类扩展这一想法。
然而,粗粒度地通道聚类方法往往利用全部时间点数据进行聚类,无法针对特定的时间段灵活地选择适当的依赖建模策略。
如图 1 所示,我们选取了电力数据集中3个通道数据,通道间复杂的依赖关系会随时间推移而演变,被聚类为相关性强的通道在某些时刻会出现截然相反的波动,而被聚类为相关性弱的通道在某些时刻也会表现出一致性。这些限制更加强调了,我们需要更动态和灵活的方法从而捕获时变的依赖关系。
为了满足这个目标,清华大学、同济大学、复旦大学、格里菲斯大学等单位,提出了 TimeFilter ,它通过 细粒度、自适应且鲁棒地划分和过滤依赖关系 ,动态地为各个领域的时序数据定制设计依赖建模策略,提升时序表征能力。
论文标题:
TimeFilter: Patch-Specific Spatial-Temporal Graph Filtration for Time Series Forecasting
1. 清华深圳国际研究生院 2.同济大学 3.复旦大学 4.深圳大学 5.格里菲斯大学
https://arxiv.org/pdf/2501.13041
https://github.com/TROUBADOUR000/TimeFilter
近年来,基于深度学习地时序预测方法展现出了卓越的性能,他们往往通过神经网络拟合时序变量的依赖关系。
在图2中,我们可视化了通道独立(CI)、通道依赖(CD)和通道聚类(CC)三种策略在补丁(Patch)级别的依赖关系图,并进行了依赖划分,其中同一通道不同时间戳下的补丁间关系为 时间依赖 (Tempoarl Correlation) ,同一时间戳不同通道内补丁间关系为 空间依赖(Spatial Correlation) ,其余不同时间戳不同通道内补丁间关系为 时空依赖(Spatial-temporal Correlation) 。
通道独立方法,如图 2(a),只保留时间依赖,鲁棒性高而容量低;通道依赖方法,如图 2(b),保留全部类型的依赖关系,鲁棒性低而容量高。为了权衡两者的优点,现有研究设计了通道聚方法,如图 2(d),保留了簇内全部依赖,以及簇间的时间依赖。
然而,这些关系在现实世界的时间序列数据中经常是错复杂地交织在一起的,研究人员和开发者面临着如何选择最有效的依赖关系以表征时序数据内在联系,从而进行精确地预测。以上粗粒度的通道建模方法均难以捕获不同关系随时间的演变。
TimeFilter 为解决这个问题提供了一个从时空图视角的优雅进路。如图 2(c),TimeFilter 从粗粒度通道级的方式转变为细粒度补丁级的新范式,并设计了自适应且鲁棒的过滤机制,为差异化的时序数据保留所需的依赖类型,消除无关的依赖关系,从而大大增强泛化能力和预测性能。 ▲ 图2 在 MMLU benchmark 的两个子集上不同拓扑的 token 消耗以及性能比较
TimeFilter
在本文中,我们提出了一种名为 TimeFilter 的时间序列依赖建模新范式,旨在通过数据驱动的混合专家架构动态构建针对特定的时间片段定制化依赖建模。TimeFilter 的整体框架如图 3 所示:
▲ 图3 TimeFilter 的框架图3.1 时空依赖图构建(Spatial-Temporal Construction) 本模块中,我们通过历史输入 构建时空图 ,我们首先将原始输入进行补丁操作: 之后以多头方式计算投影距离并利用 -nearest neighbor 方式建图,其中 为邻接矩阵: 然而整图 具有不可忽略的噪声,为了地址噪声,我们将其以每个补丁为中间,分解为 个 Ego-graph ,之后又按照依赖类型将每个 Ego-graph 分解为三个具有不同依赖类型的子图: 3.2 补丁特定过滤(Patch-Specific Filtration)
基于特定的依赖类型,TimeFilter 设计了3中不同的过滤器公式如下: 之后我们通过路由机制数据驱动地计算每个补丁是否需要不同的依赖类型的置信度 ,其中, 表示标准高斯噪声。 根据计算出的置信度,我们设计了动态专家分配方式来为每个补丁定制需要的依赖关系,其中 为置信度阈值, 为该补丁所需过滤器的个数: 根据前过滤器的个数大的的置信度,我们选取所需的过滤器集合 ,并得到动态专家选择的输出 : 3.3 自适应图学习(Adaptive Graph Learning )
我们将过滤之后的子图重新拼接为整图,其中 为邻居节点集合: 优化目标损失函数包括均方误差损失( ),负载均衡损失( )已经动态分配损失( ),其中 为权重系数:
通过这种方法,TimeFilter 能够自适应地为差异化领域的时序数据设计出细粒度、自适应、鲁棒的依赖建模策略,极大地提升模型泛化能力。
4.1 长期预测
TimeFilter与其它通道独立方法(如 DLinear、PatchTST、PDF 等)、通道依赖方法(如Leddam、CrossGNN、MSGNet 等)、通道聚类方法(CCM、DUET)以及其他权衡通道独立和通道依赖的方法(如 SOFTS 等)在 9 个基准数据集上进行了测评。
固定输入长度为 96 的长期预测结果如图 4 所示,TimeFilter 在被广泛认可的真实数据集上大幅领先于当前最先进模型。从绝对性能角度看,相比次优基线模型 Leddam,均方误差(MSE)降低了 4.48%,平均绝对误差(MAE)降低了 2.23%,另外我们还进行了 Wilcoxon 检测验证了 TimeFilter 显著好于次优基线模型 Leddam。 ▲ 图4 固定 96 输入长期预测的实验评估
根据时序预测的 Scaling Law [3] ,回测长度并非越长越好,对于固定量的训练数据和模型大小,存在一个最优视野。因此,我们探索了固定数据集下的最优回测长度,经过回测长度参数搜索的长期预测结果如图 5 所示,另外,我们在具有 1763 个通道的 Climate 数据集上进行实验,说明了在及其困难的大数据集预测任务上,TimeFilter 仍有较好的表现。
TimeFilter 与同样与多种现有方法在 4 个基准数据集上进行了测评。短时预测任务中数据的时变特性较强,对模型的局部依赖捕捉能力提出了更高要求。图6实验结果表明,TimeFilter 在捕捉短期波动方面表现出色,超越了多种先进模型,尤其在 PEMS08 数据集。
▲ 图6 短期预测的实验评估
4.3 消融实验
相比于 TimeFilter 中基于混合专家框架的过滤机制,我们还额外设计了 6 种过滤机制来验证模型中模块选择的有效性。其中,(1)Top- 表示选取权重最大的 个关系;(2)Random- 表示随机选取 个关系;(3)RegionTop- 表示在三种依赖区域选取各自权重最大的 个关系;(4)RegionThre 表示通过基于学习的方法获得三种依赖区域的阈值,选择权重大于该阈值的关系;(5)C-Filter 表示在通道粒度的过滤不同区域的关系;(6)w/o Filter 表示不进行过滤,即全连接图。 另外,我们还对混合专家框架中的动态路由机制和额外的负载均衡损失函数进行了消融实验。
结果如图7,表面了 TimeFilter 各个模块的有效性。另外根据结果,我们分析各种过滤机制选择,认为不同数据集往往需要不同类型的依赖关系,而不是权重最大的依赖关系,权重大可能是由于伪回归现象引起 [4] 。
▲ 图7 消融实验
4.4 模型分析
如图 8 所示,我们可视化了 TimeFilter 过滤之后在 ETTh2、Weather、Electricity 三个数据集上的依赖图以及路由机制对过滤器的选择分布。结果发现,不同的数据往往需要不同的依赖类型,且通过 TimeFilter 的过滤机制可以选择出需要的依赖,提升了模型在复杂时间序列数据中的表征能力和可解释性。
▲ 图8 TimeFilter 依赖建模可视化分析 我们还比较了在不同回测长度对模型性能的影响,结果如图9所示。实验证明 TimeFilter 可以有效抵制更长输入序列中的噪声,在各个回测长度下效果好于其他先进模型。另外,我们观察到,当超参数补丁长度也随着回测长度等比例增加,TimeFilter 的内存占用几乎不变,有效地解决了超长输入内存爆炸的问题。
最后,我们分析了 TimeFilter 与其他先进模型分别在大小数据集 ETTm2 和 Traffic 上的训练效率、内存占用以及预测表现,结果如图 10 所示。可以观察到,TimeFilter 相比其他非基于纯线性层模型,有更快的训练效率,更小的内存占用,也取得了更好的预测效果,说明了 TimeFilter 的强大表现。
▲ 图10 模型训练效率、内存占用以及预测表现可视化
[1] From Similarity to Superiority: Channel Clustering for Time Series Forecasting [2] DUET:DualClustering Enhanced Multivariate Time Series Forecasting [3] Scaling Law for Time Series Forecasting [4] TimeBridge: Non-Stationarity Matters for Long-Term Time Series Forecasting
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: [email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧