专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

数据派THU · 公众号 · 大数据 · 2024-12-01 17:00

正文

请到「今天看啥」查看全文

来源：时序人
本文约2400字，建议阅读5分钟
EffiCANet 是一种专为多变量时间序列预测设计的高效模型。

在智能制造和智慧城市的快速发展中，依赖物联网（IoT）和人工智能（AI）的多变量时间序列预测已成为关键任务。广泛部署的传感器网络实时采集多变量数据，为工业设备监控、资源调度、预测性维护等任务提供了数据支持。然而，如何高效、准确地预测这些复杂的多变量时间序列仍是重大挑战。

近日，来自 南开大学、ENN Group 和澳大利亚格里菲斯大学 的研究团队深入探讨了多变量时间序列高效预测的核心问题。传统的时间序列预测模型存在各自的局限性：Transformer 类模型擅长捕捉长时间依赖，但计算复杂度较高；基于卷积的模型（如时间卷积网络，TCN）计算高效，但感受野有限，难以捕捉长时间模式；而线性模型虽然高效，但难以处理复杂的非线性依赖。因此，研究的关键在于设计一种能兼顾预测准确性与计算效率的模型，尤其适用于资源受限的场景。

【论文标题】

EffiCANet: Efficient Time Series Forecasting with Convolutional Attention

【论文链接】

https://arxiv.org/abs/2411.04669

研究动机

时间序列数据中变量之间的关系往往复杂且动态，可能受测量误差、异步效应及滞后关系等影响。例如，气候监测中的传感器数据可能不同步，导致系统误判。类似情况也存在于供应链管理中，如库存变化滞后于需求变化。如果忽视这些变量间的复杂关系，预测的准确性将受到影响。

图1: 多变量时间序列中的异步和滞后关系

尽管已有的方法在时间依赖与变量间关系建模上有所进展，但仍存在两大挑战：一是如何平衡计算效率与预测准确性，二是如何有效捕捉多变量间的复杂动态关系。主流的 Transformer 架构在捕捉长时间依赖时计算代价较高，卷积模型虽具备计算效率优势，但感受野有限，而扩展卷积核虽能解决此问题，但计算成本上升。第二个挑战在于应对多变量间的时变关系，尤其在变量异步或滞后效应明显的情况下。为此，需要一种能够动态捕捉这些复杂关系的模型。

基于上述挑战，本文提出了 EffiCANet，一种高效的卷积注意力网络，旨在捕获短期与长期依赖的同时，动态建模变量间的复杂关系。EffiCANet 集成了三个关键组件：时间大核分解卷积（Temporal Large-kernel Decomposed Convolution，TLDC）模块，用于高效捕捉长短期时间依赖；变量间组卷积（Inter-Variable Group Convolution，IVGC）模块，捕捉变量间的动态关系；以及全局时间变量注意力（Global Temporal-Variable Attention，GTVA）机制，增强对关键时间点和变量的关注。通过这些创新设计，EffiCANet不仅提升了预测准确性，还显著降低了计算开销，特别适合需要低延迟预测的场景。

模型方法

EffiCANet 的核心由多个堆叠的块组成，每个块都包含三个主要部分：TLDC、IVGC、GTVA。模型首先通过 patching 和 embedding 层将输入的原始多变量时间序列转换为适合处理的特征空间。然后，数据经过层堆叠的块，逐步优化特征表示。在每个块内，特征表示通过与其输入进行逐元素相乘来进一步增强，从而捕捉不同的时间和变量模式。最终，模型通过预测头输出时间序列的预测结果。

图2: EffiCANet 模型架构

01、时间大核分解卷积模块（TLDC）

TLDC 模块旨在通过分解大卷积核来高效捕捉短期和长期的时间依赖性。直接使用大卷积核计算开销高，TLDC 通过两步分层卷积的方式来简化这种计算：首先通过深度卷积（Depth-Wise Convolution, DW Conv）捕捉局部的时间依赖性，接着通过深度扩张卷积（Depth-Wise Dilated Convolution, DW-D Conv）扩大感受野，从而捕捉长距离的时间关系。两者的结果进行逐元素相加，既能高效处理局部依赖，又能捕捉全局信息，大大降低了计算复杂度。

图3: TLDC 模块架构

02、变量间组卷积模块（IVGC）

IVGC 模块专注于建模多变量时间序列中变量之间的复杂动态关系。为了捕获时间序列数据中的局部相关性，IVGC 将输入数据划分为固定大小的时间窗口，对每个窗口内的变量进行组卷积操作。这种方式通过在每个时间段内共享卷积核，能够有效捕获局部的变量关系，特别适用于变量存在时序不同步或滞后的情况。

为了增强对不同时间段间关系的捕捉，IVGC 采用了两种不同的 padding 策略：标准 padding 和首尾 padding。这两种策略分别在时间维度上对数据进行填充，以生成稍有偏移的时间窗口。通过对这两种策略的结果进行对齐和合并，IVGC 能够覆盖更丰富的时间变化模式，提升对变量间动态变化的建模能力。最终，IVGC 通过进一步的卷积处理，生成更为集成的变量关系表示。

图4: IVGC 模块架构

03、全局时间-变量注意力模块（GTVA）

GTVA 模块基于 Squeeze-and-Excitation (SE) 原理，分别对时间和变量维度引入注意力机制，进一步增强模型对多变量时间序列中长时依赖和复杂变量交互的捕捉能力。该模块通过独立生成时间注意力权重和变量注意力权重，分别强调时序信息和变量间的相关性。

首先，时间注意力通过全局平均池化操作，从变量维度上提取全局时间特征，并通过一个两层全连接网络生成时间注意力权重，动态调节每个时间步的特征。类似地，变量注意力在时间维度上进行池化，提取变量间的依赖关系，并通过同样的网络结构生成变量注意力权重。最后，这两种注意力权重与卷积输出相乘，实现对时序和变量信息的联合调整。

图5: GTVA 模块架构

实验结果

主结果

EffiCANet 在9个公开数据集上进行了评估，包括 ETTh1、ILI、Electricity 等。实验结果显示，在72个测试场景中，EffiCANet 52次获得第一，13次获得第二。在 ETTh2 数据集上，EffiCANet 的均方误差（MSE）比次优模型降低4.7%，在 ILI 数据集上，MSE 降低了10.02%。

图6: EffiCANet 主结果

模型效率

EffiCANet 在计算复杂度、参数量和预测性能方面综合表现优异。与 Transformer 类模型（如 PatchTST）和 MLP 类模型（如 DLinear）相比，EffiCANet 在保持低计算成本的同时，仍具备领先的预测准确性。

图7: EffiCANet 模型效率对比

消融实验

消融实验验证了各模块的贡献。结果显示，去除时间维度或变量维度的模块会显著降低性能。相比传统大核卷积，TLDC 模块在保持精度的同时，显著减少了计算成本。

图8: 消融实验结果

可视化分析

EffiCANet 的 IVGC 模块在 Weather 数据集上的卷积权重可视化展示了变量间的动态依赖关系，显示了模型捕捉动态变量相互作用的能力。

图9: 变量依赖关系可视化

总结

EffiCANet 是一种专为多变量时间序列预测设计的高效模型。它通过三个核心模块有效捕捉时间和变量间的依赖关系。TLDC 模块通过大核分解，平衡了短期和长期依赖的建模，适用于长序列数据。IVGC 模块则专注于变量间动态关系，灵活捕捉时序中的关键依赖。GTVA 模块进一步提升了模型的准确性，通过同时关注时间和变量维度，提供更精准的上下文理解。未来工作将专注于提升模型在非平稳数据上的表现，并进一步增强模型的可解释性，扩展其在复杂系统中的应用。

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号： 数据派THU

今日头条： 数据派THU