EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

机器学习研究组订阅 · 公众号 · AI · 2024-12-01 17:42

正文

在智能制造和智慧城市的快速发展中，依赖物联网（IoT）和人工智能（AI）的多变量时间序列预测已成为关键任务。广泛部署的传感器网络实时采集多变量数据，为工业设备监控、资源调度、预测性维护等任务提供了数据支持。然而，如何高效、准确地预测这些复杂的多变量时间序列仍是重大挑战。

近日，来自南开大学、ENN Group 和澳大利亚格里菲斯大学的研究团队深入探讨了多变量时间序列高效预测的核心问题。传统的时间序列预测模型存在各自的局限性：Transformer 类模型擅长捕捉长时间依赖，但计算复杂度较高；基于卷积的模型（如时间卷积网络，TCN）计算高效，但感受野有限，难以捕捉长时间模式；而线性模型虽然高效，但难以处理复杂的非线性依赖。因此，研究的关键在于设计一种能兼顾预测准确性与计算效率的模型，尤其适用于资源受限的场景。

【论文标题】

EffiCANet: Efficient Time Series Forecasting with Convolutional Attention

【论文链接】

https://arxiv.org/abs/2411.04669

研究动机

时间序列数据中变量之间的关系往往复杂且动态，可能受测量误差、异步效应及滞后关系等影响。例如，气候监测中的传感器数据可能不同步，导致系统误判。类似情况也存在于供应链管理中，如库存变化滞后于需求变化。如果忽视这些变量间的复杂关系，预测的准确性将受到影响。

图1: 多变量时间序列中的异步和滞后关系

尽管已有的方法在时间依赖与变量间关系建模上有所进展，但仍存在两大挑战：一是如何平衡计算效率与预测准确性，二是如何有效捕捉多变量间的复杂动态关系。主流的 Transformer 架构在捕捉长时间依赖时计算代价较高，卷积模型虽具备计算效率优势，但感受野有限，而扩展卷积核虽能解决此问题，但计算成本上升。第二个挑战在于应对多变量间的时变关系，尤其在变量异步或滞后效应明显的情况下。为此，需要一种能够动态捕捉这些复杂关系的模型。

基于上述挑战，本文提出了 EffiCANet，一种高效的卷积注意力网络，旨在捕获短期与长期依赖的同时，动态建模变量间的复杂关系。EffiCANet 集成了三个关键组件：时间大核分解卷积（Temporal Large-kernel Decomposed Convolution，TLDC）模块，用于高效捕捉长短期时间依赖；变量间组卷积（Inter-Variable Group Convolution，IVGC）模块，捕捉变量间的动态关系；以及全局时间变量注意力（Global Temporal-Variable Attention，GTVA）机制，增强对关键时间点和变量的关注。通过这些创新设计，EffiCANet不仅提升了预测准确性，还显著降低了计算开销，特别适合需要低延迟预测的场景。

模型方法

EffiCANet 的核心由多个堆叠的块组成，每个块都包含三个主要部分：TLDC、IVGC、GTVA。模型首先通过 patching 和 embedding 层将输入的原始多变量时间序列转换为适合处理的特征空间。然后，数据经过层堆叠的块，逐步优化特征表示。在每个块内，特征表示通过与其输入进行逐元素相乘来进一步增强，从而捕捉不同的时间和变量模式。最终，模型通过预测头输出时间序列的预测结果。

图2: EffiCANet 模型架构

01、时间大核分解卷积模块（TLDC）

TLDC 模块旨在通过分解大卷积核来高效捕捉短期和长期的时间依赖性。直接使用大卷积核计算开销高，TLDC 通过两步分层卷积的方式来简化这种计算：首先通过深度卷积（Depth-Wise Convolution, DW Conv）捕捉局部的时间依赖性，接着通过深度扩张卷积（Depth-Wise Dilated Convolution, DW-D Conv）扩大感受野，从而捕捉长距离的时间关系。两者的结果进行逐元素相加，既能高效处理局部依赖，又能捕捉全局信息，大大降低了计算复杂度。

图3: TLDC 模块架构

02、变量间组卷积模块（IVGC）

IVGC 模块专注于建模多变量时间序列中变量之间的复杂动态关系。为了捕获时间序列数据中的局部相关性，IVGC 将输入数据划分为固定大小的时间窗口，对每个窗口内的变量进行组卷积操作。这种方式通过在每个时间段内共享卷积核，能够有效捕获局部的变量关系，特别适用于变量存在时序不同步或滞后的情况。

为了增强对不同时间段间关系的捕捉，IVGC 采用了两种不同的 padding 策略：标准 padding 和首尾 padding。这两种策略分别在时间维度上对数据进行填充，以生成稍有偏移的时间窗口。通过对这两种策略的结果进行对齐和合并，IVGC 能够覆盖更丰富的时间变化模式，提升对变量间动态变化的建模能力。最终，IVGC 通过进一步的卷积处理，生成更为集成的变量关系表示。

图4: IVGC 模块架构

03、全局时间-变量注意力模块（GTVA）

GTVA 模块基于 Squeeze-and-Excitation (SE) 原理，分别对时间和变量维度引入注意力机制，进一步增强模型对多变量时间序列中长时依赖和复杂变量交互的捕捉能力。该模块通过独立生成时间注意力权重和变量注意力权重，分别强调时序信息和变量间的相关性。

首先，时间注意力通过全局平均池化操作，从变量维度上提取全局时间特征，并通过一个两层全连接网络生成时间注意力权重，动态调节每个时间步的特征。类似地，变量注意力在时间维度上进行池化，提取变量间的依赖关系，并通过同样的网络结构生成变量注意力权重。最后，这两种注意力权重与卷积输出相乘，实现对时序和变量信息的联合调整。

图5: GTVA 模块架构

实验结果

主结果

EffiCANet 在9个公开数据集上进行了评估，包括 ETTh1、ILI、Electricity 等。实验结果显示，在72个测试场景中，EffiCANet 52次获得第一，13次获得第二。在 ETTh2 数据集上，EffiCANet 的均方误差（MSE）比次优模型降低4.7%，在 ILI 数据集上，MSE 降低了10.02%。

图6: EffiCANet 主结果

模型效率

EffiCANet 在计算复杂度、参数量和预测性能方面综合表现优异。与 Transformer 类模型（如 PatchTST）和 MLP 类模型（如 DLinear）相比，EffiCANet 在保持低计算成本的同时，仍具备领先的预测准确性。

图7: EffiCANet 模型效率对比

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

正文

请到「今天看啥」查看全文