专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

综述 | 利用视觉模型进行时间序列分析

数据派THU · 公众号 · 大数据 · 2025-03-20 17:00

正文

来源：时序人
本文约6000字，建议阅读10+分钟
本综述讨论了视觉模型在时间序列分析方面相较于大语言模型的优势。

本综述讨论了视觉模型在时间序列分析方面相较于大语言模型的优势。它提供了一个全面且深入的概述，包括详细的分类方法，回答了关键的研究问题，即 如何将时间序列编码为图像，以及如何为各种任务对成像后的时间序列进行建模 。此外，还探讨了该框架中涉及的预处理和后处理步骤的挑战，并概述了未来利用视觉模型进一步推进时间序列分析的方向。

【论文标题】

Harnessing Vision Models for Time Series Analysis: A Survey

【论文地址】

https://arxiv.org/abs/2502.08869

论文概述

时间序列分析经历了从传统自回归模型到深度学习模型（如卷积神经网络，CNNs）、Transformer 和 LLMs 的发展。近年来，随着语言领域中序列建模技术的进展，研究者开始将注意力转向利用 Transformer 和 LLMs 进行时间序列建模。然而，LLMs 在处理连续时间序列时存在局限性，例如与离散标记的不匹配、上下文长度限制以及高 API 成本等问题。

与此同时，LVMs 在图像领域取得了巨大成功，其优势在于能够捕捉图像中的序列模式（如趋势、周期和峰值）。时间序列可以通过多种方式转换为图像（如折线图、热图、频谱图等），这些图像为时间序列分析提供了更直观的视角。与 LLMs 相比，大型视觉模型在时间序列建模中具有以下优势：

图像与时间序列的固有关系使其更适合捕捉连续序列模式。
某些成像方法可以自然地表示多变量时间序，从而显式编码变量间的相关性。
LVMs 在处理图像化时间序列时对提示更友好，且 API 成本更低。
LVMs 与 LLMs 的结合为多模态时间序列分析提供了新的可能性。

尽管 LVMs 在时间序列分析中的潜力逐渐被挖掘，但目前尚缺乏对相关工作的全面综述。本文旨在填补这一空白，提出了一个双重视角的分类框架：时间序列到图像的转换方法和图像化时间序列的建模方法。此外，该综述还讨论了预处理和后处理的挑战，并展望了未来的研究方向。

图1：利用视觉模型进行时间序列分析的一般流程。红色框表示本调查中使用的两种分类视角。虚线框表示可选的、根据任务而定的步骤

时序到图像的转换

本节总结了将时间序列成像的方法以及将这些方法扩展以编码多变量时间序列的方法。

图2：以电力基准数据集[Nie等人，2023]中的一个样本（长度=336）为例，展示了时间序列成像的不同方法

表2：将时间序列转换为图像的五种主要方法概述。TS-Type表示时间序列的类型。

01 折线图 ‍

线图是一种直观展示单变量时间序列（UTS）的方法，通过将时间步作为x轴，时间序列值作为y轴，用一条线连接所有数据点。

优点： 与人类对时间序列的直观理解一致，适用于金融、电力消耗等领域的可视化。

扩展： 一些方法（如MV-DTSA 和 ViTime）将图像划分为网格，并将时间序列映射到网格中，生成网格化的线图。此外，Scatter Plot（散点图）也被归入此类，因为它与线图类似，只是不连接数据点。

建模多变量时间序列： 可以通过在同一图像中绘制所有变量的线图，或者将每个变量的线图组合成更大的图像来处理多变量时间序列（MTS）。

02 热图 ‍

热图是一种二维可视化方法，通过颜色表示矩阵中值的大小。对于 MTS，可以将矩阵X（维度为d×T）表示为一个单通道的 d×T 图像。

优点： 可以直观地展示矩阵的值大小，适用于处理 MTS。

扩展： TimEHR 通过将不规则时间步分组为均匀时间箱，生成热图图像。VisionTS 通过将 UTS 分割为子序列，并将这些子序列堆叠成矩阵，生成灰度图像输入到 LVM。

建模多变量时间序列： 直接将 MTS 的变量-时间矩阵可视化为热图，其中相关变量应尽可能在空间上靠近。

03 频谱图 ‍

频谱图是信号频率谱随时间变化的可视化表示，通常用于音频信号分析。常见的生成方法包括短时傅里叶变换（STFT）、小波变换和滤波器组。

STFT： 通过在时间序列上滑动窗口函数并计算每个窗口内的离散傅里叶变换，生成频谱图。

小波变换： 通过比较信号与不同尺度的小波函数的相似性，生成频谱图。

滤波器组： 在音频信号处理中常用，通过预加重滤波器增强高频信号，然后应用 STFT 和滤波器组提取频率带。

优点： 能够捕捉时间序列的频率信息，适用于音频信号等UTS的分析。

04 格兰姆角场 ‍ ‍

格兰姆角场（Gramian Angular Field，GAF）通过将 UTS 映射到极坐标系中，生成一个 T×T 的矩阵 G，其中 G 的元素由 GASF（格拉姆和角场）或 GADF（格拉姆差角场）公式计算。

优点： 能够捕捉 UTS 中的时间相关性，生成的图像可以直观地表示时间序列的动态变化。

扩展： GAF 可以用于时间序列分类、预测等任务。

05 复发图 ‍

复发图（Recurrence Plot，RP）通过时间延迟嵌入重建时间序列的相空间，然后测量相空间向量之间的距离，生成一个二值图像。

优点： 能够捕捉时间序列的周期性模式，图像大小可以通过调整参数灵活控制。

扩展： RP 可以用于时间序列分类、预测、异常检测等任务。

06 其他方法 ‍

通过编码时间序列的时间段之间的转移概率，生成一个矩阵图像。

混合方法： 通过将不同转换方法生成的图像堆叠在一起，形成多通道图像，以提供时间序列的多视角表示。例如，FIRTS 将 GASF、MTF 和 RP 堆叠在一起，用于分类任务。

建模多变量时间序列： 对于不直接支持 MTS 的图像方法（如GAF、RP和Spectrogram），通常采用以下方法：

通道独立性假设：对每个变量单独建模。
多通道图像：将d个变量的图像堆叠成一个d通道的图像，但这种方法可能不适用于预训练的 LVM，因为它们通常需要3通道的RGB输入。

表1：时间序列上的视觉模型分类。上半部分包括单模态模型。下半部分包括多模态模型。TS-Type表示时间序列的类型。

图像时间序列建模

本节作者详细讨论了将时间序列转换为图像后，如何利用视觉模型进行建模和分析。本节从传统视觉模型到最新的 LVMs 和大型多模态模型（LMMs），对现有的方法进行了分类和讨论，并探讨了任务特定头（Task-Specific Heads）的设计。

图3：图示了(a)(b)(c)中对时间序列图像的不同建模策略，以及(d)中的特定任务处理模块

01 传统视觉模型 ‍

传统视觉模型主要基于 CNNs 及其变体，如 ResNet、Inception-v1 和 VGGNet。这些模型被广泛应用于处理图像化的时间序列数据。

应用方式：

线图：使用 CNN 对线图进行分类或预测。例如，ViTST 使用 ResNet 对线图进行时间序列分类。
热图：将热图作为输入，使用 CNN 进行多变量时间序列的预测或异常检测。
频谱图：通过 CNN 对频谱图进行分析，适用于音频信号等时间序列的分类或预测任务。
GAF 和 RP：使用 CNN 对 GAF 或 RP 图像进行建模，适用于时间序列分类和预测。

优点： 这些模型通常具有较好的灵活性，可以通过调整网络结构或训练策略来适应不同的任务。

挑战： 由于传统 CNN 模型通常需要大量标注数据进行训练，因此在小数据集上可能表现不佳。此外，它们通常需要从头开始训练，缺乏预训练模型的迁移学习能力。

02 大型视觉模型

随着 Vision Transformer（ViT）及其变体（如 Swin Transformer、BEiT、MAE 等）的发展，LVMs逐渐被应用于时间序列分析。这些模型通过将图像分割为固定大小的 patch，并将 patch 嵌入到 Transformer 架构中进行处理。

应用方式：

预训练与微调：许多工作使用预训练的 LVMs（如 MAE、DeiT 等）进行微调，以适应特定的时间序列任务。例如，VisionTS 通过微调 MAE 实现了时间序列预测。
自监督学习：一些工作探索了基于自监督学习的预训练方法，如 SSAST 通过掩码频谱图 patch 预测任务对 ViT 进行预训练。
零样本学习：ViTime 通过预训练 ViT 生成大量的线图，并在零样本任务中表现出色。

优点：

强大的特征提取能力：LVMs 能够捕捉图像中的复杂模式，适用于时间序列的长期依赖建模。
迁移学习能力：预训练的 LVMs 可以迁移到多种时间序列任务，减少训练成本。

挑战：

计算资源需求：LVMs 通常需要大量的计算资源进行训练和微调。
输入图像的预处理：需要将时间序列图像化后调整为预训练模型的输入格式（如图像大小、通道数等）。

03 大型多模态模型 ‍

LMMs（如LLaVA、Gemini、GPT-4o、Claude-3等）能够同时处理文本和图像输入，通过提示（prompting）的方式将时间序列的图像和文本表示整合到模型中。

应用方式：

提示学习：通过将时间序列的图像表示（如线图、热图）和文本指令（如任务描述）组合成提示，输入到 LMMs 中。例如，InsightMiner 使用 LLaVA 生成描述时间序列趋势的文本。

综述 | 利用视觉模型进行时间序列分析

正文

请到「今天看啥」查看全文