FoundTS：首个覆盖多场景的时序预测基础模型评测基准

数据派THU · 公众号 · 大数据 · 2024-11-13 16:20

正文

来源：时序人
本文约2500字，建议阅读8分钟




    
本文旨在介绍一项关于时间序列预测基础模型的 benchmark 研究。

为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评，华东师范大学联合丹麦奥尔堡大学和松鼠 AI 开发了 FoundTS。论文基于统一的评测结果，分析了现有时间序列预测基础模型的优势与不足，并提出了切实可行的改进方向，以推动基础模型性能的进一步提升。

【论文标题】

FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING

【论文地址】

http://arxiv.org/abs/2410.11802

背景

近年来，专门针对特定领域数据集进行训练的特定模型（Specific models）在预测精度和推理速度上取得了显著提升。然而，当这些模型遇到新的领域或数据时，其泛化能力往往受到限制，表现并不理想。与此相比，在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型（Foundation models）为提高时间序列预测模型的泛化能力提供了新的研究路径，但对这类模型的理解和研究目前仍显不足，主要原因有以下三点：

现有时间序列预测基础模型的实验设置缺乏一致性，如表1所示，这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较；
当前主流的时间序列预测的测评基准主要集中在特定模型上，很少关注基础模型；
现有的涉及基础模型的测评基准多停留在定性分析或单一场景的评估上，缺乏对模型在不同场景下性能的综合定量分析。

表 1：不同时间序列预测基础模型实验设置比较

为了应对上述挑战，这篇论文提出了一个新的测评基准——FoundTS，旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过 FoundTS，能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析，从而为时间序列预测领域的研究和实践提供更加可靠的参考。

表 2：FoundTS 与其他时间序列预测基准的比较

FoundTS测评框架

FoundTS 提供了一个标准化的评估流程，包括数据（data）、模型（models）和评估（evaluation）三个核心模块，如图1所示。

图 1：FoundTS 架构

01 Data

数据模块涵盖了来自10个不同领域的时间序列数据集（Stock，Health，Energy, Electricity，Environment，Traffic，Nature，Banking，Web，Economics）。这些数据具有多种特征（Seasonality，Trend，Stationarity，Transition，Shifting，Correlation，Non-Gaussianity），为时间序列预测提供了全面的数据支持。

02 Models

模型模块将多个具有不同架构类型的时间序列预测模型分为三类：

基于多领域时间序列数据的预训练模型（Pre-trained Models），论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型；
基于大规模语言数据的预训练模型（LLM-based Models），通过参数高效的微调策略或精心设计的 prompt，充分利用 LLMs 强大的表征能力和序列建模能力，捕捉时间序列数据中的复杂模式。
特定模型，这些模型在特定数据集上进行训练和推理，包括基于 CNN 的模型、基于 Transformer 的模型、基于 MLP 的模型等。

03 Evaluation

评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境：