为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评,华东师范大学联合丹麦奥尔堡大学和松鼠 AI 开发了 FoundTS。论文基于统一的评测结果,分析了现有时间序列预测基础模型的优势与不足,并提出了切实可行的改进方向,以推动基础模型性能的进一步提升。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3g7dHytb8T1wDl6or1b9FB2TtH4GksCSYjEH8aRichk27AhmIXnp4p7g/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
【论文标题】
FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING
【论文地址】
http://arxiv.org/abs/2410.11802
背景
近年来,专门针对特定领域数据集进行训练的特定模型(Specific models)在预测精度和推理速度上取得了显著提升。然而,当这些模型遇到新的领域或数据时,其泛化能力往往受到限制,表现并不理想。与此相比,在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型(Foundation models)为提高时间序列预测模型的泛化能力提供了新的研究路径,但对这类模型的理解和研究目前仍显不足,主要原因有以下三点:
- 现有时间序列预测基础模型的实验设置缺乏一致性,如表1所示,这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较;
- 当前主流的时间序列预测的测评基准主要集中在特定模型上,很少关注基础模型;
- 现有的涉及基础模型的测评基准多停留在定性分析或单一场景的评估上,缺乏对模型在不同场景下性能的综合定量分析。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3ooL0dbhmGNX7GicrGOHD2YoLgqRzJjG6rJcFlTfVRp5QeX9OnN0tKPw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
表 1:不同时间序列预测基础模型实验设置比较
为了应对上述挑战,这篇论文提出了一个新的测评基准——FoundTS,旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过 FoundTS,能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析,从而为时间序列预测领域的研究和实践提供更加可靠的参考。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3dzib0lia2iaRLA5mPN0Cb7egWY6fXeFzl2DUllVk8npkXSPMSALYdqJnw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
表 2:FoundTS 与其他时间序列预测基准的比较
FoundTS测评框架
FoundTS 提供了一个标准化的评估流程,包括数据(data)、模型(models)和评估(evaluation)三个核心模块,如图1所示。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3pTLHIiceAsMz7vNXMH95qrS4LrNicheBvCbibDmASzVk7ic2n8TOltsYtg/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
图 1:FoundTS 架构
数据模块涵盖了来自10个不同领域的时间序列数据集(Stock,Health,Energy, Electricity,Environment,Traffic,Nature,Banking,Web,Economics)。这些数据具有多种特征(Seasonality,Trend,Stationarity,Transition,Shifting,Correlation,Non-Gaussianity),为时间序列预测提供了全面的数据支持。
模型模块将多个具有不同架构类型的时间序列预测模型分为三类:
基于多领域时间序列数据的预训练模型(Pre-trained Models),论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型;
基于大规模语言数据的预训练模型(LLM-based Models),通过参数高效的微调策略或精心设计的 prompt,充分利用 LLMs 强大的表征能力和序列建模能力,捕捉时间序列数据中的复杂模式。
特定模型,这些模型在特定数据集上进行训练和推理,包括基于 CNN 的模型 、基于 Transformer 的模型、基于 MLP 的模型等。
03 Evaluation
评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境:
实验
01 实验结果
论文在多个不同领域的数据集上对比了不同的时间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的性能表现。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3ppGaCANh5MvwodQKbX4HWibXlI61jsTeKnlWUrKeXrsxQvWdVbEkd1g/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
表 3:zero-shot 设置下的实验结果
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC34t4V648I5ibb3AXWcEZN4jhW76sGPOYAFp22q3Ogcztvcx0ZUWBuHhQ/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
表 4:采用 5% 数据对基础模型进行微调的 few-shot 设置下的实验结果
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3tPRvHVLoP20gyNoZ2xevHZLDJbhanDKZ7OGSHkr1JQk9UVVW37p7Og/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
表 5:full-shot 设置下的实验结果
论文对不同数据采样策略在时间序列预测基础模型中的效果进行了比较分析。结果表明,在 few-shot 场景中,数据采样策略的选择对模型性能有着显著影响。因此,只有在统一的实验设置下,才能对不同模型的性能进行公平和准确的评估。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3BftWAMRBgWlhZAOX908hToicia59ULBWxauoHicj6LH5fLXLYPkBZnnaA/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
表 6:不同采样策略
论文探讨了多变量时序数据的通道依赖性对时间序列预测基础模型性能的影响,并建议未来在开发和构建时间序列预测基础模型时,应充分考虑并利用多变量数据之间的通道依赖关系。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3Lw8nFD3BibfcibfZb6051aiaTxETWUSpsULKcQ0yr1fqNTiaicYxp4eXFaw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
图 2:按数据集多通道依赖性强弱排序的模型在 5% 数据的 few-shot 场景下的性能比较
论文分析了不同框架下的时间序列预测基础模型之间的性能差异,指出未来研究需要进一步探索模型架构设计,以寻求在模型性能和参数规模之间达到最佳平衡点。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1PqiafS6ZW14z6cSaDAH9Ej6Cs699TkBRNreMTojpWicKkeCHEXTGdv3gpKSku7M7oUp2e4OzSAWOQ/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
图 3:不同时间序列预测基础模型的参数量和预训练数据集大小下的模型 zero-shot 性能比较
论文在一系列具有不同显著特征的数据集上,对时间序列预测基础模型处理多样化特征数据的能力进行了比较分析。
![](http://mmbiz.qpic.cn/mmbiz_png/B2hWWnf6Oe1YZ9iaDdWkneHmXUOyU6EC3q2ZvWMagF5wnGApiaTFDuyibBAfh9nkhjLC1L9fpMjQBJian5dv8Ffcyg/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
图 4:七个具有不同数据特征数据集上时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较
论文对来自多领域时间序列数据或大规模语言数据的预训练知识对下游时间序列预测任务的实际效益进行了评估。