专栏名称: 新语数据故事汇
《新语数据故事汇,数说新语》科普数据科学、讲述数据故事,深层次挖掘数据价值。
目录
相关文章推荐
51好读  ›  专栏  ›  新语数据故事汇

时间序列大模型(LTM,Large Time Series Model)来了:Moirai简介

新语数据故事汇  · 公众号  ·  · 2024-08-23 19:14

正文

在计算机视觉 (CV) 和自然语言处理 (NLP) 领域,基础大模型已经展现了强大的能力。例如,大型语言模型(LLM)在大规模、多样化的文本语料上进行预训练后,能够在各种下游任务中(如文本生成、问答、翻译等)表现出色。同样,ViT(Vision Transformer)等视觉模型在 ImageNet 以及更大规模的图像数据集上预训练后,也能够很好地迁移到各种下游图像任务上进行微调(fine-tuning)或零样本(zero-shot)学习。然而,在时间序列领域,基础模型的发展却远不及CV和NLP领域。

时间序列数据广泛存在于零售、金融、制造业、医疗等多个领域,其预测应用对于决策制定有着重要意义。尽管深度学习方法在时间序列预测中取得了显著进展,但它们依旧遵循传统的机器学习范式:针对特定数据集和预测任务(如特定预测长度)训练专门的模型。

过去,时间序列预测模型通常是在单一数据集的训练集上进行训练,并在同一数据集的测试集上进行评估,即使是那些使用自监督预训练的方法也不例外。随着时间序列预测任务的增多,这种模式会显著增加计算和人力成本。因此,是否可以像在视觉和语言领域一样,构建一个通用的预训练大模型来进行时间序列预测呢?如何建立一个涵盖多个领域的大规模时间序列数据集,并利用它来训练一个时间序列的基础模型(Foundation Model),然后在各种下游时间序列任务上进行微调(fine-tuning)或零样本(zero-shot)测试?

在2024年,无论是学术界还是工业界,这一问题已经取得了显著进展。例如,Salesforce AI Research 开放的 Moirai 模型就是一个成功的典型案例。

时间序列基础大模型(LTM) Moirai来了

首个全开源时间序列基础大模型 Moirai 问世了!“Moirai” 是古希腊神话中掌管命运的女神,拥有预知未来的能力,来自 Salesforce AI Research 的研究者们提出了一种通用的预测范式,使得预训练模型能够处理任意的时间序列预测任务。与当前最优的从零开始训练的模型相比,Moirai 的零样本(zero-shot)预测能力具有竞争力,甚至在某些情况下表现更优。

此外,还发布并开源了预训练框架 uni2ts、Moirai 模型权重,以及 LOTSA 数据集——这是目前最大的开源时间序列预测预训练数据集。

  • 论文题目 : 《Unified Training of Universal Time Series Forecasting Transformers 》地址链接: https://arxiv.org/abs/2402.02592

  • 预训练代码链接 : https://github.com/SalesforceAIResearch/uni2ts

  • 预训练数据集 : https://huggingface.co/datasets/Salesforce/lotsa_data

对通用预测模型的需求

时间序列预测模型强烈需求促使预测模型朝着通用预测范式(见下图)发展,即一个大型预训练模型能够处理任何时间序列预测问题。

上图:通用预测模型是一个大型预训练模型,能够处理任何时间序列预测问题。它在一个涵盖多个领域的大规模时间序列数据集上进行训练。与现有的范式相比,通用预测面临三个关键问题:i) 多种频率,ii) 任意变量预测,和 iii) 变化的分布。

构建通用预测模型的挑战

向时间序列基础大模型(Foundation Models)转变的范式最初是由自然语言处理(NLP)领域引发的,该领域成功地在多样化的大规模数据上训练了大型语言模型(LLMs),这些模型能够处理各种下游任务,甚至支持多语言。使LLMs能够处理多种语言的一个重大创新是字节对编码(Byte Pair Encoding, BPE),它将异质语言转换为统一的格式。与NLP不同,时间序列领域没有类似于BPE的工具,使得构建一个能够处理时间序列数据异质性的基础模型变得不那么简单。

  • 首先,时间序列的频率(例如,分钟级、小时级、日级采样率)在决定数据中的模式中起着关键作用。然而,跨频率学习面临挑战,因为负干扰使得现有方法通常通过为每种频率训练一个模型来规避这一问题。

  • 其次,时间序列数据在维度上表现出异质性,其中多变量时间序列可能具有不同数量的变量。此外,每个变量通常在数据集中测量的是语义上不同的量。虽然将多变量时间序列中的每个变量独立处理可以缓解这一问题,但理想的通用模型应足够灵活,以考虑变量之间的交互并考虑外生协变量。

  • 第三,许多应用需要概率预测。然而,不同的数据集具有不同的支持和分布特性。例如,使用对称分布(如正态分布、Student-T分布)作为预测分布可能不适用于正值时间序列。因此,标准方法预定义的简单参数化分布可能缺乏捕捉各种数据集所需的灵活性。

  • 最后,开发一个能够进行通用预测的大型预训练模型需要一个涵盖多领域的全面数据集。然而,现有的时间序列数据集往往不够大和多样,无法支持这类模型的训练。

Moirai:通用时间序列预测变换器(Transformers)的统一训练







请到「今天看啥」查看全文