本文旨在探讨大型语言模型(LLMs)在宏观经济预测领域的应用,并与传统的计量经济学模型进行了准确性的对比分析。研究发现,LLMs在捕捉数据中的复杂模式并快速适应多样化领域方面表现出色,但在宏观经济时间序列数据预测方面,其与更传统的预测方法相比仍然有待深入探讨。文章介绍了多个TSLMs(时间序列语言模型)的表现,并将其与贝叶斯向量自回归(BVARs)和因子模型进行了对比。此外,文章还介绍了时间序列语言模型的构成要素和与深度学习的关系,并提供了先进的时间序列基础模型的概览。
文章通过实证研究,比较了多个时间序列语言模型(TSLMs)与传统计量经济学模型(如贝叶斯向量自回归(BVARs)和因子模型)在宏观经济预测方面的性能。研究发现,TSLMs在某些情况下表现出竞争力,但在其他情况下,其预测性能与传统模型相当或略逊一筹。
文章详细介绍了时间序列语言模型(TSLMs)的概念、与传统文本LLMs的区别、构成要素以及与深度学习的关系。
文章提供了对LagLamma、Moirai、TTM、Time-GPT和TimesFM等先进时间序列基础模型的详细介绍和比较。
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
1.前沿: 财务报表分析师和机器学习那套可能会失业, GPT大语言模型极具优势,2.必备神器: 各专业领域代表性大语言模型GPT与数据资源!3.最新: 学或做量化金融和量化交易的人员估计得失业! ChatGPT文本基础上的策略完胜!4.美国经济学会首次就GPT大模型对经济学研究影响发文, 应用案例与研究者使用指南!5.阿里达摩院前沿研究: GPT-4已能取代搞纯数据定量分析的研究人员! 关键成本极低!
在宏观经济预测领域,大语言模型(LLMs)与传统的计量经济学模型,如贝叶斯向量自回归(BVARs)和因子模型谁更厉害?看看下面这份研究《使用大语言模型进行宏观经济预测Macroeconomic Forecasting with Large Language Models》。
研究发现:
本文旨在探讨大型语言模型(LLMs)在宏观经济预测领域的应用,并与传统的宏观时间序列预测方法进行了准确性的对比分析。近年来,LLMs因其出色的能力——捕捉数据中的复杂模式并迅速适应多样化领域——而在预测领域受到广泛关注。尽管如此,LLMs在宏观经济时间序列数据预测方面的性能与更传统的预测方法相比,仍然是一个值得深入探讨的议题。
为了解答这一问题,本文利用FRED-MD数据库,对LLMs与传统宏观经济预测方法进行了全面的比较评估。FRED-MD数据库包含了丰富的宏观经济时间序列数据,为我们提供了一个理想的测试平台。分析结果表明,在与简单的自回归(AR)模型进行比较时,仅有Salesforce的Moirai和Google的TimesFM这两个TSLMs表现出了竞争力。
进一步地,当这些表现较为突出的TSLMs与贝叶斯向量自回归(BVARs)和因子模型进行对比时,它们的预测性能总体上与这些传统模型相当,甚至在某些情况下略逊一筹。我们特别发现,经济计量模型在预测增益方面表现出了更高的稳定性,而TSLMs虽然对某些时间序列的预测效果非常好,但在某些情况下却不够稳定,有时会产生不合理的预测结果。
近年来,随着大型语言模型(LLMs)的兴起,自然语言处理领域迎来了革命性的变化,开启了计算语言学的新篇章。这些模型依托于机器学习技术和深度神经网络的发展,以其出色的文本理解和生成能力,受到了业界的广泛关注。LLMs 的出现,不仅彻底改变了机器翻译、情感分析、聊天机器人和内容创作等多个应用领域,还通过处理海量文本数据和运用复杂的算法,展现出了捕捉语言细微差别、上下文联系和深层语义的能力。如今,LLMs 正逐渐成为科研人员、开发者和企业界不可或缺的强大工具。
本文着眼于一个新兴的研究领域——利用大型语言模型(LLMs)来预测时间序列数据。虽然LLMs通常与自然语言处理任务紧密相关,但其强大的多功能性和适应性也激发了研究者探索其在语言处理之外的潜能。通过发挥机器学习算法的计算优势和灵活性,LLMs有望揭示复杂的非线性关系,捕捉潜在的动态变化,并适应不断演变的数据模式。这些专门为时间序列预测而训练的LLMs,在机器学习和人工智能领域被称为时间序列语言模型(TSLMs)或时间序列基础模型(TSFMs)。
目前,已有多个TSLMs被开发并公开,例如IBM的Tiny Time Mixers(Ekambaram等,2024)、Time-LLM(Jin等,2024)、LagLlama(Rasul等,2024)、Google的TimesFM(Das等,2024)、Salesforce的Moirai(Woo等,2024)以及Nixtla的Time-GPT(Garza和Mergenthaler-Canseco,2023)。这些研究显示,TSLMs在提高预测准确性方面具有潜力,但实证评估往往集中在多样化的数据集上,并未详细说明这些模型在宏观经济变量预测方面的具体表现。
本文的主要贡献有两个方面:首先,深入研究TSLMs在预测宏观经济时间序列方面的表现;其次,将其与当前最先进的时间序列方法,如贝叶斯向量自回归(BVARs)和因子模型进行详细比较。研究聚焦于预测FRED-MD数据集中的变量,该数据集由美联储经济数据(FRED)系统精心整理,包含一百多个每月更新的宏观经济变量,是宏观经济预测领域的标准数据集。相关文献包括Stock和Watson(2006)、Banbura等(2010)、Carriero等(2016, 2019)、Korobilis和Pettenuzzo(2019)、Koop等(2019)、Chan(2022)。
正如Faria-e Castro和Leibovici(2024)所指出的,LLMs模型的一些特性在实证宏观经济学文献中常见的伪样本外预测练习中可能存在问题。一个主要挑战是,LLMs是在开发人员选择的数据集上进行预训练的,这使得研究人员对训练数据的控制力有限。
例如,在本研究中,我们考察的LLMs中,有五个模型中的三个(包括表现最为出色的Moirai)在它们的训练数据中包含了本文将要预测的大部分时间序列数据。然而,情况更为复杂,因为训练数据缺少时间戳,这使得模型难以精确训练到特定的日期,进而难以实现经济预测人员最为关注的实时分析。此外,由于对硬件要求较高,通常不可能通过在数据子集上重新训练LLMs或将新数据纳入训练集来解决这些问题。
尽管如此,也有例外,如LagLlama模型,它能够以相对较低的成本进行实时微调。不过,本文将专注于“零样本”预测,因此这类微调并不在本文的讨论范围内。此外,即便能够实时获取所需的数据集,也无法解决训练集可能受到污染的问题,即训练集中可能包含了预测人员在实时情况下无法获取的信息。
本研究的实证应用专注于利用1960年至2023年的数据来预测FRED每月数据库中的宏观经济变量。在采用传统时间序列方法时,我们考虑了不同截面维度的模型,以探究信息集对预测性能的具体影响。分析结果表明,在与简单的自回归(AR)模型进行比较时,仅有Salesforce的Moirai和Google的TimesFM这两个TSLMs表现出了竞争力。
进一步地,当这些表现较为突出的TSLMs与贝叶斯向量自回归(BVARs)和因子模型进行对比时,它们的预测性能总体上与这些传统模型相当,甚至在某些情况下略逊一筹。我们特别发现,经济计量模型在预测增益方面表现出了更高的稳定性,而TSLMs虽然对某些时间序列的预测效果非常好,但在某些情况下却不够稳定,有时会产生不合理的预测结果。值得注意的是,TSLMs在COVID-19疫情后的预测表现相对较好,但必须指出的是,这些模型的训练数据包含了疫情及其后时期的信息。
目前,宏观经济学和金融领域的文献中已有一些研究探讨了LLMs的应用,并预计未来会有更多相关研究涌现。例如,Bybee(2023)的研究中,将《华尔街日报》(WSJ)的历史新闻样本输入OpenAI的GPT-3.5模型,并要求模型预测各种金融和宏观经济指标,然后将这些预测结果整合成月度和季度的预期时间序列,与现有的多种调查预测进行了比较。
Chen等(2022)的研究中,将汤森路透实时新闻(RTRS)和第三方档案(3PTY)中的全球新闻文本数据(覆盖13种语言)输入到预训练的LLMs中,包括谷歌开发的BERT、Meta开发的RoBERTa和OPT。他们利用模型生成的情感评分来预测公司每日的股票收益。而Kim等(2024)则将标准化和匿名化的财务报表输入GPT-4,指导模型分析这些报表以预测未来的收益走向。他们的研究显示,LLMs在预测收益变化方面甚至超过了财务分析师的表现。这些研究主要利用了LLMs在自然语言处理方面的核心能力。相较之下,本文则专注于探讨近期为时间序列预测特别训练的LLMs。
在宏观经济学领域,与本文最相关的研究是Faria-e Castro和Leibovici(2024),他们关注了时间序列LLMs,但研究范围仅限于一个LLM和一个目标变量(通货膨胀)。与此不同,本文旨在全面评估多种LLMs的表现,并将其预测准确性与当前最先进的宏观经济预测方法进行比较,涵盖了广泛的宏观经济指标。
本文的结构安排如下:第二部分将介绍LLMs和TSLMs,并探讨它们在时间序列预测中的应用。第三部分将描述我们在研究中作为基准的前沿经济计量模型。第四部分将介绍数据集以及样本外伪实时预测实验的设计。第五部分将展示我们的实证结果。最后,第六部分将提供总结性意见及未来研究的方向。附录部分则提供了所研究模型的技术细节以及实证分析中使用的数据转换方法。
下面介绍一下时间序列语言模型:
2.1 时间序列语言模型(TSLMs)
受到LLMs在自然语言处理领域取得的显著成就的鼓舞,研究者们开始探索这些模型在其他领域的应用潜力。沿着这一研究方向,Lu等(2022)的研究表明,完全基于文本数据训练的LLMs同样能够有效处理其他类型的序列建模任务,包括数值计算、视觉处理和蛋白质折叠预测等。在这些拓展应用中,时间序列语言模型(TSLMs)的出现,成功地弥合了LLMs最初针对文本数据训练与时间序列数据数值特性之间的鸿沟。这些模型有时在文献中也被称作时间序列基础模型(TSFM)。TSLMs现已被广泛应用于执行多种与时间序列相关的任务,如预测、分类、异常检测和数据填补等。在这一新兴领域的典型研究包括Rasul等(2024)、Goswami等(2024)、Ekambaram等(2024)、Garza和Mergenthaler-Canseco(2023)、Das等(2024)以及Ansari等(2024)的工作。
这些最新进展的核心思想其实相当直观:尽管文本LLMs的主要任务是预测下一个单词,而时间序列预测模型的主要目标是联合预测一个或多个时间序列的下一个值,但从本质上看,这两个任务是紧密相连的。它们都致力于通过学习某些特征的历史序列,来预测未来的结果序列。在TSLMs的情况下,预训练是在可能非常庞大的时间序列集合(X{1:T} = (x{1,1:T}, ..., x{N,1:T}))上进行的,目的是生成一个映射函数(fθ)。随后,给定某个特定时间序列(y)的当前值和历史值(这些值不一定包含在训练集中),TSLMs旨在通过以下公式来预测其未来(h)个值(y_{T+1:T+h}):
主要的区别在于,自然语言由有限的词汇构成,而时间序列数据则是由实数值组成。
2.2 时间序列语言模型的构成要素
在时间序列预测领域,LLMs的早期应用尝试是直接将现有的文本LLMs应用于时间序列数据。例如,PromptCast(Xue和Salim,2023)就是通过将数值时间序列转化为文本提示,并以逐句预测的方式进行。然而,这些方法并未取得预期效果,原因有多个。首先,这些模型需要为每个变量定制特定的模板来提出预测问题。其次,由于这些文本LLMs在训练过程中缺乏真实的时间序列数据,直接用于预测时往往表现不佳。
最新的TSLMs已经从这些初步尝试中发展而来,它们现在采用量化方法构建,即在将数值数据输入训练LLM之前,先将其转换为离散的表示形式。接下来,我们将详细描述TSLMs的基本构建模块,并尽可能与文本模型进行对比,以便更清晰地理解。这些构建模块的具体选择和配置,决定了不同模型的独特特性。
2.3 与深度学习的关系
在深入探讨现有的TSLMs之前,简要讨论一下深度学习(DL)模型与TSLMs的区别是有益的。DL模型(例如Torres等(2021),Lim和Zohren(2021)及Wen等(2022)的研究)与传统时间序列方法有许多相似之处,它们都需要特定问题的训练数据来学习模型参数并进行预测。然而,DL模型在多个方面与传统方法有所不同——它们采用非线性架构、包含大量的可学习参数,并且需要比传统时间序列方法更多的训练数据。相比之下,TSLMs是在大量时间序列数据集上进行预训练的。与基础模型(FMs)一样,这种预训练使得TSLMs能够进行“零样本”预测。这种即插即用的便利性使TSLMs特别实用且强大。此外,预训练还意味着TSLMs相比深度学习模型,需要更少的领域特定知识数据,如果需要,它们还可以在特定数据集上进行微调。
2.4 先进的时间序列基础模型(TSFMs)概览
在本节中,我们将简要介绍本文研究涉及的几种时间序列基础模型(TSFMs)。
LagLlama(Rasul等,2024)LagLlama是一种基于概率的模型,它将Llama 2架构(Touvron等,2023)扩展应用于时间序列数据。该模型在窗口级别实施z-score标准化,并通过对时间序列的不同滞后值提取特征来实现序列的标记化,从而让模型学会如何从过去的观测中预测未来值。LagLlama在27个跨领域的公开时间序列数据集上进行了预训练,模型参数量大约为250万。
Moirai(Woo等,2024)Salesforce的Moirai在包含270亿个观测值的九个不同领域的时间序列数据集上进行了预训练。Moirai采用多窗口大小的投影层来捕捉不同频率的时间模式,并提供了三种不同规模的模型,其中最大的模型拥有约3.11亿参数。
TTM(Ekambaram等,2024)IBM的TTM(Tiny Time Mixer)是一个轻量级的TSFM,参数量不到100万,它在Monash时间序列库(Godahewa等,2021)和LibCity(Jiang等,2023)上进行了预训练,涵盖了约10亿个数据点。TTM基于TSMixer架构(Ekambaram等,2023),采用基于MLP(多层感知器)的混合方法来处理时间步和特征,有效进行多变量预测。TTM首先对每个序列进行标准化处理,然后考虑不同长度和分辨率的窗口,以适应不同数据集的最佳上下文。此外,TTM还能对高分辨率的时间序列进行降采样,以增强训练数据集。
Time-GPT(Garza和Mergenthaler-Canseco,2023)Time-GPT在一个包含超过1000亿个数据点的公开时间序列集合上进行了训练,该集合覆盖了金融、经济、人口、医疗、天气、物联网传感器数据、能源、网络流量、销售、运输和银行等多个领域的时间序列数据。由于领域的广泛性,训练数据集包含了具有不同季节性、多周期和趋势特征的时间序列。
TimesFM(Das等,2024)Google的TimesFM是一个拥有2亿参数的TSFM,它在包含1000亿个时间点的最大语料库上进行了训练,其中包括真实和合成的时间序列。TimesFM将时间序列划分为不同的窗口,并学习预测后续窗口,同时在窗口级别实施标准化处理。
表1提供了本节描述的各TSLMs的更多细节,包括模型的发布时间(即预训练样本结束的时间)、预训练阶段使用的所有数据领域的列表、训练样本的规模,以及每个TSLM是单变量还是多变量模型的标记。
Macroeconomic Forecasting with Large Language Models* Andrea Carriero† , Davide Pettenuzzo‡ , and Shubhranshu Shekhar
关于时间序列方法:1.时间序列分析的各种程序, 38页集结整理成文档,2.ARDL, ARIMA, VAR, (G)ARCH时间数据模型讲解及软件操作,3.R软件中的时间序列分析程序包纵览,4.时间序列分析的各种程序, 38页集结整理成文档,5.时间序列数据分析的思维导图一览, 金融经济学者必备工具,6.送书: 应用时间序列分析(经典),7.为啥时间序列模型比较难学?时间序列的正名路,8.面板数据单位根检验软件操作和解读全在这里,9.动态面板回归和软件操作,单位根和协整检验(Dynamic Panel Data),10.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用,11.送书: 应用时间序列分析(经典),12.时间序列模型分解,季节调整分析基础,13.动态因子模型是什么, 又怎么去实现? 14.动态面板分位数估计怎么做?15.动态面板门槛回归程序公布, 使用方法介绍,16.把动态面板命令讲清楚了,对Stata的ado详尽解释,17.时间序列分析概览(今天的重点1),18.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!19.一文读懂“非平稳时间序列计量经济学分析”, 包括单位根检验, 结构突变检验等,20.中断时间序列分析ITSA是什么? 很流行的政策评估新范式!21.可以在面板回归分析中使用时间序列解释变量或被解释变量吗?22.ARIMA时间序列模型的步骤, 程序和各种检验, 附上代码并通过示例进行解读!23.使用Stata做时间序列分析书籍, 包括模型讲解以及Stata示例操作,24.时间序列中的协整检验和VECM,以及回归后的系列估计操作关于VAR方法:1.R软件中的时间序列分析程序包纵览,2.时间序列分析的各种程序, 38页集结整理成文档,3.时间序列数据分析的思维导图一览, 金融经济学者必备工具,4.送书: 应用时间序列分析(经典),5.为啥时间序列模型比较难学?时间序列的正名路,6.时间序列中的协整检验和VECM,以及回归后的系列估计操作,7.时间序列模型分解,季节调整分析基础,8.空间和时间的计量,关注二位国人,9.TVP-VAR时变参数VAR系列文献和估计程序,10.向量自回归VAR模型操作指南针,为微观面板VAR铺基石,11.VAR宏观计量模型演进与发展,无方向确认推断更好,12.应用VAR模型时的15个注意点,总结得相当地道,13.面板数据单位根检验软件操作和解读全在这里,14.动态面板回归和软件操作,单位根和协整检验(Dynamic Panel Data),15.面板向量自回归PVAR是什么? 数据, 程序和解读一步到位,16.ARDL, ARIMA, VAR, (G)ARCH时间数据模型讲解及软件操作,17.动态因子模型是什么, 又怎么去实现?18.SVAR模型的起源、识别、估计与应用, 系统讲述,19.平滑转移自回归模型(STAR)应用与在R软件的操作,20.Copula函数,21.GVAR, 全局VAR模型是什么?该如何用软件实现, 有哪些研究文献和最新进展!22.前沿: BVAR, 贝叶斯VAR是什么, 为什么需要, 软件怎么做, 如何解读呢?23.结构性面板VAR是什么? 如何实现PSVAR呢?怎么解读?24.2021年AER上最新基于DSGE模型的宏观计量文章, 附上50篇时序, VAR模型文章!
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。