专栏名称: 东北金工研究
东北证券金融工程,重新出发。
目录
相关文章推荐
青年文摘  ·  小窗终日寄悠悠,古人笔下的腊月有多美? ·  4 天前  
读书有范  ·  九言 | ... ·  6 天前  
Kindle电子书库  ·  刘慈欣:我的很多作品都是模仿这本书! ·  1 周前  
51好读  ›  专栏  ›  东北金工研究

指数门控在LSTM模型上的应用——eLSTM

东北金工研究  · 公众号  ·  · 2024-09-09 12:48

正文

点击蓝字 关注我们


报告摘要


本篇报告主要介绍了深度学习神经网络LSTM的改进版本——eLSTM 模型的设计原理及性能表现。


在过往报告《扩展长短期记忆网络 xLSTM——人工智能系列之三》中介绍了 xLSTM 网络的原理并对其技术点进行了拆解。eLSTM 即从 xLSTM 中得到灵感,使用指数门控代替了传统 LSTM 模型的 Sigmoid 门控,并采取措施对输出的数值稳定性和指数门的数值稳定性进行了控制,最终得到了性能更优秀的 eLSTM 模型。


本报告设计了控制变量实验对 eLSTM 的性能进行测试,基准模型为 LSTM 模型和 GRU模型。以全A股的日频量价数据作为训练数据集,分别以 eLSTM/LSTM/GRU 模型为基础构建了其余网络结构均相同的选股因子生成模型。在训练过程中,控制模型各项超参数与训练条件相同,并在全 A、沪深 300、中证 500、中证 1000 四个股票池中对三组因子进行了单因子测试。


测试结果表明:

(1)在全 A 范围进行选股时,eLSTM因子的多头组年化收益率(18.24%)以及超额年化收益率(19.96%)均大幅度领先 LSTM 因子(多头11.29% /超额12.90%)和 GRU 因子(多头13.88% /超额15.53%),控制回撤能力也相较于另外两组因子小优。eLSTM、LSTM、GRU 因子的超额最大回撤分别为4.29%、5.24%、4.29%


(2)在沪深 300、中证 500、中证 1000 成分股中进行选股,即在训练集的子集中进行选股时,eLSTM 因子的表现依旧较为稳健,相比于在全 A 选股的表现退步较小。而 LSTM 因子 和 GRU 因子则在不同的股票池中均表现出了相对于在全 A 选股的较大退步。这表明 eLSTM 相比于基准模型能够更完整地提取出不同类型股票的关键信息。


以上两个结论能够证明改进后的 eLSTM 模型相对于 LSTM 模型具有明显的性能提升。同时 eLSTM 模型的性能相比于 GRU 模型也更优。


风险提示:本报告为模型能力探索,测试结果基于历史数据,存在模型失效风险。





报告正文

01

引言


在多年以来的深度学习研究中,长短期记忆网络(LSTM)因其在处理序列数据中显示出的卓越性能而成为处理序列数据的主流选择。LSTM 具有优秀的记忆能力和有效的梯度传播机制,能够有效解决传统循环神经网络(RNN)面临的梯度消失问题,因此在自然语言处理、语音识别以及其他需要处理时间序列数据的领域中扮演了关键角色。随着技术的不断发展以及算力水平的提升,自然语言处理等领域的解决方案也是日新月异,Transformer、SSM、MoE等大规模模型不断涌现,人工智能模型的表现突破了一个又一个高峰。


然而,近几年学界及业界的前沿研究资源多数都投入到大模型、多模态等通用人工智能研究方向。一切大模型的基础都是超大规模的训练语料库,只有足够规模的训练数据才能够支持大模型的预训练、微调,才能使深度学习模型性能达到通用语言任务甚至多模态任务的目标。而对于量化投资任务来说,高质量的训练数据规模还远远达不到大模型的训练要求。另一方面,金融序列数据的序列内部依赖与自然语言词元间的依赖具有不同的内部逻辑,Transformer 等大语言模型的基础架构并不能非常适配地直接用于量化投资问题。因此,在深度学习领域逐渐被大模型基础架构取代的 LSTM、GRU 等循环神经网络模型,仍然是深度学习量化投资方向上的主流选择。


近年的深度学习量化研究更多地集中在特征工程方面,而对提升模型本身性能的尝试相对并不多,本报告从扩展的长短期记忆网络(Extended Long Short-Term Memory,xLSTM)得到灵感,对 LSTM 模型进行了改进,使用指数门控(Exponential Gating)代替了传统 LSTM 模型的 Sigmoid 门控,eLSTM 模型在原理和测试结果上均大幅度提高了 LSTM 模型的序列特征提取能力。


本篇报告介绍eLSTM模型的理论原理和性能表现。eLSTM 模型通过指数门控解决了 LSTM 模型的长步信息遗失问题,模型通过序列数据进行建模的能力更进一步。本报告第二章介绍 eLSTM 模型的原理和改进逻辑。本报告第三、四章展示了 eLSTM 模型在使用 A 股历史量价数据进行选股因子挖掘上的能力。结果表明,在特征处理、超参数设置、初始化、训练参数等各方面均相同的条件下,eLSTM 模型具有远超 LSTM 和 GRU 的建模能力。


02

指数门控长短期记忆网络-eLSTM


LSTM的设计是为了解决传统 RNN 存在的缺陷。传统的RNN在训练过程中容易遇到梯度消失或梯度爆炸的问题,尤其是在处理长序列数据时。这是因为在反向传播过程中,梯度可能会随着时间步的增加而指数级减小(消失)或增大(爆炸)。这使得RNN难以学习和保持长期依赖关系。LSTM通过引入一个复杂的门控机制,能够在不同时间点有选择性地添加或删除信息到记忆单元中,从而维持长期的信息流并避免梯度问题。


随着技术的发展,传统的 LSTM 已经逐渐跟不上当下日益增长的需求,要想不被时代所淘汰,势必要向 LSTM 中引入新的技术。LSTM 的原作者团队于 2024 年 5 月发布了《xLSTM: Extended Long Short-Term Memory》,将 LSTM 模型改进为用于大模型的版本。有关 xLSTM 模型的技术原理拆解已经在早先发布的报告中做了比较详尽的介绍,具体内容可参见相关报告《扩展长短期记忆网络 xLSTM——人工智能系列之三》。对 xLSTM 进行原理拆解和分析,并与金融序列数据的特点进行匹配,我们认为将指数门控应用于LSTM的改进方案中是最符合逻辑的。


LSTM 通过输入门、遗忘们、输出门对学习到的信息进行存储、更新和输出的控制。传统 LSTM 的门控均采用 Sigmoid 函数来控制信息通过的比例,这会导致当输入序列较长时,较早的输入随着时间步的推移,保留比例逐渐减少甚至消失。而指数门控则是将输入门、遗忘门的控制函数改为指数函数,将门的值域从 (0,1) 扩大到了 (0,+∞),从而更加灵活地控制过去记忆保留与当前记忆输入的混合比例。


本章节详细介绍 eLSTM 模型的设计动机、技术原理。关于 eLSTM 的灵感来源,有关 xLSTM 模型的技术原理拆解已经在早先发布的报告中做了比较详尽的介绍,具体内容可参见相关报告《扩展长短期记忆网络 xLSTM——人工智能系列之三》。限于篇幅,本节仅对 eLSTM 模型进行详细介绍。



2.1   LSTM 的局限性——长步信息遗失


2.1.1 LSTM 的基本原理


LSTM的核心思想是引入一种特殊的内部状态机制——记忆单元(memory cell)来管理隐状态中记录的信息,通过几个门结构对其进行控制:输出门(output gate)用来从单元中输出条目;输入门(input gate)用于控制数据的读入;遗忘门(forget gate)用于重置记忆单元的内容。这三种门结构相配合的机制可以决定什么时候该对隐状态输入的信息作记忆,什么时候忽略过期的隐状态信息。同为隐藏层的输出,记忆单元仅用于网络内部信息的维护,隐状态则会传递到输出层用于预测当前时间步的输出结果。



图1 展示了 LSTM模型的网络及隐藏层结构。LSTM模型中的门均为取值范围为(0,1)的矩阵,代表输入的数据通过门之后保留的比例,因此选择sigmoid函数作为全连接层的激活函数。候选记忆  则为了保持其值的范围与记忆单元  以及隐状态  相同,使用tanh函数作为全连接层的激活函数。这四种参数的计算方式相同。

2.1.2 LSTM 的长步信息遗失问题


LSTM 的门控是一个非常具有开创性的设计,但随着模型需要处理的任务越发复杂,需要接收的输入序列也越来越长,传统的 LSTM 暴露出了长步信息遗失的缺陷。


循环神经网络的长步信息遗失是指:当输入序列较长时,隐变量中携带的记忆随着时间步的推移不断被新的输入所挤占,最终完全消失的现象。从理论上来说,更长的序列所携带的依赖关系相较短序列更多,因此增加输入序列的长度应该使模型预测的准确率更高,表现更好。但循环神经网络存在两方面的问题,无法使用更长的输入序列获得更好的模型性能:一是循环神经网络沿时间反向传播(Back-Propagation Through Time,BPTT)的过程中,如果序列长度较大,极易发生梯度爆炸或梯度消失问题,导致训练无法正确进行,因为不得不使用梯度裁剪等手段以及对序列长度进行控制,来优先保证模型能正常训练、收敛。二就是长步信息遗失,序列早期的信息传递到最新时间步时已经所剩无几,对于模型预测的帮助聊胜于无。


LSTM 的提出便是为了缓解 RNN 模型的以上两个问题:序列早期的信息能够存储在隐变量之外的记忆细胞中,能够更好地对早期记忆进行存储;门控则能够起到控制梯度范围的效果,缓解梯度爆炸和梯度消失问题。因此,LSTM 在长序列问题上的处理能力相较于 RNN 有了很好的提升。



那么反过来说,如果有一种机制能够在训练过程中修改过去做出的记忆舍弃决策,解决 LSTM 的长步记忆遗失问题,则可以使 LSTM 模型的长序列处理能力得到进一步的增强。eLSTM 模型就是通过使用指数函数代替 Sigmoid 函数作为输入门和遗忘门的激活函数来达成上述目标的。


2.2   指数门控的LSTM—— eLSTM


2.2.1 Sigmoid 函数与指数函数

Sigmoid 函数的曲线平滑,对于小范围的输入变化响应较小,这种特性有助于减少噪声和异常值对模型性能的影响,但在另一方面会导致记忆单元更新时,调整记忆混合比例更困难。

 

Exp 函数在定义域为正的区间增长迅速,能够通过大幅提高Ct中某一项的权重,来达到调整记忆混合比例的目标,同时在定义域为负的区间变动很小,能够保证另一项记忆也有留存。整体来说,exp 函数能够提供更加灵活的记忆混合模式,以及修正过去决策的能力,如图4所示。但变动过于剧烈的正区间需要采用一定的手段来稳定数值,避免数值爆炸问题。


2.2.2 eLSTM 网络的结构


eLSTM的网络组织结构与 LSTM 相同,仅改变隐藏层的计算过程,计算过程进行了修改的部分使用异色进行标注:

输入门、遗忘门的激活函数由 Sigmoid 换成 Exp 函数,输出门、候选记忆单元以及记忆单元的计算过程不变。



2.2.3 eLSTM 的 数值稳定方法


03

基于eLSTM构建选股模型


本章通过构建选股因子挖掘模型,对比在数据预处理、模型和训练参数设置等各种条件相同的前提下,eLSTM 与基准模型的表现差异,以论证 eLSTM 在建模能力上的优越性。


本章依次介绍实验各流程的设计方案,包括数据采样、数据集划分、数据预处理、网络结构搭建、模型参数设置以及训练参数设置。


3.1 数据集及预处理


(1)股票池:

2012 年至今全 A 股(除北交所外)日频量价数据。


(2)样本输入:

单支股票基准日 t前推 60 个连续交易日(包括基准日)的量价数据序列,每天包括 6 个特征:开盘价、最高价、最低价、收盘价、成交均价、成交量。依次组成的 [60*6] 的序列作为一个样本的输入。


(3)样本标签:

单支股票基准日 t后推 10 个交易日相对全A 的超额收益作为一个样本的标签。超额收益的计算以 t+2 日成交均价作为买入价格,以 t+10 日成交均价作为卖出价格,计算公式如下:

(4)采样方法及数据清洗

以每个交易日作为基准日,按照(2)、(3)中的方式进行样本输入与标签的提取,将(输入,标签)数据完整,即形状为([60*6],[1])且不含空值的样本视为有效样本,舍弃无效样本。


(5)数据集划分:

以 6 年基准日提取出的样本作为一个数据集,其中前 4 年的样本作为训练集,第5年作为验证集,第6年作为测试集。各数据集之间的时间跨度为 1 年,共 8 个数据集,最终生成 2017至2024共 8 个年份的因子。


(6)数据预处理:

    样本的输入预处理:

        在样本内进行,对每个样本的特征([60,1])分别进行时序上的 Z-Score标准化。并舍去标准化后序列中包含 nan 和 inf 的样本。

    样本的标签预处理:

        在数据集内进行(训练集、验证集、测试集分开处理),对单个数据集内的全部标签统一进行 Z-Score 标准化。

    标准化公式:


3.2 模型构建——基准模型及参数设置


以基本的 RNN 网络架构构建因子生成模型,包括RNN 层、LayerNorm 层、Dropout 层和 Linear 层,其中 RNN 层为 eLSTM/LSTM/GRU 中之一,如下图所示:


模型各层的参数设置如下表 1:


3.3 训练设置


测试区间为 2017-2024 年,每年训练一次模型,模型训练设置如下表 2:



04

模型测试结果



本章对第三章构建的模型所生成的因子进行单因子测试,并对 eLSTM 生成的因子与基线模型 LSTM、GRU生成的因子进行对比。因子测试的参数如下:


(1)回测区间:2017年至2024年7月

(2)股票池:全 A(除北交所外)、沪深 300 、中证 500、中证 1000 等股票池

(3)调仓频率:周频

(4)交易费用:不计

(5)分组层数:10 分组

(6)加权方式:等权

(7)基准:股票池等权基准


在以下回测结果中,使用 eLSTM 模型生成的因子直接简称为 eLSTM 因子,LSTM 因子、GRU 因子同理。


4.1 全A(除北交所外)


4.1.1 eLSTM 因子回测结果——全 A


回测区间内 eLSTM 因子的周频 RankIC 均值为7.53%,ICIR 为 1.00。多头组年化收益率 18.24%,夏普比率 0.87,卡玛比率 0.63。超额年化 19.96%,夏普比率 3.76,卡玛比率 4.66,回撤控制较好, 超额最大回撤为 4.29%。各组分离度较好,多头组表现大幅领先相邻组。


4.1.2 LSTM 因子回测结果——全 A


回测区间内 LSTM 因子的周频 RankIC 均值为5.84%,ICIR 为 0.64。多头组年化收益率 11.29%,夏普比率 0.52,卡玛比率 0.31。超额年化 12.90%,夏普比率 2.29,卡玛比率 2.46,超额回撤控制较好, 最大回撤为 5.24%。各组分离度较好,且多头组与空头组均与相邻组分离度较高。


4.1.3 GRU 因子回测结果——全 A


回测区间内 GRU 因子的周频 RankIC 均值为6.76%,ICIR 为 0.86。多头组年化收益率 13.88%,夏普比率 0.67,卡玛比率 0.47。超额年化 15.53%,夏普比率 3.07,卡玛比率 3.62,超额回撤控制较好, 最大回撤为 4.29%。各组分离度较好,多头组与相邻组分离度较高。


4.1.4 因子回测结果对比——全 A



比较三组因子在全 A 股票池中的表现,结果表明,在相同的参数设及训练设置下得到的eLSTM 因子各方面表现均优于 LSTM 因子和 GRU 因子。在多头组收益率方面eLSTM 因子大幅领先;在回撤控制方面,eLSTM 因子与 GRU 因子相近,领先 LSTM 因子较多。


4.2 沪深 300 成分股


4.2.1 eLSTM 因子回测结果——沪深 300


回测区间内 eLSTM 因子的周频 RankIC 均值为4.74%,ICIR 为 0.41。多头组年化收益率 18.49%,夏普比率 0.96,卡玛比率 0.68。超额年化 17.49%,夏普比率 1.88,卡玛比率 1.61。多头组具有极高的分离度,但超额回撤控制不如全 A 选股表现。


4.2.2 LSTM 因子回测结果——沪深 300


回测区间内 LSTM 因子的周频 RankIC 均值为3.10%,ICIR 为0.23。多头组年化收益率 12.40%,夏普比率 0.64,卡玛比率 0.48。超额年化 11.45%,夏普比率 1.29,卡玛比率 1.27。多头组具有极高的分离度,但回撤控制不佳。


4.2.3 GRU 因子回测结果——沪深 300


回测区间内 GRU 因子的周频 RankIC 均值为4.37%,ICIR 为 0.36。多头组年化收益率 13.72%,夏普比率 0.73,卡玛比率 0.45。超额年化 12.77%,夏普比率 1.49,卡玛比率 0.86。多头组具有较高的分离度,但回撤控制不佳。


4.2.4 因子回测结果对比——沪深300



比较三组因子在沪深 300股票池中的表现,结果表明, eLSTM 因子各方面表现均优于 LSTM 因子和 GRU 因子。在多头组收益率方面eLSTM 因子大幅领先;在回撤控制方面,eLSTM 因子与 LSTM 因子相近,领先 GRU 因子较多。相比于全A 选股,因子在沪深 300 股票池中的表现主要差距在回撤控制上,一方面是因为模型在全 A 训练集中进行训练,另一方面是因为沪深 300 成分股数量相对于全 A 太少,十分组的稳定性会相较于全 A 更差。


4.3  中证 500 成分股


4.3.1 eLSTM 因子回测结果—— 中证500


回测区间内 eLSTM 因子的周频 RankIC 均值为5.60%,ICIR 为 0.58。多头组年化收益率 13.00%,夏普比率 0.64,卡玛比率 0.49。超额年化 14.03%,夏普比率 1.94,卡玛比率 2.41。多头组具有较高的分离度,超额回撤控制较好,最大回撤为 5.81%。


4.3.2 LSTM 因子回测结果——中证 500


回测区间内 LSTM 因子的周频 RankIC 均值为4.27%,ICIR 为 0.39。多头组年化收益率 7.54%,夏普比率 0.37,卡玛比率 0.22。超额年化 8.53%,夏普比率 1.16,卡玛比率 1.00。多头组具有较高的分离度,但年化收益率表现较差。


4.3.3 GRU 因子回测结果—— 中证 500


回测区间内 GRU 因子的周频 RankIC 均值为4.85%,ICIR 为 0.48。多头组年化收益率 11.94%,夏普比率 0.60,卡玛比率 0.39。超额年化 12.96%,夏普比率 1.97,卡玛比率 1.94。多头组具有较高的分离度。


4.3.4 因子回测结果对比—— 中证 500



比较三组因子在中证 500股票池中的表现,结果表明, eLSTM 因子各方面表现均优于 LSTM 因子和 GRU 因子,但与 GRU 因子差距不明显。在多头组收益率方面LSTM 因子与其余两组因子差距明显;在回撤控制方面,eLSTM 因子的回撤控制相比于其他两组具有一定优势。相比于全A 和沪深 300选股,eLSTM因子在中证 500 股票池中的表现主要差距在收益率方面,表明本次学习中 eLSTM 模型对于中证 500 成分股的特征在模型学习全部特征中占比较低。


4.4  中证 1000 成分股


4.4.1 eLSTM 因子回测结果——全 A


回测区间内 eLSTM 因子的周频 RankIC 均值为6.39%,ICIR 为 0.74。多头组年化收益率 12.25%,夏普比率 0.55,卡玛比率 0.39。超额年化 16.94%,夏普比率 2.60,卡玛比率 3.09。多头组具有极高的分离度,且超额回撤控制较好。


4.4.2 LSTM 因子回测结果—— 中证 1000


回测区间内 LSTM 因子的周频 RankIC 均值为5.05%,ICIR 为 0.52。多头组年化收益率 5.86%,夏普比率 0.26,卡玛比率 0.14。超额年化 10.28%,夏普比率 1.62,卡玛比率 1.38。LSTM 因子在中证 1000 股票池中的选股表现较差。


4.4.3 GRU 因子回测结果——中证 1000


回测区间内 GRU 因子的周频 RankIC 均值为5.79%,ICIR 为 0.65。多头组年化收益率 7.13%,夏普比率 0.32,卡玛比率 0.20。超额年化 11.60%,夏普比率 1.90,卡玛比率 1.49。GRU 因子在中证 1000 股票池中的选股表现较差。


4.4.4 因子回测结果对比—— 中证 1000



比较三组因子在中证 1000股票池中的表现,结果表明, eLSTM 因子各方面表现均优于 LSTM 因子和 GRU 因子。在年化收益率方面eLSTM 因子相比于其余两组因子优势明显;在回撤控制方面,eLSTM 因子的回撤控制相比于其他两组因子也具有一定优势。相比于前面几组结果,eLSTM因子在中证 1000 股票池中的表现差距较小,而 LSTM 因子 和 GRU 因子则相比前几组结果表现出了明显的差距。这表明 eLSTM 模型相比于其他两组模型,提取出的量价序列特征的范围明显更大,在不同的股票池中的表现泛化性较好。



05

总结

本报告从扩展的长短期记忆网络(xLSTM)得到灵感,使用指数门控代替了传统 LSTM 模型的 Sigmoid 门控,并采取措施对输出的数值稳定性和指数门的数值稳定性进行了控制,最终得到了性能更优秀的 eLSTM 模型。


本报告设计了控制变量实验,以全 A股的日频量价数据作为训练数据集,分别以 eLSTM/LSTM/GRU 模型为基础构建了其余网络结构相同的选股因子生成模型。在训练过程中,控制模型各项超参数与训练条件相同,并在全 A、沪深 300、中证 500、中证 1000 四个股票池中对三组因子进行了单因子测试。


测试结果表明:

(1)在全 A 范围进行选股时,eLSTM因子的多头组年化收益率以及超额年化收益率均大幅度领先 LSTM 因子和 GRU 因子,控制回撤能力也相较于另外两组因子小优。


(2)在沪深 300、中证 500、中证 1000 成分股中进行选股,即在训练集的子集中进行选股时,eLSTM 因子的表现依旧较为稳健,相比于在全 A 选股的表现退步较小。而 LSTM 因子 和 GRU 因子则在不同的股票池中均表现出了相对于在全 A 选股的较大退步。这表明 eLSTM 相比于基准模型能够更完整地提取出不同类型股票的关键信息。


以上两个结论能够证明 eLSTM 模型相对于 LSTM 模型具有明显的性能提升。同时 eLSTM 模型的性能也更优于 GRU 模型。


06

参考文献


[1] Beck M, Pöppel K, Spanring M, et al. xLSTM: Extended Long Short-Term Memory[J]. arXiv preprint arXiv:2405.04517, 2024.

07

风险提示


本报告为模型能力探索,测试结果基于历史数据,存在模型失效风险。



文章来源

完整正式报告请参见东北证券金融工程研究报告《指数门控在LSTM中的应用——eLSTM---人工智能系列之四》--2024/09/08


首席分析师:王 琦

执业证书编号:S0550521100001

联系方式:[email protected]


研究团队简介


王琦:帝国理工学院数学与金融荣誉硕士,南开大学统计学学士。2021年加入东北证券上海证券研究咨询分公司任金融工程首席分析师,研究方向为金融工程。曾任职于兴业财富资产管理有限公司,任FOF投资经理。


贾英:伦敦大学学院金融数学硕士,厦门大学数学与应用数学本科。2022年加入东北证券,研究方向为因子选股,现任东北证券上海证券研究咨询分公司金融工程组分析师。


张栋梁:复旦大学金融硕士,南京大学金融学本科。2022年加入东北证券,研究方向为因子选股,现任东北证券上海证券研究咨询分公司金融工程分析师。


江雨航:加州大学洛杉矶分校金融工程硕士,南开大学理学/经济学学士。2023年加入东北证券,研究方向为量化固收策略,现任东北证券上海证券研究咨询分公司金融工程组研究人员。


田靖航:北京大学金融硕士,上海财经大学经济学学士。2023年加入东北证券,研究方向为基金研究,现任东北证券上海证券研究咨询分公司金融工程组研究人员。


刘昱亨:北京大学计算机硕士,北京航空航天大学工学学士。2023年加入东北证券,研究方向为机器学习与衍生品量化研究,现任东北证券上海证券研究咨询分公司金融工程组研究人员。



重要声明

向下滑动查看所有内容

了解更多市场资讯,欢迎关注东北金融工程!