专栏名称: 招商定量任瞳团队
招商证券任瞳团队——定量与基金评价研究成果展示平台
目录
相关文章推荐
心禅道  ·  投资#812 ... ·  2 天前  
心禅道  ·  投资#812 ... ·  2 天前  
大道无形我有型  ·  你还是别碰的好,你大概率搞不懂的。-2025 ... ·  2 天前  
ETF长赢指数投资  ·  【指数的进入箱体振荡】 ·  3 天前  
ETF长赢指数投资  ·  【指数的进入箱体振荡】 ·  3 天前  
51好读  ›  专栏  ›  招商定量任瞳团队

【招商定量·深度报告巡礼之三】多模型集成量价Alpha策略

招商定量任瞳团队  · 公众号  ·  · 2024-08-29 09:00

正文

随着各家机构量化因子库的不断完善,人工因子的挖掘逐渐遇到瓶颈。此外因子拥挤度提升和策略同质化的现象导致传统因子多头收益率的降低。基于机器学习的非线性模型用于因子挖掘的算法逐渐受到重视。本文将基于量价数据和不同的模型探讨机器学习生成Alpha因子的表现。

  • 本文基于截面模型MLP、GBDT和时序模型GRU构建因子生成模型。在引入截面特征序列后截面模型与时序模型的因子学习能力基本处于同一水平。

  • 引入Attention机制后GRU生成的因子表现没有明显提高。可能是由于模型复杂度的提升,需要更多的样本数据和训练轮数来学习量价特征。

  • 基于GBDT的截面模型因子,在全A成分股内,RankIC为10.66%,ICIR为1.14(未年化),分20组的多头对冲年化收益率为29.84%;基于GRU的时序模型因子在全A成分股中,RankIC为11.3%,ICIR达到1.06(未年化),分20组的多头对冲年化收益率为28.83%

  • 模型集成后的得到得集成因子相比于单个模型得到的因子表现提升较为明显。集成因子与常见因子的相关性整体较低。集成因子相比于单个模型的因子RankIC提升到11.9%,ICIR达到1.13(未年化),多头收益率提高到33.11%。

  • 基于集成因子构建的TOP100策略的绝对收益表现良好,除2018年外,在单边换手率约束为40%以上时,绝对年化收益率显著为正。

  • 集成学习模型因子与常见风格因子整体相关性较低,在流动性和残差波动率风格上有一定的暴露。风格中性化后集成因子的多头收益率有所下降,但Alpha选股仍然显著。

  • 沪深300周频指增策略年化超额收益率为13.00%,信息比率为4.13,年化跟踪误差为3.15%

  • 中证500周频指增策略年化超额收益率为14.14%,信息比率为2.26,年化跟踪误差为6.23%;

  • 中证1000周频指增策略年化超额收益率为20.13%,信息比率为3.07,跟踪误差为6.55%

*风险提示: 量化策略基于历史数据统计,模型存在失效的可能性。

I

时序神经网络与其他截面学习模型

1.1. 多层感知机MLP

多层感知机MLP是最常用的神经网络组件之一。通常作为复杂神经网络的特征整合层。例如卷积神经网络CNN及其衍生模型,MLP通常出现在这些网络的输出端以整合隐含层学习到的特征。MLP的结构较为简单,通常由多层全连接层和激活函数构成。模型的复杂度由隐含层层数和隐藏层神经元个数决定。

一个2层MLP的数学模型可以表示为:

其中X为输入样本数据矩阵,W为权重矩阵,b为偏置向量。H为隐藏层输出,O为输出向量,sigma为激活函数,通常为ReLU、Sigmoid等非线性函数。

隐藏层与模型的拟合能力的简单经验关系:

1)当隐藏层为0时,神经网络只能表示线性可分的函数

2)当隐藏层为2时,可以表示任何一个有限空间到另一个有限空间的连续映射

3)当隐藏层大于3时,额外的隐藏层可以学习复杂的特征描述(自动特征工程)

隐藏层神经元个数的经验设计公式:

其中Ns为样本个数,Ni为输入神经元个数即特征维度,No为输出层神经元个数, alpha为2至10的固定常数。隐藏层层数和隐藏层神经元个数的选择通常是经验性的, 在训练集训练模型的过程中,固定迭代次数,随着隐藏层数和隐藏层神经元个数增加,训练集Loss无法显著下降,则停止增加模型复杂度。

在确定隐藏层层数和隐藏层神经元个数后,模型的表达能力基本确定。为加快模型的收敛速度,通常会在激活函数之前加入Batch Normal层来防止隐藏层输入的方差变化过大导致收敛困难。 在前期报告中,我们利用MLP和常见基本面因子和量价因子构建了非线性Alpha模型相比于线性基准Alpha模型有显著的表现提升。 证明了在Alpha模型中引入非线性确实有助于提升盈利模型的表现。

1.2. 梯度提升树GBDT

梯度提升树在业务场景中也是非常重要的一类机器学习模型。一直以来,在各类数据分析大赛的高分方案中基本都能看到基于GBDT的模型的身影。相比于多层感知机MLP这类神经网络,梯度提升树GBDT的优点主要有:

1)对样本特征维度的数量级不敏感

2)更适合处理表格类型的数据

3)模型的可解释性显著更高

4)相同硬件资源下训练速度显著更快

因此在各类处理表格数据类型的数据分析场景中,梯度提升树总能获得不错的表现。

GBDT结合了Gradient Boosting算法和树模型,训练过程和决策过程与神经网络存在明显的区别。 其训练迭代过程可以表述为:

其中T为第m个弱分类器,通常为CART决策树,在第m次迭代的过程中,通过经验风险最小化获得对决策树theta的参数估计 。在上述通用的Boosting框架下,Gradient Boosting每次迭代拟合的目标为样本相对于原始目标的负梯度:

梯度提升(Gradient Boosting)和梯度下降(Gradient Descent)有异曲同工之妙,前者在参数空间W迭代,后者在函数空间F迭代。两者优化的方向均为损失函数的负梯度方向。

GBDT的工程化实现主要包括:XGBoost、LightGBM等,与原始的GBDT算法不同, XGBoost和LightGBM在单步迭代的过程使用了二阶导的信息比原始GBDT算法更快。此外,这些工程实现在Feature Splitting、Leaf Growing、Missing Handling和Data Paralleling都有不同形式的优化,可以参考相关文献,这里不再赘述。

MLP和GBDT均为截面学习模型,在没有特征工程的前提下无法提取时序信息。在基于MLP和GBDT的因子生成算法中,通常将时序上所有时间点的样本看作同一分布的样本。忽略了时间序列的信息。

1.3. 时序神经网络RNN

循环神经网络RNN通常也被称为时序神经网络,可以看作为多个时间截面的MLP通过时序状态H传递时序信息。单个时间步t的数学模型如下:

其中X,W,b分别为样本矩阵、权重矩阵和偏置。phi为激活函数,通常为tanh, O为输出。

随着RNN序列的增加,梯度消失和梯度爆炸的问题不可避免,这限制了其对长期依赖关系的建模能力。为了解决这个问题,提出了改进的 RNN模型,例如长短期记忆网络(LSTM)和门控循环单元(GRU),它们引入了门控机制来控制记忆状态的更新,改善了对长序列的建模能力。GRU相比于LSTM将门控机制中的“遗忘门”和“输入门”合并为一个“更新门”。 研究(Chung et al., 2014)表明GRU相比于LSTM通常能够获得相同 的模型性能但计算速度更快,因此本文中以GRU作为时序神经网络的基础模型。

GRU的单个时间步t的数学模型如下:

其中 为重置门, 为更新门, 为Hadamard积, GRU一定程度地缓解了梯度爆炸和梯度消失的问题,提高了模型学习长序列的能力。 MLP和GBDT为截面学习模型,而RNN模型可以看作为引入了时序信息的MLP,理论上来说,RNN这类时序模型作为Alpha生成模型相比于截面模型能够有更好的表现。在下一个章节中,本文将以日线级别的量价数据作为数据集,进一步探究时序和截面模型在量价Alpha生成算法中的表现差异。

II

基于日线量价数据生成Alpha

2.1. 数据集和模型设定说明

本章基于日线级别的量价数据来探讨不同模型的Alpha学习能力。日线量价数据包括:OPEN、HIGH、LOW、CLOSE、VWAP、VOLUME六个字段。数据集从2011年10月1日开始到2023年8月1日。训练集股票池包括全A股票剔除上市不满三个月,ST、*ST和停牌的股票。此外,MLP和GBDT为截面模型,为了能够一定程度上学习历史信息对截面收益率的影响, 本文增加了与GRU序列长度相同数量的量价特征即PRICE(0)、PRICE(-1)…PRICE(-N+1),成交量同理。

为了保证可交易性以及所学习到的因子换手率能够有一定的降低,这里采用次日间隔10天的VWAP价格收益率作为训练label。因为最终实现的指数增强策略以周频调仓,过高的因子换手率会显著侵蚀策略的收益。同时为了与交易情景对应,batch的定义为交易日截面的所有股票作为batch,即训练的过程中,batch大小随时间变化。分析因子分组收益率以及策略实现,均按周一为调仓日并持仓一周。其他固定设置如下:

不同时期市场风格的不同会显著影响Alpha的结构,为了最终学习到的Alpha能够适应最近区间的市场风格,这里采用滚动训练的方式。同时考虑到原始数据集长度的问题,训练前期训练集长度稍短,这里采用训练集随时间拓展的构建方式,即随着时间推移,训练集的长度不断增加,验证集和测试集的长度保持不变。 同时为了防止信息泄露,剔除训练集、验证集、测试集相邻的10天样本数据。

MLP的参数主要包括学习率、隐藏层、隐藏层神经元个数等,具体参数设置如表3所示。

GBDT模型这里采用LightGBM作为基础模型。LightGBM的参数如表4所示。

随着以Transformer为基础的各类模型在NLP领域和众多其他领域大放异彩。Attention机制已经在各类模型中广泛运用。因此, 本文在GRU模型的基础上,增加基于序列隐藏状态的Self Attention并与原始GRU模型的输出特征拼接构建了GRU with Attention模型,以下简称AGRU。

AGRU相比于GRU增加了对隐藏层输出的Attention分数的计算,理论上来说可以带来增量的时序信息。将隐藏层输出得到的Attention分数与0时间步的GRU输出拼接到一起进入全连接层,最终得到输出。

GRU类的模型的参数主要包括隐藏层层数、特征维度、序列长度等,具体设定如表5所示。

所有模型的数据集参数均按表2中的参数设置。由于模型训练的随机性,本文所有模型均选取不同的固定随机种子训练三次后,在测试集按照三个模型的输出取平均作为因子值。

2.2. 不同模型生成的Alpha表现分析

按照上一节中的数据集说明和模型参数,本文构建了MLP、GBDT、GRU、AGRU四个因子生成模型。本节将重点分析四个模型所生成的因子表现。 单因子测试均按5日滚动调仓,且不考虑费率。 回测期为20170101至20230801,收益率分组为20组,多头组(TOP组)为20组中的第1组,空头组为20组中的第20组。IC胜率为周度RankIC大于0的比率。ICIR为未年化的指标。多头收益率为绝对收益率、多头夏普为年化指标,多头平均换手率为单边换手率。

图11和图12的对冲基准均为同时期中证全指指数。回测期为2017年1月至2023年7月。相对净值计算方式为:策略净值/基准净值-1。

其他成分股,沪深300、中证500、中证1000的表现如表所示,分组数量为10组。收益率为年化绝对收益率,调仓周期为周频。







请到「今天看啥」查看全文