专栏名称: 招商定量任瞳团队
招商证券任瞳团队——定量与基金评价研究成果展示平台
目录
相关文章推荐
新北方  ·  幸福之旅:开往春天的专列① 港澳 + ... ·  1小时前  
新北方  ·  再冷一天,辽宁气温即将大反转! ·  6 小时前  
新北方  ·  来东北,不到大连“血”后悔!福利来了 ·  2 天前  
51好读  ›  专栏  ›  招商定量任瞳团队

【招商定量·深度报告巡礼之四】利用基本面信息改进机器学习因子

招商定量任瞳团队  · 公众号  ·  · 2024-08-29 09:00

正文

在机器学习因子生成任务中,如何防止模型过拟合使得模型在样本外能够有稳定的表现一直是关注的重点。引入基本面信息可以从两个方面改进机器学习因子的表现,一是调整机器学习量价因子的学习目标;二是作为互补信息改进综合因子的表现。此外采用梯度提升树模型提高机器学习因子迭代频率可以进一步提高综合因子的表现。

  • 在引入周频量价信息后,原量价机器学习模型的因子表现有所提升,IC提升较为明显,多头收益率提升有限。

  • 量价信息只是资产定价模型中的一个维度,融入基本面信息可以显著改善综合机器学习因子的表现。在机器学习模型融入基本面信息的方式主要有两个维度,一个是风险维度即对目标收益率进行基本面风格的剔除。另一个是利用基本面Alpha因子与量价因子的互补性改进机器学习因子模型的表现。

  • 对学习目标进行风格剔除时,所选的风格不同,对模型的结果存在一定的影响。总体来看,行业、市值、Beta这三类风险对模型影响最大。

  • 利用梯度提升树融入基本面因子后,综合因子的多头表现相比于机器学习量价因子提升明显,年化对冲收益率达到38.97%。

  • 本文基于综合因子构建了基于宽基指数的指数增强策略,全市场选股的沪深300周频指增策略年化超额收益率为13.83%,超额最大回撤2.82%,信息比率为4.14,年化跟踪误差为3.73%。

  • 全市场选股的中证500周频指增策略年化超额收益率为22.22%,超额最大回撤6.98%,信息比率为4.03,年化跟踪误差为5.65%。

  • 全市场选股的中证1000周频指增策略年化超额收益率为27.06%,超额最大回撤6.14%,信息比率为4.69,年化跟踪误差为5.71%。

*风险提示: 量化策略基于历史数据统计,模型存在失效的可能性。

I

时序神经网络与其他截面学习模型

1.1. 量价机器学习模型遇到的问题

前期报告中,基于多模型的量价因子在全A和各宽基成分股中都取得了良好的表现。但我们也发现其中存在的诸多问题:

1)不同模型(截面模型和时序模型)学习到的因子平均截面相关性较高;

2)提升模型复杂度并未能提高模型的表现(增加模型隐藏层层数或者采用更复杂的模型);

3)多头端对IC的贡献显著低于空头端对IC的贡献。

在实践中,我们发现不同模型之间学习到的信息同质化较为明显。这可能是由于输入的特征相同(前期报告中仅利用了日频的原始量价信息,并做了相同处理),且学习目标一致,结果的差异主要体现在模型自身的学习逻辑。为了改善学习到的量价因子表现,我们尝试了在原始日线量价信息的基础上构建的不同量价特征和引入不同频率的量价信息。

1.2. 引入长周期量价信息改进因子表现

在前期报告中,我们利用日频量价原始特征包括:OPEN、HIGH、LOW、CLOSE、VOLUME、VWAP即开高低收价格、成交量和VWAP价格六个字段来构建量价因子,并在不同的成分 股内取得了不错的效果。

这里为了进一步提高量价因子的表现,这里借鉴微软Qlib构建的158个日频量价因子作为Alpha158数据集,同时我们按照图3的模式,在每个交易日回溯150个交易日,按照间隔5天采样OHLC价格、VWAP价格以及成交量作为周频量价数据集,日频的K线数据作为日频量价数据集。

按照上述设定,我们分别利用不同的数据集来训练得到三个数据集对应得因子,最后等权加权得到综合量价因子。

周频量价包括与日线一致的开高低收价格、成交量和VWAP价格六个字段。Alpha158仅输入截面模型包括(MLP、GBDT);周频量价数据仅输入时序模型(GRU);日线量价数据同时输入两类模型。

从实践的结果来看,相对复杂的Alpha158数据从最终输出的因子角度来看,与原始的日频量价信息无明显表现区别,这也说明了机器学习模型可以从原始量价信息中学习到Alpha因子。结合周频量价信息后综合量价因子的表现有所提升。

另一方面,从综合量价因子与前期报告中构建的日频量价因子的对比来看,IC的提升、IC胜率、相对是比较显著的。但多头收益率的提升相对有限。且最大回撤的表现有所下降。总体来看提升幅度有限。

在本文的量价因子生成任务中,我们尝试引入了不同频率的量价信息和人工设计的日频量价因子来改进综合量价因子的表现,从结果来看,似乎遇到了一定的瓶颈, 因子的统计信息例如IC均值、ICIR等维度提升较为显著,但在选股场景下,我们更关注的多头收益率和多头最大回撤提升的幅度并不如预期。

进一步思考,量价因子仅仅只是Alpha的一个维度。从实践的经验来看,量价类因子的统计特性(IC均值、IC胜率等)往往表现出色,但分组收益率的对称性(多头的正Alpha收益率相对于空头的负Alpha收益)往往欠佳。因此我们可以从基本面信息的维度来进一步改进机器学习因子模型的表现。

II

基本面信息融入机器学习因子模型

2.1. 机器学习目标的基本面风险剔除

在传统因子模型中,我们可以将资产的预期收益率拆解为可以被现有的因子模型所解释的部分和不能解释的部分。可以被解释的部分我们通常把这部分收益率视为风险部分或者Beta部分,而不能被解释的部分通常被视为Alpha部分。

其中r_(t+1)为t+1时刻的资产收益率向量,beta_(m,t)为第m个风险因子,f_(m,t+1)为第m个风险因子的收益率。针对不同的股票市场,能够解释股票收益率的风险有一定的区别。在A股市场,业界较为常用的风险模型有BARRA CNE5以及更新的CNE6版本。

alpha_(t+1)为收益预测模型得到的预期收益率。通常我们在构建收益模型的时候会对常见的风险进行线性剔除,以排除风险对收益预测模型的影响,得到更纯粹的Alpha信息,比较常见的操作就是对构建的因子作为因变量、行业和市值因子作为自变量进行回归后取残差。

在机器学习的场景下,我们希望更准确地估计未来资产的预期收益率。如果我们的学习目标是 ,那么模型中其实也隐含了各类风险的信息。所以更合理的做法是将 作为学习目标,也就是风险调整的收益率。

当前业界通常的做法是将行业和市值作为主要风险进行剔除:

其中X_(i,j)为行业因子,通常使用申万或者中信一级行业分类对股票进行标记,如果属于该行业则X_(i,j)=1,否则为0。size为市值因子,f为通过OLS估计的因子收益率。target(i)即为经过行业市值风险调整的收益率,经过截面标准化以后即为学习目标输入模型。

采用线性剔除的方式一定程度上减小了常见风险因子对模型的学习目标收益率的影响,根据资产收益率的泰勒级数展开式,我们知道调整后的收益率中仍然包含了这些风险因子的高阶项,但这些风险因子的高阶项不一定表征了某类风险,因此本文仍然使用线性剔除的方式,通过观察剔除不同风险因子来实证研究对机器学习模型结果的影响。

在日频量价数据集上可以直观地看出经过风险调整/未经过风险调整的学习目标对学习结果的影响。

从结果来看,未经过风险调整的收益率作为学习目标,从IC和多头收益率来看最终学习到的因子表现都有明显的下降。 这说明对学习目标的收益率进行风险调整有助于显著提高机器学习因子的表现。

进一步我们测试剔除不同的风险因子对结果的影响,为了节省计算资源和时间,这里仅以GBDT模型和日频量价数据集来观察剔除不同的风格对模型的影响。本文测试的风格因子在表5中说明。行业因子为申万一级行业分类因子。

这里测试三个剔除组合:

1) 仅剔除市值、行业因子

2) 剔除市值、行业、Beta因子

3) 剔除所有风险因子

从测试的结果可以看出剔除不同的风险因子对结果存在比较明显的差异。剔除市值和行业两类风险的结果优于剔除所有大类风险,优于不剔除风险。而剔除不同的风险的结果也存在一定的差异,剔除行业、市值和Beta的结果优于其他剔除组合, 这可能也说明了其他常见风格中蕴含了一定的Alpha信息。

事实上,在进行全市场的指数增强策略构建的时候,我们也仅仅对行业、市值以及成分股偏离等(对Beta的主动暴露)进行了严格控制。对其他风格的控制则相对松弛一些。

在本节中,本文探讨了包括基本面风险因子在内常见风格/风险因子对机器学习模型的影响。未来收益率中包含了不同的风险因子的影响。因此对学习目标收益率的风险调整是十分必要的。

从实证的结果来看,剔除行业、市值和Beta模型结果的表现最优,优于剔除所有常见风格,也优于仅剔除市值和行业因子。机器学习模型仍能够从其他常见风格中捕捉到一定Alpha信息,剔除过多的风格反而降低了模型的性能表现。

2.2. 量价类因子对比基本面类因子

在前一章节中,我们从风险的角度探讨基本面风格因子对机器学习模型的影响。本节主要从收益模型的角度探讨如何在Alpha因子学习的过程中利用基本面因子的信息来提高综合因子的表现。

其中ENS为集成模型的方式,Model为不同的机器学习模型, 为t时刻的特征矩阵, 为预期收益率/综合因子。在本文之前的章节中主要以量价特征为主。在引入Alpha158因子和周频量价特征后,并对学习目标收益率进行合适的风险调整之后结果相对于原始的量价综合因子有了一定幅度的提升,但同时我们也观察到综合量价因子的多头收益率提升幅度有限。此外一般量价类因子有两个比较明显的特征:

1)多头端Alpha显著低于空头端Alpha

2)换手率较高

图5和图6展示了一个典型的量价因子的年化对冲收益率和多空净值表现。因子测试的股票池为中证全指成分股,测试区间为:20170101-20240308;调仓周期为20个交易日,对冲基准为成分股等权收益率,分组为10组。该因子多空净值表现优秀,但多头组收益率(第1组)远低于空头组收益率(第10组)。该因子RankIC为0.049,ICIR为1.02,IC胜率为83.93%。

图8和图9展示了单季度市盈率倒数因子(EP_SQ)的分组对冲净值和多空净值走势,测试设置与上文一致。该因子RankIC均值为0.559,ICIR为0.73,IC胜率为76.57%,该因子的分组收益率对称性表现良好,选股能力在多头端体现的更明显。对比两因子可以看出该基本面因子RankIC均值略好于上述量价因子,多头选股能力更优,且换手率远低于上述量价因子。但从多空净值走势来看稳定性较差。在构建多头策略的时候,较低的多头Alpha以及较高的换手率都会带来一定的负面影响。因此基本面因子与量价因子可以形成一定的互补。

从改善多头收益率表现,降低换手率的角度来看,引入基本面特征来改善综合机器学习因子的表现可能是一个可行的思路。

本文选取了现有的基本面特征作为研究数据集,说明见表7中的说明,这些基本面因子由于发布较早,选股能力已经有所衰减,多空组合的波动性也显著增大。借助机器学习模型,仍然可以从这些基本面信息/因子中获得增量的Alpha信息。

由于基本面信息的更新频率相对较低,通常以月度为单位;覆盖度也远低于量价类因子(例如分析师预期类的因子覆盖率相对较低),若在时序和截面上进行填充则会引入一定的噪声。

决策树模型则比较适合处理带有较多缺失值的数据集,从实证的过程来看,树模型的稳定性也好于神经网络类的模型。因此本文处理基本面类的特征时仅使用GBDT来进行因子构建。

2.3. 结合基本面信息构建综合因子

在上一节中,本文探讨了量价类因子和基本面类因子的典型区别。主要体现在换手率、分组收益率的对称性以及多空净值的稳定性。为了从常见基本面特征中进一步提取Alpha信息,这里采用GBDT作为基础学习模型。

按照以上设定训练模型得到综合基本面因子的结果,同样按照5日滚动调仓来测试综合基本面因子的表现。综合基本面因子的RankIC均值为0.043,ICIR为0.39,IC胜率为64.75%。从结果来看,综合基本面因子的多头端收益率显著高于空头端收益率,符合基本面类因子的特征。

在前文中,利用多个模型和多频率的量价信息构建的综合量价因子和本节构建的综合基本面因子形成一定的互补。按照基本面综合因子的构建方式,利用基本面特征+综合量价因子重新构建综合机器学习因子,具体构建流程如图13所示。

按照上文常规测试流程对综合因子进行测试,回溯区为:20170101-20240308,股票池为同时期中证全指成分股。调仓周期为5日。分组数为20组,分组年化收益率的对冲基准为成分股等权收益率。可以看出相比于综合量价因子的多头收益率有了明显改善。多头换手率也下降到56.6%。

其中沪深300、中证500、中证1000的分组为10组,全A的分组为20组。相比于综合量价因子,结合基本面的综合因子RankIC和ICIR有所下降,但多头收益率、多头夏普、多头换手率有比较明显的提升,多头最大回撤也有一定的下降。 总体来看,融入基本面信息后,因子多头的表现有了显著提升,但因子的统计特性(RankIC均值、ICIR、IC胜率)则有一定下降。

从截面相关性来看,综合因子与流动性、市值、残差波动率的相关性稍高。在其他风格因子的暴露较小。进一步通过现有的因子模型检验可以观察综合因子Alpha的显著性和稳定性。

排除掉常见风格的影响后,综合因子的RankIC下降到0.78,ICIR提高到1.55,IC的胜率提高到94.88%,IC的T值为64.61。从因子的统计量来看,剔除掉常见风格后,综合因子的稳定性有了显著提升。从图18,图19的结果来看,剔除掉现有的行业、风格影响后综合因子的IC和分组净值都保持了良好的表现,这说明综合因子的收益来源受风格影响较小,其Alpha显著性和稳定性通过了现有因子模型的检验。

通过构建指数增强策略可以进一步检验在实际策略构建的场景下综合因子的表现。

III

周频指数增强策略构建

本章节将基于上文构建的综合因子构建指数增强策略,指数增强的优化目标为最大化预期收益率,优化目标如下:

其中mu为预期收益率,w为当前组合权重向量,w_t为t时刻持仓权重, w_(t-1)为上一个持仓周期的持仓权重。

常见约束如下:

1) 风格约束,用于保证组合的风格偏离不超过下限 和上限

2) 行业偏离约束,用于保证组合行业占比的主动偏离不超过下限 和上限

3) 个股权重的相对偏离

4) 成分股占比约束,保证成分股数量占比

5) 换手率约束,在优化失败时候,优先删除该约束,保证组合权重能够顺利求解

6) 全额投资约束,同时约束 大于0即无卖空限制

本文中各类指数增强策略的设置如下:

1) 风格偏离约束:

a) 沪深300指增策略,估值、成长等风格为最大偏离0.01个标准差、行业占比偏离约束为1%;

b) 中证500指增策略,风格约束为0.01个标准差,行业占比偏离约束为1%;

c) 中证1000指增策略,风格约束为0.02个标准差,行业占比偏离约束为10%;

2)  换手率约束:双边20%,40%,60%

3) 跟踪误差约束:年化6%

4) 成分股约束:无限制(全市场选股)/ 100%成分股约束

5) 费率设置:买入费率千分之一,卖出费率千分之二

6) 其他交易设置:成交价格为次日复权WVAP价格,停牌无法买入卖出、涨停无法买入,跌停无法卖出。tvr表示双边换手率

3.1. 沪深300指数增强策略(周频)







请到「今天看啥」查看全文