专栏名称: 国金证券研究
发布国金证券研究所研究成果,沟通证券研究信息,交流证券研究经验。
目录
相关文章推荐
武汉本地宝  ·  武汉5个适合一家人游玩好去处推荐! ·  2 天前  
柳州晚报  ·  今年首次公布!柳州拿下满分! ·  昨天  
河南环境  ·  一图读懂 | ... ·  2 天前  
河北生态环境发布  ·  科技赋能,河北省数智环保执法服务系统让执法更 ... ·  3 天前  
河北生态环境发布  ·  科技赋能,河北省数智环保执法服务系统让执法更 ... ·  3 天前  
51好读  ›  专栏  ›  国金证券研究

国金金融工程高智威丨Alpha掘金系列之十五:基于OpenFE框架的机器学习Level2高频特征挖掘方法

国金证券研究  · 公众号  ·  · 2025-01-21 08:24

正文

金选·核心观点

因子挖掘与OpenFE框架介绍


我们在前期报告中进行了部分高频因子构建研究,但部分在日频量价因子中可以使用的自动化挖掘模式,如遗传规划等,在高频领域实现有较大困难。在本篇报告中,我们借鉴OpenFE的框架,实现对高频因子的批量化挖掘。该框架介绍了一种在机器学习领域自动化生成特征的通用方法,将基本特征转换为信息量更大的特征,投喂各类模型后能获得更好效果。该框架提出了先扩张(Expansion)再缩减(Reduction)的方案,并将缩减过程分为两步(连续二分法和特征重要性归因)。


在扩张阶段,框架会使用我们设计的所有算子进行特征遍历,一次性得到大量特征。在缩减阶段,首先使用连续二分法对样本数据随机采样,随着轮次增加,所用样本长度逐渐提升、特征数量逐渐减少。同时使用FeatureBoost避免每次都使用所有特征投喂LGBM进行特征有效性验证,两种方式结合大幅提升了特征筛选效率。


OpenFE高频因子挖掘方案


经过统计、归纳发现,大部分高频因子均可表示成Mask、基础特征和聚合算子的组合形式。我们梳理归纳了主流的Mask和聚合算子,使用高频数据的字段进行遍历生成备选特征。经过对比可以发现,大部分高频因子均可由此方式组合得到。在计算阶段,我们将数据首先转换为tensor转移至GPU使用torch计算,运算速度得到大幅提升。在验证阶段,我们为了保证效率,使用IC作为评价指标进行逐步特征剔除。


OpenFE高频因子测试结果与选股策略


从测试结果发现,由此方法所得因子整体均有较好的选股效果。因子的周度IC均值ABS平均为2.57%。而若将这些因子作为特征输入LGBM模型,整体表现能有进一步提升,IC均值6.42%,多头年化超额7.87%。对比前期报告中LGBM使用Alpha158和GJQuant所得因子,合成后因子表现还能有所改善,IC均值8.76%,多头年化超额19.34%,多头超额回撤仅为3.86%,多空年化收益率67.08%,多空最大回撤16.98%。


考虑扣费后,所构建的中证1000选股策略在2022年-2024年10月长期的市场波动中,获得了8.62%的年化超额收益率,策略的信息比率0.77,超额最大回撤11.95%。说明使用上述方法所得高频因子在经过LGBM模型训练后,可以在中证1000股票池中获得相对较稳定的超额收益。结合我们前期报告中所使用特征数据Alpha158和GJQuant所得模型的合成因子构建策略,年化超额收益率为13.68%,超额最大回撤仅为4.38%,信息比率为1.98。


风险提示







请到「今天看啥」查看全文