专栏名称: 华泰睿思
华泰证券研究所微信公众号,致力于为投资者提供研究团队的最新研究成果,推介优质研报,并预告最新的联合调研、专题会议等活动。
目录
相关文章推荐
天风研究  ·  天风·电子 | 豆包新增视觉模型, ... ·  昨天  
国泰君安证券研究  ·  国君每日一图|粮食安全,种子先行 ·  2 天前  
证券时报  ·  贵州茅台,重大宣布! ·  3 天前  
国泰君安证券研究  ·  邀请函|情绪新消费 国泰君安消费大组主题论坛 ·  3 天前  
国泰君安证券研究  ·  就在今天|“聚变梦想 低碳未来” ... ·  4 天前  
51好读  ›  专栏  ›  华泰睿思

【华泰金工林晓明团队】金工: 人工智能选股之朴素贝叶斯模型

华泰睿思  · 公众号  · 证券  · 2017-08-18 07:46

正文


核心观点


本报告对朴素贝叶斯模型及线性判别分析、二次判别分析进行系统测试

“生成模型”是机器学习中监督学习方法的一类。与“判别模型”学习决策函数和条件概率不同,生成模型主要学习的是联合概率分布。本文中,我们从朴素贝叶斯算法入手,分析比较了几种常见的生成模型(包括线性判别分析和二次判别分析)应用于多因子选股的异同,希望对本领域的投资者产生有实用意义的参考价值。


朴素贝叶斯模型构建细节:月频滚动训练,结合基于时间序列的交叉验证

朴素贝叶斯模型的构建包括特征和标签提取、特征预处理、训练集合成和滚动训练等步骤。我们的模型设置为月频换仓,在每个月月底重新训练并交叉验证一次。我们采用了一种基于时间序列的交叉验证方法,其核心思想在于,交叉验证集中的样本在时间序列上始终位于训练集样本之后,验证时不会用到未来信息。交叉验证结果显示,训练期越长、模型预测效果越好。最终在每个月底可以产生对全部个股下期上涨概率的预测值,然后根据正确率、AUC等指标以及策略回测结果对模型进行评价。


朴素贝叶斯在指数成份内选股效果较好,线性判别分析全A选股效果较好

对于沪深300成份股内选股的行业中性策略(每个行业选5只个股),朴素贝叶斯、线性判别分析和二次判别分析的年化超额收益率分别为7.69%、7.89%、6.12%,信息比率为1.84、1.77、1.50。对于中证500成份股内选股的行业中性策略,三种方法年化超额收益率分别为9.64%、8.29%、8.13%,信息比率为2.14、2.01、1.98。对于全A选股的行业中性策略,三种方法相对于中证500的年化超额收益率分别为18.9%、22.2%、20.1%,信息比率为 3.00、3.49、3.38。总体而言,朴素贝叶斯在沪深300和中证500成份内选股表现较优,线性判别分析全A选股表现较好。


线性判别分析法的分类效果最佳,其在某种意义下等价于线性回归

经过对比,我们发现线性判别分析法的测试集正确率、AUC普遍优于其它算法。通过简单的计算,我们发现股票的特征因子之间存在着相关性,且对于不同类别的股票这种相关性几乎一致,线性判别分析的假设最符合实际情况。在二分类问题中,线性判别分析在某种意义上等价于线性回归,所以这进一步证明了线性回归在多因子选股体系中的优异性。同时,我们发现虽然高斯朴素贝叶斯的假设在实践中不合理,但其依旧表现出了良好的分类效果,并且是稳健的,常见的改进方法对结果影响并不大。


风险提示:通过朴素贝叶斯、LDA、QDA模型构建选股策略是历史经验的总结,存在失效的可能。


如需阅读全文,请点击文章最底部阅读全文!



研究员简介


欢迎关注华泰证券研究所官方微信平台!

点击阅读原文,获取PDF全文!