专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  本文提出了一种基于语义熵的 LLM ... ·  3 天前  
爱可可-爱生活  ·  《爱可可微博热门分享(10.23)》 ... ·  3 天前  
李继刚  ·  Claude Prompt:一字之诗 ·  5 天前  
李继刚  ·  Claude Prompt:一字之诗 ·  5 天前  
51好读  ›  专栏  ›  机器学习研究会

基于深度组合的选股策略

机器学习研究会  · 公众号  · AI  · 2017-07-25 22:53

正文

导读:

深度学习在语音、视频、自然语言处理等领域的成功使得越来越多的投资者开始尝试将其运用到投资中,然而,更高的噪音、更复杂的影响因素使得很多经典算法并不适用。本篇报告借鉴国外的“深度组合”理念,尝试将深度学习的基本理念使用到选股研究中。本篇报告首先介绍了深度组合概念,然后从理论上解释了深度组合并不是方法论的创新,而是对市场不同角度的解读。之后我们对深度组合的构建方法做了详细介绍,并通过在沪深300上的选股实证为例,进一步介绍了数据处理的细节。


总体来说,深度组合的构建包含三个步骤,即通过自编码网络学习原始数据特征,转化为分类问题对T+1时期进行预测,通过指标验证组合构建的合理性并确定持仓方案。为了解决传统的神经网络投资的“黑箱”问题,我们通过自编码过程中的损失函数作为指标,对策略进行了优化。一方面,对选股池中的股票,只选取置信度高的个股进行处理;另一方面,通过该指标判断策略是否失效。我们通过实证分析中的指标检验证明了该指标确实和策略收益是高相关的,并且不存在滞后性,从而使得策略在出现回撤时有章可循。


基于上述思路,我们构建了沪深300股票池中的选股策略,该策略从2010年中至2017年中的七年时间里,在8.33%的最大回撤下获得约18.37%的年化收益,领先于传统的动量策略,并且,策略在今年取得了7.113%的超额收益。


1.引言


量化选股研究一直是量化领域经久不衰的课题,其本质是在某个特定的股票池内,通过寻找某些个股优于一般股票的“性质”,以这些性质为基础构造组合,从而得到长期跑赢基准的策略。这里的“性质”传统意义上被称为“因子”,并由此衍生出一系列研究,包括如何挖掘具有稳定超额收益的因子,如何通过因子构造最优组合,如何平衡收益、风险、成本等投资因素,等等。然而,随着传统风险管理模型的兴起,投资者会发现挖掘新的具有“边际收益”的因子越来越难,同时,已知因子的收益也随着市场风格变换越来越不稳定,有些甚至渐渐失效。因此,在这个时点,我们有必要放开思路,重新审视因子选股。


深度组合和传统的多因子体系不同,它使用深度神经网络训练出的因子进行组合构造,其最大的不同点就是无论是因子本身还是组合的构建过程都是非线性的。本篇报告即是根据国内外众多的已有研究,综合其理念,并加入了一些自己的思考,针对因子选股问题进行了一些新的尝试。我们发现,通过这种方式构建的组合,由于非线性特征的复杂性,其稳定性虽然不能和传统的多因子选股方法相比,但在一些传统选股方式受挫的年份能够较高的超额收益,从而对因子选股研究做了有益的补充。具体到实证方面,我们在沪深300内的选股策略可以在2011年至今在8.33%的回撤下跑出18.37%的年化超额收益,其中,今年以来超额收益达到7.11%,最大回撤1.33%。


2.深度组合理念


2.1.深度组合的基本概念


深度组合这个理念首次提出是由JB Heaton在其2016年9月的论文《Deep Learning in Finance: Deep Portfolios》中提出。文中提出了深度组合这个概念,但是却并没有对如何构建组合进行详细描述。这里的“组合”和组合管理中的“组合”含义并不相同,其构建目的是为了预测标普500指数的下一期收益率。但是,通过深度神经网络提取因子的思想却被和很多其他研究不谋而合。其中,Lawrence Takeuchi在其论文《Applying Deep Learning to Enhance Momentum Trading Strategies in Stocks》就详细描述了如何通过深度组合对传统的动量效应进行增强。同样,在音频处理领域大热的LSTM的算法也被运用到股票时间序列预测中,Jakob Aungiers在其论文《LSTM Neural Network for Time Series Prediction》中详细描述了他所在的对冲基金是如何运用该算法进行投资的。


然而,本篇报告并不旨在对深度学习本身进行科普性介绍,也不对其算法及其推导过程进行详细描述。相反,我们希望借鉴海内外已有研究,结合自己的思考,将深度学习算法中的核心理念运用到选股中,并解决投资中的实际问题,例如投资者谈“机器学习”而色变的“黑箱问题”,回测效果好而实际效果差的过拟合问题等。


为了让大家对深度组合有一个大致的了解,这里先简单介绍深度神经网络的概貌,至于和神经网络相关的细节问题,例如前向后向算法、神经单元的优化等问题我们不做介绍,具体实施细节属于计算机算法范畴,可以参考神经网络相关书籍文献。



如图1所示,是一个简单的深度神经网络示意图。深度神经网络和传统的神经网络在结构上并无二致,唯一区别就是字面上的“深度”,即包含了更多的隐含层。之所以要引入更“深”的结构,深度学习理论已经作了很详细的介绍,我们不再赘述,但是从投资的角度讲,由于我们每层的隐含层节点都使用简单的非线性激活函数,因此,通过增加层次,可以学习出更复杂的特征,或者所谓的非线性“因子”,从而使得网络的表达能力更强。将我们用于构建深度组合的原始信息作为输入层信息输入到神经网络中,经过网络一系列的学习过程,输出层输出我们需要构建组合的信息,整个过程即为深度神经网络构建组合的过程。可以看到,和传统的多因子组合构建方式不同,我们在整个过程中并未对因子本身做任何的处理(例如因子检验、因子正交化等),而是希望神经网络本身帮助我们完成这些任务。下面,我们来说明本文如何通过该网络构建深度组合。


2.2.深度组合的构造


本节介绍通过深度神经网络构建组合的基本思路。和传统的多因子选股体系不同,我们并不是通过个股的线性组合来构建策略,而是通过神经网络对特征进行提取,并以这些特征给出每只不同股票预期收益率区间的置信度,根据这些置信度确定组合的构造方式,具体来说步骤如下:


(a)提取市场原始信息作为输入层数据输入神经网络。例如,如果需要挖掘个股的价格信息,则可以以个股过去的T期的收益率作为原始数据输入到网络中。本篇报告中,我们希望通过对股票价格序列的研究,挖掘出价格信息中的隐含规律,因此,神经网络的输入项即为选股池内每只个股过去120日的收益率;


(b)通过自编码网络学习价格信息蕴含的非线性特征。这部分应用了深度学习中最基本的算法——自编码来构建价格特征。具体算法在第四章中详细阐述,其本质是通过一种方式将隐含在时间序列中不同股票的共同“模式”挖掘出来;


(c)利用上一步骤提取的特征对T+1期的预期收益率进行预测。为了使得输出项更加清晰,这一步我们将问题转化为传统的分类问题,即把连续的收益率数值区间化,输出落在不同收益率区间的“概率”,通过这个概率值,根据不同的投资目标构建相应组合。


转自:量化投资大家学


请点击“阅读原文”查看全文