根据《证券期货投资者适当性管理办法》及配套指引,本资料仅面向华创证券客户中的金融机构专业投资者,请勿对本资料进行任何形式的转发。若您不是华创证券客户中的金融机构专业投资者,请勿订阅、接收或使用本资料中的信息。
本资料难以设置访问权限,若给您造成不便,敬请谅解。感谢您的理解与配合。
在之前的报告《分析师推荐信号深入挖掘》、《一致预期及业绩超预期深度解析》、《季度超预期再构建及业绩超预期因子》中对行业分析师报告中的业绩因子及分析师推荐信号因子进行深入挖掘,而对于研报中的情感因子研究较少,本篇报告主要是对
基于分析师报告构建的研报情感因子进行深入研究
,多维度分析该因子的选股能力。
研报情感因子的覆盖度分析
2013年1月至今,该因子平均每天覆盖度达58%以上,覆盖比率最高可达75.39%。按中信一级行业进行分类来分析,所有的行业都有覆盖,其中医药、化工、计算机、机械、电子覆盖较多,综合金融、非银金融覆盖较少。对比各行业研报情感值的均值,可发现其具有明显的行业偏好,其中:煤炭行业、交通运输行业、钢铁行业、纺织服装行业、银行、非银金融因子均值长期小于其他行业。另外,对比市值分组后各分组的研报情感因子均值,其跟市值呈明显正相关性。
单因子测试角度分析
从RankIC的角度来分析,月度研报情感因子的RankIC均值和中位数均大于0.03,同时RankIC大于0的比例超过67%,t统计量为4.414,说明该因子对个股收益有显著预测能力;周度研报情感因子的RankIC均值和中位数接近0.02,RankIC大于0的比例超过58%,t统计量为5.263,同样说明周频因子对个股收益有较强预测能力。
从分层打分角度来分析,按中性化处理后的因子进行分组后,不同分组的线性效果非常显著,两种配置方式下第十组表现显著优于其他分组,同时月度因子的结果明显优于周度因子的结果。等权方式下,月度因子的年化收益为26%,相对等权基准的超额收益为8%,最大回撤39%,同时年化换手率9.14。市值加权方式下,月度因子的年化收益为35%,相对市值加权基准的超额收益为12%,最大回撤28%,同时年化换手率16.04。
从纯因子角度来分析,研报情感因子组合相对其他风格因子的组合表现更加稳定,最大回撤仅1%,该因子纯因子多空年化收益可达4%为所有因子中最大,同时夏普比率2.27也显著大于其他因子。
在我们之前的报告《分析师推荐信号深入挖掘》、《一致预期及业绩超预期深度解析》、《季度超预期再构建及业绩超预期因子》中对行业分析师报告中的业绩因子及分析师推荐信号因子进行挖掘。而对于研报中的情感因子研究较少,
本篇报告主要是基于分析师报告,通过对其研报中的核心观点进行提取,再利用NLP进行情感评分得到该因子,进而对该因子进行单因子IC测试、多空分组对比、纯因子收益三个角度分析其alpha选股能力。
研报情感数据的生成流程具体如下:
在获取到每只个股的所有分析师报告后,首先对所有的报告进行解析,获取每篇报告的基本信息(标题、作何、股票代码等)、报告摘要、研报的核心观点;其次利用NLP模型对每个核心观点进行预测分析得到每个观点的得分,选用BERT模型进行情感得分的预测,BERT模型通过了研报文本进行领域语言模型的微调,然后通过情感的有监督数据进行了任务微调;最后汇总每个核心观点的得分得到每篇报告最后的情感得分。
图表2表示BERT模型的框架,蓝色方框是BERT模型,由12层的transformer组成,最下方是输入,[CLS]是分隔符,Tok1……TokN是研报文本中的字符或者词,最上面的Class Label是预测值,包括正面,微弱正面,中性,负面,四个类别以及每个类别对应的概率,最终把4分类的概率结合到一起就变成了情感得分。
生产的研报情感数据有两种数据:
数据一:每一个研报所包含的多个核心观点,及每个核心观点的情感得分,每条记录代表某一篇研报中的某一个观点的情感得分。
数据二:汇总的情感数据,每一条记录代表每一篇研报的最终情感得分,该情感得分由上述数据一中的多个核心观点汇总得到,汇总时适当放大了负面观点的得分权重,将正负得分按照权重1:5合成,如一篇报告有3个得分分别为:f1(<0)、f2(<0)、f3(>0),则合成的得分为(5*f3 +f1+f2)/7,如果得分都是>0,则相当于等权。
优势一
:相比于传统的分析师盈利预测数据,研报情感数据变化更高频,信息更及时分析师盈利预测数据的变动周期统计:
平均来看,分析师评级调整和盈利调整时间间隔的中位数是226天和94天,评级调整和盈利调整中间发的研报数平均为4.2篇和1.8篇。
图表3和图表4表示所有个股的分析师调整评级的两次时间间隔的分布与报告的数量分布,其中评级调整的时间间隔大约为226天,间隔报告数在4篇以上。
图表5和图表6表示所有个股的分析师盈利调整时间间隔分布与报告的数量分布,其中分析师盈利调整的时间间隔大约为94天,间隔报告数在1篇以上。
优势二
:出于谨慎的原因,分析师不会轻易调整盈利/评级预测,但分析师的态度可以从文本中反映出来,新闻情感可以更快、更准确的反映分析师的真实看法。
一个典型的分析师上调和下调评级之间的研报情感变化图如下:
上图表示个股长城汽车2017年7月到2019年12月31日期间的情感变化图,图中有三个时点表示分析师的评级变化,分别为“上调”、“下调”、“上调”,时间间隔为15个月和12个月;而我们的情感得分可以很快的捕捉到分析师对该个股的评价的潜在变化,比传统的只评级因子反应更迅速。
利用研报情感构造因子可以直接将研报情感值汇总,根据上面描述的数据样式,采用如下思路来构建研报情感因子:
利用已汇总好的数据二中每篇报告的情感得分,筛选个股最近90日内的所有分析师报告,采用时间加权(半衰期配权法)、数字比例加权方式来对所有的报告进行汇总,最后再用研报个数的对数值对得分进行转化。具体计算公式如下:
通过上文的介绍,下文主要是对研报情感值因子进行测试,在进行测试前我们先对该因子进行统计分析,我们知道分析师并不会覆盖所有的个股,我们先对该因子的覆盖度进行分析。
全行业覆盖度分析
上图表示该因子每天的个数总数,2013年1月至今平均每天覆盖度达58%以上,覆盖比率最高达到75.39%出现在2016年9月份,最低为36.16%出现在2019年4月份。
中信一级行业覆盖度分析
上图表10、11、12表示该因子在中信一级行业分类上的覆盖度分析,图中红色虚线表示15只股票数。可以看到该因子对所有的中信一级行业上都有覆盖,其中医药、化工、计算机、机械、电子覆盖较多;而综合金融、非银金融覆盖较少。
市值分组因子对比分析
下面我们按照市值从小到大对个股进行分组,分别统计每个小组因子的均值和中位数,结果如下:
可以看出因子的均值与市值呈明显正相关性,市值越大的分组对应的因子均值和中位数也较大。
行业分组因子对比分析
图表14、15、16表示按中信一级行业分组之后,各行业时间序列下所有个股因子值中位数对比,可以
发现有些行业该因子值在多数情况下偏小,如:煤炭行业、交通运输行业、钢铁行业、纺织服装行业、银行、非银金融等,这些行业的因子值相对其他行业普遍偏小,因此在对因子进行测试时需要先对因子进行行业中性处理。
上图展示我们的因子测试框架,主要包含三部分:
因子预处理、多空分组及IC统计、纯因子组合收益分析
。下面分别对上图中的一些数据处理方式和算法进行详细介绍:
1. 异常值处理:
实际中异常值处理方式主要包括三种:
1).固定比例法,设定一个固定的比例,将股票按照因子值从小到大顺序进行排序,然后对两个极端的该固定比例的样本定义为异常值。一般的处理方式有两种,一种是直接删除异常值,另外一种是用剩余样本的最大最小值分别代替这些异常值。
2)
.均值方差法
,先计算所有样本的均值(u)和标准差(σ),将样本中因子值在[u-3σ,u+3σ]区间之外的样本定义为异常值,然后对于因子值大于u+3σ的样本令其值为u+3σ,小于u-3σ的样本令其值为u-3σ。以上步骤可重复操作多次,直到显著异常点消失。
3).中位数去极值法,同均值方差法类似,先计算所有样本的中位数(),再计算所有个股因子值减去样本中位数之后的绝对值的中位数,对于因子值大于的样本令其值为,对于小于的样本令其值为,其他样本因子值不变。以上步骤可重复操作多次,直到显著异常点消失。
本报告采用第三种中位数去极值法来对异常值进行处理。
2. 标准化:
实际中对数据进行标准化的方式有多种,包括:
1). Z-score标准化
该方法也叫标准差标准化,具体算法是将观察值减去该组序列的均值,再除以该组序列的标准差,经过Z-score变化之后因子值序列服从均值为0,方差为1的正态分布,该方法也可以消除数据本身量纲及变异大小的影响。
2). 排序标准化
与上文1)的方法类似,该标准化方法首先对因子从小到大进行排序,使用排序之后的序列来代替原始的因子值序列,进而对新序列使用z-score方法进行标准化,另外该方法可以直接消除极值对数据的影响。
本报告采用第一种Z-score标准化法来对数据进行标准化处理。
3. 中性化
一般的若因子间存在较强的相关性,则我们做因子测试时其他因子会干扰最终的测试结果,因此在进行因子测试之前首先对因子进行中性化,扣除其他因子的影响从而达到对因子进行提纯的目的。一般因子处理中的中性化方法包含:分层打分法与回归法。本报告采用行业和市值截面回归法对因子进行中性化,具体算法如下:
本部分我们对每周(月)末个股的研报情感值因子分别进行测试,探究该因子的单因子选股能力,主要通过因子IC分析、多空组合分析、纯因子收益分析三个维度。
通过前文中因子覆盖度分析,可以看出该因子在不同的市值分组及不同行业分组下的差别比较明显,因此在进行IC分析和多空组合分析之前先对因子进行市值与行业的中性化处理,本报告采用行业和市值截面回归法对因子进行中性
IC又叫信息系数,该指标表示一个因子与个股未来收益的相关,指标越高代表该因子与个股未来收益越正相关,因子的预测能力越强。本报告计算IC的方式采用RankIC方式,也叫秩相关系数。先对因子值按照从小到大进行排序,同时对下期的个股收益也按照从小到大,然后计算本期因子的排序序列与下期个股收益的排序序列之间的相关系数。具体算法如下:
图19、20分别表示rpt_sentiment_w因子、rpt_sentiment_m因子IC序列时序图,图21中柱状图表示每一期因子的周度IC值,折线图表示滚动一年的IC平均值(52周平均值),图22中柱状图表示每一期因子的月度IC值,折线图表示滚动一年的IC平均值,
长期来看不论是周频因子还是月频因子IC大于0的比例非常高
,尤其是2017年以来,滚动一年IC均值稳定在x轴上方波动,
该因子可以被定义为一个稳定的alpha因子
,但2016年11月之前IC的波动较大,呈正负交叉状态。进入2020年以来周频率上该因子IC小于0的比例较高,月度频率上该因子大于0比例依旧较高。长期来看该因子可以作为一个alpha因子,其滚动一年的IC均值稳定大于0,且在0.05附近波动。
图21表示rpt_sentiment_w因子周度IC值的概率分布图,图22表示rpt_sentiment_m因子月度IC值的概率分布图,可以发现周频IC绝大多数都分布于-0.05—0.15之间,月频IC相较周频结果更加集中,
绝大多数IC值位于在-0.05—0.2之间。
图23表示rpt_sentiment_w因子滞后1到12周每期的因子IC均值和中位数,整体趋势来看IC呈逐渐衰减的趋势,第一期的IC均值最大,不过也仅略大于0.02。从IC衰减的趋势来看周度因子的衰减趋势符合线性趋势,因此我们用一次函数y=a*x+b来进行拟合。图中的虚线表示拟合函数的走势,拟合优度为0.95,从IC衰减的结果来看,第12期IC的均值仍然比第一期值的一半还大,说明周度因子的衰减更缓慢,主要原因是其第一期的IC值较小,仅0.02。
图24表示rpt_sentiment_m因子滞后1到12月每期的因子IC均值和中位数,可以看出IC呈逐渐衰减的趋势,其中第一期的IC最大达0.04。从IC衰减的趋势和图形来看,该因子的IC衰减速度近似指数形式,因此我们采用指数函数y=a*eb*x去拟合因子的IC数据。图中的虚线表示拟合函数的走势,拟合优度为0.99,从IC衰减的结果来看,月度因子的半衰期为4.4月。
上图为rpt_sentiment_m因子与rpt_sentiment_w因子的IC统计结果,rpt_sentiment_m因子的IC均值和中位数均大于0.03,同时IC大于0的比例超过67%,t统计量为4.414,说明该因子IC显著大于0,即月频因子对个股收益有显著预测能力。rpt_sentiment_w因子的IC均值和中位数比较接近0.02,IC大于0的比例超过58%,t统计量为5.263,同样说明周频因子对个股收益有较显著预测能力。另外对比各项统计结果不论是IC均值、中位数、大于0比例、IC_IR,月频因子rpt_sentiment_m的IC统计结果优于周频因子rpt_sentiment_w的IC统计结果。
多空组合分析的思路:
首先对原始的情感因子进行中性化(市值、行业)处理,中性化后对每个截面的所有个股的因子值按照从小到大进行排序,再将所有的个股等分为n组。在每个调仓期,按照周频或月频每期调入该期对应分组的个股,计算每组的组合收益及绩效指标,并对各组的结果进行分析对比从而评价因子的选股能力。实际中对每个分组中股票权重的设定主要有两种方式:等权和市值加权。本报告中对因子进行等分10组综合对比两种方式下的各组收益。
图表26—图表29表示rpt_sentiment_w因子、rpt_sentiment_m因子在两种加权方式下10个分组的净值图,对比发现不论周频因子还是月频因子的分组区分度均比较明显。上图中等权方式表示每个小组内个股间进行等权配置,对比的基准表示所有个股进行等权配置后的收益;市值加权方式表示小组内个股进行市值加权方式进行配置,对比的基准表示所有个股进行市值加权配置后的收益。
不论何种配权方式,因子的线性区分度均非常明显,其中后五组表现较好,同时因子值最大的第十组的绝对收益为所有分组中最好,因子值最小的第一组表现最差。另外,对于同一个因子,市值加权方式下的结果要明显优于等权方式下的结果。
图30—图33表示rpt_sentiment_w因子、rpt_sentiment_m因子在两种加权方式下相对基准组的超额收益图,可以发现相对收益的结果中各分组的区分度更加明显。两种配置方式下的第十组表现显著优于其他分组。对比市值加权和等权,市值加权下的第十组表现比等权下更好。
图表34—图表39表示rpt_sentiment_w因子、rpt_sentiment_m因子在两种加权方式下各分组的绩效对比,在等权的方式下第十组的表现最好,周度因子和月度因子的年化收益分别为30%、26%,相对等权基准的超额收益分别为10%、8%。虽然周度因子的年华收益与超额相对较好,但其第十组的最大回撤51%远大于月度因子的最大回撤(39%),同时周度因子第十组的年化换手率18.01也远大于月度因子的年化换手率9.14。因此,综合考虑多个绩效指标后等权方式下的月度因子第十组的表现最好。
在市值加权的方式下第十组的表现同样是最好,周度因子和月度因子的年化收益均可达到35%,相对市值加权基准的超额收益为12%。周度因子第十组的最大回撤为41%远大于月度因子的最大回撤(28%),周度因子的年化换手率59.85也远大于月度因子的年化换手率16.04。因此,市值加权方式下变现最好的分组依然是月度因子的第十组。
图表40—图表45表示两种方式下rpt_sentiment_w因子、rpt_sentiment_m因子多空组合的对比。在两种方式下多头组合都是第十组,空头组合则均为第一组。对比发现,市值加权方式下的多头组合及多空组合表现都显著优于等权方式下结果,市值加权方式下每个因子的多头组合及空头组合的年化收益、年化波动率、夏普比率都有明显的提升,同时最大回撤也明显的下降。另外,多头组合对多空组合收益的贡献远大于空头组合的贡献,同时多头组合的最大回撤也显著小于空头组合。