-
基本面指标本质都是以相对定价为核心,往往都是以比值的形式来构建,不可避免会遇到除数效应导致取值异常以及分子分母可比性的问题,我们将传统经典的个体除法调整为截面整体回归的方式来重构这些基本面因子,重构后的因子普遍表现优于传统的版本,显示了回归版本基本面因子的显著优势
。
-
传统的基本面因子往往以财务经验为主来构建,涉及到的财务科目较少,但是上市公司的财报中有上百个财务科目,这些科目我们并没有深入的研究了解和经验积累,而截面回归的形式从效果来看可以有效克服两个财务指标间的可比性问题。因此我们想
把回归的结构作为一个挖掘基本面因子的有效算子,通过对不同财务科目之间进行截面回归的形式,以挖掘出新的有效的相对定价类基本面因子
。
基本面指标本质都是以相对定价为核心,往往都是以比值的形式来构建,不可避免会遇到除数效应导致取值异常以及分子分母可比性的问题,我们将传统经典的个体除法调整为截面整体回归的方式来重构这些基本面因子,重构后的因子普遍表现优于传统的版本,显示了回归版本基本面因子的显著优势。
-
我们以三大报表利润表、现金流量表、资产负债表中满足截面覆盖度要求的所有字段作为可用的基础数据,加工为单季度、去年同期单季度、单季度同比变化等类型共515个字段,两两回归并剔除高相关因子后得到32个基本面因子,两两相关系数低于0.5,这些因子在样本内外均保持了稳定显著的选股能力,复合因子月度IC均值0.069,年化ICIR3.48,IC胜率87%,月均多头超额1.01%。
-
我们进一步将盈余公告披露时衍生的量价数据也作为广义的基本面衍生指标,作为回归模型的输入来挖掘基本面衍生类相对定价因子,并用同样方式筛选得到2个低相关的有效因子,复合因子月度IC均值0.069,年化ICIR4.38,IC胜率91%,月均多头超额0.77%。
-
我们将挖掘得到的34个因子进行复合,复合因子在样本内外的表现较为一致,月度IC均值0.084,年化ICIR4.21,IC胜率89%,月均多头超额1.12%。将挖掘得到的因子加入传统26个基本面因子集合进行复合得到
基本面类复合因子,月度IC均值0.103,年化ICIR达5.17,IC胜率93%,月均多头超额1.43%
,在各个指数内均具有显著的选股能力,在沪深300、中证500、中证1000指数内的IC均值分别为0.085、0.094、0.106。
-
以基本面类复合因子构建的宽基指数增强组合同样具有稳健的超额收益:
-
沪深300指数增强组合年化超额收益12.01%,相对最大回撤-4.86%,信息比2.78,年化跟踪误差4.11%,今年截止20240731超额达8.83%;
-
中证500指数增强组合年化超额收益21.22%,相对最大回撤-4.9%,信息比3.88,年化跟踪误差4.94%,今年截止20240731超额达10.82%;
-
中证1000指数增强组合年化超额收益23.99%,相对最大回撤-7.21%,信息比3.39,年化跟踪误差6.43%,今年截止20240731超额达12.36%。
早在1934年本杰明·格雷厄姆在《证券分析 (Security Analysis)》中就提出了用PE来衡量股票的价值,此后从财务角度又涌现出例如ROE、股息率等各种衡量企业盈利能力、估值水平、分红能力、盈利质量等维度的基本面指标:
-
估值:
BP、单季EP、单季SP、股息率TTM 、…
-
-
这些基本面指标往往都是以比值的形式来构建,本质都是以相对定价为核心。
我们知道一旦涉及到除法这种比值形式,就会遇到除数效应的问题。当分母取值接近0时,可能会显著放大指标的取值从而造成取值异常,当分子为0时会使结果取值都为0,当分子和分母的数量级差距较大时也会导致异常的放大和缩小效应。并且这些基本面指标从其定义的出发点都是以绝对的定价为主,例如通过ROE、增速等对股票价格进行定价,并且更关注同一只股票某项指标的时序变化。但是当面临选股问题时,我们并不关注每只股票的ROE的具体取值大小,我们更关注股票间的相对强弱的排序关系。这种个体的绝对定价取值和股票间的相对排序的供需关系并不能够完美互相匹配。因此我们思考能否从量化选股的截面排序的角度,对这些基本面指标进行重构,以更适应我们的选股需求。
在之前的报告《基本面因子的重构》(20240321)中,我们将这种
传统经典的个体除法调整为现代统计理论支撑下的截面整体回归的方式来重构这些基本面因子
,如下图
所示:
考虑到大部分财务指标在截面上的分布并不正态,因此我们借鉴市值对数化的操作,对每个财务指标也都进行对数化操作以调整其分布。由于财务指标会为负或为0,因此我们以如下方式来进行对数化调整:
我们取回归的残差作为相对的基本面因子取值。在每个因子构建时,我们都以如下图中的方式来计算因子取值,在回归得到残差因子后
我们进一步对残差进行市值行业中性化处理。
在之前的报
告《
基本面因子的重构
》(20240321)中,我们对传统的BP、EP、SP、股息率等估值因子,ROE等盈利因子,单季净利同比增速等成长因子均进行了重构并对比了重构前后的因子表现情况,从效果来看,
重构后的因子普遍表现优于传统的版本,显示了回归版本基本面因子的显著优势
。
传统的基本面因子往往以财务经验为主来构建,涉及到的财务科目较少,主要涉及净利润、营收、净资产、总资产等常见科目,但是上市公司的财报中有上百个财务科目,这些科目我们并没有深入的研究了解和经验积累,而截面回归的形式从效果来看可以有效克服两个财务指标间的可比性问题。因此我们想
把回归的结构作为一个挖掘基本面因子的有效算子,通过对不同财务科目之间进行截面回归的形式,以挖掘出新的有效的相对定价类基本面因子
。
本节我们以三大报表利润表、现金流量表、资产负债表中的所有字段作为可用的基础数据,每个字段需要满足全市场截面的覆盖度要求(高于60%)。下表展示了贵州茅台(600519.SH)的现金流量表的部分数据。
可以看到,财务字段大致可以分为以下三种类型:历史累计、季度年初累计、半年度年初累计。根据这些基础的字段类型,我们可以加工出以下各种数据:
对于大部分字段我们都尽可能加工为最新的单季度类型,因为普遍单季度类指标比TTM类指标的选股能力更显著。以上字段中,历史累计类型共56个字段,几乎都来自于资产负债表;历史累计值相邻两个季度可以计算差值,即可得到历史累计值的单季度值;季度年初累计型的字段均加工为单季度取值,共56个字段,几乎来自于利润表和现金流量表;半年度年初累积型的字段均加工为半年度取值,共12个字段。这些基础字段的去年同期的取值我们也可以同样构建出来,这样可以用当期对去年同期回归,以构建一些同比增速类的因子,另外当期和去年同期的差可以构建同比变化类指标,可以用于构建一些表达成长性的因子。我们再进一步加入市值因子,以便于构建一些估值类因子。最终总共515个数据字段用于基本面财务因子的挖掘。
如果直接暴力枚举515个字段的任意两个财务指标相互回归的结果,需要计算近25万个因子,计算量会很大。我们可以尝试从回归结构本身来寻找一些能够提高计算效率的手段:
1. A需要包含最新的数据,因此可以排除A是去年同期的类型;
2. A对B回归的残差如果是一个显著的alpha因子,那么A因子本身大概率有一定的选股能力,剥离B之后选股能力得到增强才能转化为一个alpha因子,所以可以对每个财务指标单独做市值行业中性化检验因子的有效性,对于完全没有选股能力的财务指标不参与A的遍历,这样实际可以降低80%的计算量;
3. A对B回归本质是A相对于B定价,A和B需要存在逻辑上的关联才有意义,而逻辑上的关联体现在A和B的截面相关性上,A和B相关性过低说明它们并不存在关联,这个回归后的残差也接近A本身,起不到定价的作用,而A和B的相关性过高说明这两个指标几乎包含了相同的信息,那回归后的残差只剩下噪声数据,因此可以限制A和B需要有适中的相关性,限制相关性后又能够降低80%的计算量;
4. B因子如果是一个alpha因子,A对B回归后大概率会变差,而B越像一个风险因子,A对B回归后大概率会变更好,因此可以限制B因子接近于胜率50%的风险因子可以进一步降低计算量。
1. 计算515个数据字段的月频截面因子取值,并以行业中位数填充缺失值、去极值、标准化;
2. 对于任意的截面因子A,排除IC胜率低于55%或年化ICIR低于1的因子,排除A是去年同期类型的因子;
3. 对于任意两个截面因子A和B,限制A和B的截面相关系数绝对值的均值在[0.1,0.9]之间,对A和B进行截面回归;
4. 对回归后的残差因子进行去极值、标准化、市值行业中性化、去极值、标准化操作得到最终的因子取值,参见上图3。
最终我们计算了7000个左右的因子即可完成该计算任务。但是这7000多个因子并不都是alpha因子,我们需要对这些因子进行有效性检验及筛选。我们以2010-2020年的数据作为样本内筛选区间,以2021年-20240731为样本外区间观察这些因子的有效性。
这些因子都是基于基本面数据挖掘而来,因此选股能力不会特别突出,不然早已会像ROE、PE等传统基本面指标被主动投资者所关注而变得熟知,因此我们只能以一个较低的要求来筛选出其中的有效因子:
经过以上条件筛选我们可以得到700个左右的有效因子,但是这些因子里面有很多因子间的相关性很高,我们进一步以简单的贪心算法来剔除高相关的因子:
-
因子按ICIR绝对值降序排列,取ICIR绝对值最高的因子入选;
-
将剩余因子与其相关系数均值绝对值高于0.5的剔除。
循环往复这个过程我们可以
得到32个因子,两两间相关系数低于0.5
。
本节我们展示部分挖掘得到的基本面因子在样本内外的选股能力。我们先展示部分偏“估值”类的,即对市值回归类的,然后展示部分非“估值”类,即财务科目互相回归类的因子。
2.2.1 单季EBIT同比变化比市值
该因子以单季度EBIT的同比变化对市值回归而构建,其回归结构如下:
其中EBIT是利润表的科目,反映了企业的息税前利润。该因子表达了经过市值调整后的EBIT的成长性。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.044,年化ICIR3.73,IC胜率88%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.57%。
该因子以单季度的综合收益总额对市值回归而构建,其回归结构如下:
其中综合收益总额是利润表的科目,反映企业净利润和其他综合收益的合计金额。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效,近一年多空表现比历史表现更强。因子月度IC均值0.061,年化ICIR3.67,IC胜率89%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.91%。
该因子以单季度未分配利润的同比变化对市值回归而构建,其回归结构如下:
其中未分配利润是资产负债表的科目,指企业留待以后年度分配或者待分配的利润。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.036,年化ICIR3.1,IC胜率82%。
下图展示了该因子的十分组月度超额收益均值,分组总体单调,月均多头超额0.44%。
2.2.4
单季其他收益比市值
该因子以单季度的其他收益对市值回归而构建,其回归结构如下:
其中其他收益是利润表的科目,反映计入其他收益的政府补助,以及其他与日常活动相关且计入其他收益的项目。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.024,年化ICIR2.34,IC胜率72%。
下图展示了该因子的十分组月度超额收益均值,分组非常单调,月均多头超额0.44%。
2.2.5
单季经营活动现金流净额比市值
该因子以单季度的经营活动产生的现金流量净额对市值回归而构建,其回归结构如下:
其中经营活动产生的现金流量净额是现金流量表的科目,指企业与经营活动有关的现金流入金额减去现金流出的净额。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.028,年化ICIR2.94,IC胜率81%。从因子表现来看,因子的IC呈现越来越高的趋势。
下图展示了该因子的十分组月度超额收益均值,分组也总体单调,月均多头超额0.45%。
2.2.6
单季总资产比市值
该因子以单季度的负债及股东权益总计对市值回归而构建,其回归结构如下:
其中负债及股东权益总计是资产负债表的科目,反映了企业所有者权益和负债的总和,即企业的总资产,是一个历史累计值。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.028,年化ICIR3.13,IC胜率82%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.55%。
2.2.7
单季投资现金流出比市值
该因子以单季度的投资活动现金流出小计对市值回归而构建,其回归结构如下:
其中投资活动现金流出小计是现金流量表的科目,指企业经营过程中所产生的与投资活动相关的现金流出的金额的合计值。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.025,年化ICIR2.45,IC胜率75%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.36%。
2.2.8
应付职工薪酬比去年同期其他应付款
该因子以应付职工薪酬对去年同期的其他应付款回归而构建,其回归结构如下:
其中应付职工薪酬是资产负债表的科目,指按照规定应付给职工的各种薪资报酬,其他应付款也是资产负债表的科目,指应付利息、应付股利与其他应付款合计。该因子同时表达了相对占比和同比增速的双重含义。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.027,年化ICIR2.77,IC胜率81%。
下图展示了该因子的十分组月度超额收益均值,分组也非常单调,月均多头超额0.41%。
2.2.9
单季所得税比去年同期单季EBIT
该因子以单季度所得税对去年同期单季度EBIT回归而构建,其回归结构如下:
其中所得税是利润表的科目,指缴纳的企业所得税的金额,EBIT也是利润表的科目,指企业的息税前利润。该因子同时表达了相对占比和同比增速的双重含义。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.036,年化ICIR3.08,IC胜率82%。
下图展示了该因子的十分组月度超额收益均值,分组也总体单调,月均多头超额0.46%。
2.2.10
单季购建长期资产支付现金比去年同期在建工程
该因子以单季度的购建固定资产、无形资产和其他长期资产支付的现金对去年同期的在建工程回归而构建,其回归结构如下:
其中购建固定资产、无形资产和其他长期资产支付的现金是现金流量表的科目,指企业用于固定资产、无形资产、其他长期资产等购置所支付的现金,在建工程是资产负债表的科目,指企业的在建工程与工程物资科目合计。该因子反映了上市公司在该季度的固定资产的扩张水平。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.021,年化ICIR2.35,IC胜率75%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.31%。
2.2.11
单季归母净利润比母公司综合收益
该因子以单季度的归母净利润对单季度的综合收益总额(母公司)回归而构建,其回归结构如下:
其中归母净利润是利润表的科目,反映上市公司的归属于母公司的净利润,综合收益总额(母公司)也是利润表的科目,反映归属于母公司股东(所有者)的那部分综合收益总额。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.047,年化ICIR2.92,IC胜率83%。
下图展示了该因子的十分组月度超额收益均值,分组也总体单调,月均多头超额0.26%。
2.2.12
单季营业总成本比去年同期流动负债
该因子以单季度的营业总成本对去年同期的流动负债合计回归而构建,其回归结构如下:
其中营业总成本是利润表的科目,指上市公司的营业总成本,而流动负债合计是资产负债表的科目,指上市公司的流动负债类科目合计值。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.029,年化ICIR2.4,IC胜率76%。
下图展示了该因子的十分组月度超额收益均值,分组也非常单调,月均多头超额0.31%。
2.2.13
单季营业税金比总资产
该因子以单季度的营业税金及附加对资产总计回归而构建,其回归结构如下:
其中营业税金及附加是利润表的科目,反映企业经营的主要业务应负担的消费税、资源税、教育附加、城市维护建设税等,资产总计是资产负债表的科目,指企业拥有或控制的能以货币计量的经济资源,包括各种财产、债权和其他权利。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.021,年化ICIR1.92,IC胜率72%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.3%。
2.2.14
盈余公积金比去年同期单季利息费用
该因子以盈余公积金对去年同期的单季度利息费用回归而构建,其回归结构如下:
其中盈余公积金是资产负债表的科目,反映公司盈余中提取的公积金,利息费用是利润表的科目,反映企业为筹集生成经营所需资金等而发生的应予费用化的利息支出。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.047,年化ICIR2.23,IC胜率72%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.38%。
2.2.15
未分配利润比去年同期单季度未分配利润
该因子以未分配利润对去年同期单季度的未分配利润回归而构建,其回归结构如下:
其中未分配利润是资产负债表的科目,指企业留待以后年度分配或者待分配的利润。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.037,年化ICIR2.07,IC胜率71%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.22%。
2.2.16
半年固定资产折旧比去年同期单季利息费用
该因子以半年度的固定资产折旧、油气资产折耗、生产性生物资产折旧对去年同期单季度的利息费用回归而构建,其回归结构如下:
其中固定资产折旧、油气资产折耗、生产性生物资产折旧是现金流量表的科目,反映因固定资产、油气资产、生产性生物资产按会计准则要求发生折旧在本报告期的体现,利息费用是利润表的科目,反映企业为筹集生成经营所需资金等而发生的应予费用化的利息支出。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.038,年化ICIR2.23,IC胜率74%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.27%。
2.2.17
单季经营活动现金流入同比增速
该因子以单季度的经营活动现金流入对去年同期单季度的经营活动现金流入回归而构建,其回归结构如下:
其中经营活动现金流入是现金流量表的科目,指企业与经营活动相关的现金流量的明细统计。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.029,年化ICIR2. 7,IC胜率78%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.27%。
2.2.18
现金等价物比去年同期其他综合收益
该因子以现金及现金等价物余额对去年同期其他综合收益回归而构建,其回归结构如下:
其中现金及现金等价物余额是现金流量表的科目,指报表截止日期现金及融资期限为三个月或三个月内的,具有高度流动性且内购赚取利息的投资的余额,其他综合收益是资产负债表的科目,指企业根据其他会计准则规定未在当期损益中确认的各项利得和损失。下图分别展示了该因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.031,年化ICIR2.2,IC胜率71%。
下图展示了该因子的十分组月度超额收益均值,分组也较为单调,月均多头超额0.21%。
本节我们将挖掘得到的32个基本面因子进行线性复合,考虑到虽然有相关性低于0.5的筛选,但是因子间仍存在一定的相关性,我们以截面对称正交来剔除因子间的共线性。并且考虑到因子未来潜在的失效/短期弱势可能,我们以因子滚动一年ICIR进行加权复合得到复合因子。
可以看到,复合因子在样本内外的表现较为一致,并且持续有效。复合因子月度IC均值0.069,年化ICIR3.48,IC胜率87%。下图展示了该复合因子的十分组月度超额收益均值,分组也非常单调,月均多头超额1.01%。
前文中我们以三大报表的财务字段进行两两回归,构建了32个基本面因子。本节中我们进一步把盈余公告披露时衍生的量价数据也作为广义的基本面衍生指标,作为回归模型的输入,希望能够构造出一些新的基本面衍生因子。
我们把盈余公告披露时的一些量价特征作为回归模型的输入,主要包括以下简单的日K特征:
-
盈余公告次日开盘跳空超额;
-
盈余公告次日换手率;
-
盈余公告次日ILLIQ,即涨跌幅绝对值/当日成交额;
-
盈余公告后累计超额市场收益,即每只股票取最新一期盈余公告当日到计算因子当天的区间收益减去同区间内市场指数的收益得到区间超额收益;
-
盈余公告后累计超额行业收益,即每只股票取最新一期盈余公告当日到计算因子当天的区间收益减去同区间内所在行业指数的收益得到区间超额收益。
我们将以上特征作为回归模型的输入来挖掘基本面衍生类相对定价因子,并用同样的因子有效性参数筛选有效因子,以0.5相关系数进行过滤最终得到2个因子。
下面我们展示挖掘得到的基本面衍生因子在样本内外的表现情况。
3.2.1
盈余公告开盘跳空超额比公告后累计行业超额
该因子以盈余公告次日开盘跳空超额对盈余公告后累计超额行业收益回归而构建,回归结构如下:
盈余公告次日开盘跳空超额因子本身已经是一个非常显著的因子,其表现如下图所示。因子月度IC均值0.042,年化ICIR3.93,IC胜率90%。
下图展示了盈余公告次日开盘跳空超额因子的十分组月度超额收益均值,分组非常单调,月均多头超额0.65%。
下图分别展示了该回归改进版本的因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值0.052,年化ICIR5.47,IC胜率94%,各项指标均明显好于基础的盈余公告次日开盘跳空超额因子。
下图展示了该回归版本因子的十分组月度超额收益均值,分组非常单调,月均多头超额0.7%,表现也好于基础版本的盈余公告次日开盘跳空超额因子。
3.2.2
盈余公告次日换手率比公告后累计市场超额
该因子以盈余公告次日换手率对盈余公告后累计超额市场收益回归而构建,其回归结构如下:
盈余公告次日换手率因子本身已经是一个较为显著的因子,其表现如下图所示。因子月度IC均值-0.052,年化ICIR-2.15,IC胜率73%。
下图展示了盈余公告次日换手率因子的十分组月度超额收益均值,分组较为单调,月均多头超额0.56%。
下图分别展示了该回归改进版本因子全样本区间的月度IC和多空净值。可以看到,因子在样本内外的表现较为一致,并且持续有效。因子月度IC均值-0.054,年化ICIR-2.38,IC胜率73%,各项指标好于基础的盈余公告次日换手率因子。
下图展示了该回归版本因子的十分组月度超额收益均值,分组较为单调,月均多头超额0.63%,表现也好于基础版本的盈余公告次日换手率因子。