专栏名称: 春晓量化
欢迎交流
目录
相关文章推荐
FM93交通之声  ·  毒性胜砒霜!女子吃一口抢救3天,千万小心! ·  昨天  
FM93交通之声  ·  刚刚确认:今晚抵达浙江,做好准备... ·  昨天  
浙江市场监管矩阵  ·  省市场监管局召开机关干部大会贯彻落实省委新春 ... ·  昨天  
杭州日报  ·  刚刚,他哭了!冲上热搜 ·  3 天前  
51好读  ›  专栏  ›  春晓量化

【方正金工】30秒、15秒频数据对分钟频因子能否带来信息增量?——多因子选股系列研究之二十

春晓量化  · 公众号  ·  · 2024-12-02 15:31

正文

本文来自方正证券研究所于2024年11月29日发布的报 告《30 秒、 15 秒频数据对分钟频因子能否带来信息增量?——多因子选股系列研究之二十》,欲了解具体内容,请阅读报告原文,分析师:曹春晓 S1220522030005。



摘要


在股票市场中,交易行情数据一般分为 Tick 数据、分钟数据以及日线数据,其中日线数据因其易获取、易分析且适合中长周期分析等特点,在投资决策及策略开发中应用最为广泛。 近年来随着机器学习、深度学习等前沿技术的应用,以及量化机构算力设备的不断提升,分钟频、 Tick 级数据已被大量应用于策略开发及交易过程中。

从包含信息幅度来看, Tick 数据是目前最精细、最完整的交易数据,真实反应了所有的交易信息,但其数据量非常庞大且噪音信号较多,开发因子难度较高。相对而言,分钟频数据是性价比较高的一类数据,目前已广泛应用于公募、私募、保险、券商等量化投资团队中。

在方正金工多因子选股系列研究中,我们结合分钟频数据与日频数据构建了 “适度冒险”、“完整潮汐”、“勇攀高峰”、“球队硬币”、“云开雾散”、“飞蛾扑火”、“草木皆兵”、“水中行舟”、“花隐林间”、“待著而救”、“多空博弈”、“协同效应”、“一视同仁”、“激流勇进” 14 个特色高频量价因子。为了降低因子换手率,我们对所有的因子进行了月度频率的平滑处理,即高频因子低频化处理。

上述因子中绝大多数以分钟频数据为基础计算,再低频化至月频使用。 本文中我们将尝试进一步将数据频率提升至 30 秒以及 15 秒频率,研究其对现有因子的信息增量。 事实上,分钟频、 30 秒频、 15 秒频数据本质上都是由 Tick 数据根据时间长度切割而来,因此数据结构上没有特别大的差异,但由于切割点更细,每一个切片上反应的交易信息要比分钟频数据上的信息更多,因此 30 秒与 15 秒频的数据在部分因子上的表现可能比分钟频更为理想。

从实证结果来看,大多数因子在经过多频率合成之后的表现相较于分钟频因子有一定改善。其中多频率合成的“待著而救”因子相比于 1 分钟频率“待著而救”因子 Rank IC -8.27% 提升至 -9.36% ,年化 Rank ICIR -3.38 提升至 -3.59% ,多空组合年化收益率从 26.47% 提升至 31.24% ,信息比率从 2.53 提升至 2.59 。合成后的“激流勇进”因子相比于 1 分钟频率“激流勇进” Rank IC 6.35% 提升至 8.97% ,年化 Rank ICIR 3.59 提升至 4.00% ,从各分组超额收益表现来看,分组能力明显提升,各组别分化相对更为明显。

风险提示

本报告基于历史数据分析,历史规律未来可能存在失效的风险; 市场可能发生超预期变化; 各驱动因子受环境影响可能存在阶段性失效的风险。

报告正文

1 今年以来分钟频量价因子表现欠佳,近期已快速修复
1.1 今年以来量化策略遭遇两次较大回撤,因子有效性下降明显

2024 年对于量化投资来说是充满挑战的一年。在年初流动性危机导致的极端行情中,量化策略普遍遭遇大幅回撤; 9 月底市场行情快速启动以来,由于持股分散、权重板块低配以及大多风格因子表现不佳等原因,量化指增策略再次遭遇集体回撤。


从主要风格因子表现来看,今年各大类风格因子延续性也普遍较差,叠加上半年市场流动性收缩,今年量化策略整体表现较为一般。其中,高频量价因子整体表现不及预期,部分以量价交易数据为主的策略表现相对较差。


1.2 高频因子低频化系列回顾

在方正金工多因子选股系列研究中,我们结合分钟频数据与日频数据构建了“适度冒险”、“完整潮汐”、“勇攀高峰”、“球队硬币”、“云开雾散”、“飞蛾扑火”、“草木皆兵”、“水中行舟”、“花隐林间”、“待著而救”、“多空博弈”、“协同效应”、“一视同仁”、“激流勇进”等 14 个特色高频量价因子。为了降低因子换手率,我们对所有的因子进行了月度频率的平滑处理,即高频因子低频化处理。

1 适度冒险 ”—— 《成交量激增时刻蕴含的 alpha 信息——多因子选股系列研究之一》

2 完整潮汐 ”—— 《个股成交量的潮汐变化及“潮汐”因子构建——多因子选股系列研究之二》

3 勇攀高峰 ”—— 《个股波动率的变动及“勇攀高峰”因子构建——多因子选股系列研究之三》

4 球队硬币 ”—— 《个股动量效应的识别及“球队硬币”因子构建——多因子选股系列研究之四》

5 云开雾散 ”—— 《波动率的波动率与投资者模糊性厌恶——多因子选股系列研究之五》

6 飞蛾扑火 ”—— 《个股股价跳跃及其对振幅因子的改进——多因子选股系列研究之六》

7 草木皆兵 ”—— 《显著效应、极端收益扭曲决策权重和“草木皆兵”因子——多因子选股系列研究之八》

8 水中行舟 ”—— 《个股成交额的市场跟随性与“水中行舟”因子——多因子选股系列研究之九》

9 花隐林间 ”—— 《推动个股价格变化的因素分解与“花隐林间”因子——多因子选股系列研究之十》

10 )“待著而救”——《大单成交后的跟随效应与“待著而救”因子——多因子选股系列之十一》

11 )“多空博弈”——《股票日内多空博弈激烈程度度量与“多空博弈”因子构建——多因子选股系列研究之十三》

12 )“协同效应”——《日内协同股票性价比度量与“协同效应”因子构建——多因子选股系列研究之十六》

13 )“一视同仁”——《成交量激增与骤降时刻的对称性与“一视同仁”因子构建——多因子选股系列研究之十八》
14
)“激流勇进”——《个股交易放量期间的买入强度刻画与“激流勇进”因子构建——多因子选股系列研究之十九》

上述因子虽然由高频数据计算得到,但是在月度频率上仍然有较为出色的选股能力,以下为我们对 14 个量价因子的测试,测试区间为 2013 年至 2024 11 22 日,月频调仓,可以看到,所有因子的历史表现均较为出色。

从上述各因子之间的相关性来看,“多空博弈”、“协同效应”等因子与其他因子间的平均相关性相对较高,“勇攀高峰”、“水中行舟”、“待著而救”、“激流勇进”等因子的平均相关性则普遍较低。


1.3 “综合量价”因子 Rank IC 提升至 -12.27%

进一步我们将上述 14 个因子正交化后简单等权合成为综合量价因子,其表现相较于单个因子大幅提升。


综合量价因子 Rank IC 均值为 -12.27% Rank ICIR -5.00 ,多空组合年化收益率为 46.98% ,信息比 4.11 ,月度胜率 87.32%

从分组表现来看,综合量价因子历史上大多年份表现均较为出色,多头组合年化收益率为 26.95% ,空头组合年化收益率为 -15.15% 。今年以来,多头组合上涨 5.29% ,空头组合下跌 9.70% ,多空表现仍然较为理想,但分组单调性下降明显。

1.4 今年上半年量价因子普遍回撤,近期已快速修复

上述因子中,今年以来“云开雾散”、“球队硬币”、“花隐林间”等因子今年 Rank IC 均值较高,分别为 -6.96% -6.85% -6.75% 。“激流勇进”、“球队硬币”因子多空收益表现更为出色,分别为 29.90% 29.39%

然而,从合成的综合量价因子多头超额收益曲线可以看到,今年上半年高频量价因子整体持续回撤。进入三季度之后,受红利行情分化、市场交易活跃度提升等影响,高频因子表现快速修复,三季度以来综合量价因子多头超额收益为 5.63% ,表现较为出色。

相较而言,在周频调仓下,今年“综合量价”因子的表现要明显好于月频调仓,其多空收益约为 44.07% ,多头组合超额收益约为 7.02%

2 30 秒频、 15 秒频数据能否带来信息增量?

在股票市场中,交易行情数据一般分为 Tick 数据、分钟数据以及日线数据,其中日线数据因其易获取、易分析且适合中长周期分析等特点,在投资决策及策略开发中应用最为广泛。近年来随着机器学习、深度学习等前沿技术的应用,以及量化机构算力设备的不断提升,分钟频、 Tick 级数据已被大量应用于策略开发及交易过程中。

从包含信息幅度来看, Tick 数据是目前最精细、最完整的交易数据,真实反应了所有的交易信息,但其数据量非常庞大且噪音信号较多,开发因子难度较高。相对而言,从开发难度以及包含信息程度来看分钟频数据是性价比较高的一类数据,目前已广泛应用于公募、私募、保险、券商等量化投资团队中。

前文介绍的因子中绝大多数以分钟频数据为基础计算,再低频化至月频使用。本文中我们将尝试进一步将数据频率提升至 30 秒以及 15 秒频率,研究其对现有因子的信息增量。

事实上,分钟频、 30 秒频、 15 秒频数据本质上都是由 Tick 数据根据时间长度切割而来,因此数据结构上没有特别大的差异,但由于切割点更细,每一个切片上反应的交易信息要比分钟频数据上的信息更多,因此 30 秒与 15 秒频的数据在部分因子上的表现可能比分钟频更为理想。

本节中我们将以“待著而救”因子和“激流勇进”因子为例,观察日内分钟频、 30 秒频、 15 秒频数据上的信息差异以及因子结果。

2.1 “待著而救”因子逻辑及多频率合成因子计算

在股票交易过程中,当某些股票产生突发性利好信息或者有较强改善预期时,部分拥有信息和专业优势的投资者可能会在短时间内大量买入,使得成交量激增,而成交量激增的股票往往会吸引到更多普通投资者的关注,可能会导致其跟随买入,造成股票价格短期内出现反应过度,未来存在较大的回落风险。相反,如果股票成交量大增后,市场并未产生明显跟随,则可能意味着出现了反应不足,这些股票后续可能存在一定的超额收益。

根据上述逻辑,我们首先从日内交易数据中寻找那些可能具备信息优势的大单成交时刻。我们认为信息优势投资者的交易特点主要表现为成交量大且时间上相对领先。基于这两个特点,我们首先在分钟频数据上对每个股票寻找其“优势时刻”,具体步骤如下:

1 )取个股 1 分钟频率交易数据,由于每日开盘后的前 15 分钟时间内股票交易普遍较为活跃,我们对每天 9:45 分之前的数据进行剔除,仅考虑开盘后第 16 分钟开始的交易数据。

2 )其次,从成交量的角度出发,我们找到当日成交量最大的十个分钟时刻,将其统称为“海量时刻”。

3 )我们认为,在时间上由于普通投资者具有信息劣势,所以当 t 分钟交易量大增之后,被吸引的普通投资者会在之后的几分钟产生跟随交易,因此我们对上述“海量时刻”进行筛选。从时间上最靠前的“海量时刻”开始,如果相邻的两个“海量时刻”间隔超过 5 分钟,我们认为这是两个相对独立的“海量时刻”,反之如果间隔小于 5 分钟,我们认为第二个“海量时刻”大概率仍然是上一个“海量时刻”导致的跟随交易,该时刻应当予以剔除,最终将剩余的“海量时刻”定义为“优势时刻”。

经过上述筛选后,我们将每次“优势时刻”之后的 5 分钟,定义为“跟随时刻”,并计算每个“跟随时刻”的成交量总和,除以对应的“优势时刻”的成交量,得到“跟随系数”。我们认为“跟随系数”表示了本次放量交易行为引发的普通投资者跟随行为的强烈程度。我们认为“跟随系数”越大,表明普通投资者对该放量交易跟随越严重,其潜在的反应过度风险也越大。

对每只个股,将其日内所有的“跟随系数”求均值,记为“日跟随系数”,然后每月月底,分别计算过去 20 天的“日跟随系数”的均值和标准差,分别记为“月均待著而救”因子和“月稳待著而救”因子,最后再将二者等权合成为“待著而救”因子。

如本文第一章节所示,分钟频率数据构建的“待著而救”因子历史表现较为出色。接下来我们以同样的算法,在 15 秒以及 30 秒频率数据上进行计算(其中同样剔除早盘 15 分钟交易数据,参数均与上文保持一致),如下图所示为某只股票在 1 分钟频率与 30 秒频率上的优势时刻,可以看到多数时间点较为一致,这是由于某 30 秒内如果成交量特别大,则当前这一分钟的成交量往往也较大。但由于 30 秒数据颗粒度更细,下图中在 13:00 之后的一段时间内, 30 秒频率数据上的优势时刻数据点相对更为分散,因此结合不同频率数据计算或可以提供更多时点的交易信息。
下表所示为该股票当天分别在 1 分钟、 30 秒、 15 秒频率上经过筛选后的优势时刻与跟随时刻,可以看到在一些特定的时间点如 10:01:00 13:00:00 以及 13:12:00 这几个时点,由于第一个 15 秒的成交量非常大,进而使得第一个 30 秒和这 1 分钟的交易量在各自不同频率上都非常大,所以三个频率上的优势时刻重叠。可以预期的是最终在不同频率上计算的因子相关性可能相对较高,但由于仍然存在大量不重叠的时刻,以及跟随时刻区间不同,因此仍然可能带来一定的信息增量。
从测试结果来看,首先不论 1 分钟、 30 秒还是 15 秒频数据计算的“待著而救”因子,表现均较为出色,且随着数据频率的逐步提升, Rank IC ICIR 等指标均有小幅改善。由于因子计算逻辑完全一致,因子相关性较高,我们将不同频率计算得到的因子进行简单合成。可以看到合成后的“待著而救”因子相比于 1 分钟频率“待著而救”因子表现有显著改善, Rank IC -8.27% 提升至 -9.36% ,年化 Rank ICIR -3.38 提升至 -3.59% ,多空组合年化收益率从 26.47% 提升至 31.24% ,信息比率从 2.53 提升至 2.59

2.2 “激流勇进”因子逻辑及多频率合成因子计算

同样我们再观察“激流勇进”因子的构建逻辑。在报告《个股交易放量期间的买入强度刻画与“激流勇进”因子构建——多因子选股系列研究之十九》中,我们尝试通过寻找放量下跌期间那些买入意愿非常强势的个股,研究发现这些逆势买入的股票超额收益非常显著。在分钟频数据上,其计算过程如下:

首先我们对每分钟的交易状态进行划分:

1 )剔除开盘和收盘数据,仅考虑日内分钟频数据,我们首先计算个股每分钟的成交量及其之前 4 分钟成交量的总和,记为该分钟的 邻域成交量

2 )根据每分钟的邻域成交量相较于前一分钟邻域成交量的大小进行判断,如当前时刻的邻域成交量更大,则当前分钟为 放量 状态,反之则为 缩量 状态。

3 )对于每一分钟,依据过去 5 分钟内高、开、低、收数据,计算近期收益率趋势,趋势为正则为“上涨”状态,反之为“下跌”状态。

4 )结合上述 放量 缩量 状态,将每分钟交易状态划分为以下四种类型:放量上涨、放量下跌、缩量上涨、缩量下跌。

在划分状态之后,我们重点关注放量时刻的买入强度,在报告《波动率的波动率与投资者模糊性厌恶——多因子选股系列研究之五》中,我们曾使用单位时间内成交金额比例与成交量比例的差值来刻画在特定情形下投资者为促成成交付出的额外流动性成本,此处我们参考该方法通过计算全天放量上涨时刻或放量下跌时刻的成交金额与成交量的关系,来刻画不同情形下投资者买入意愿的强弱程度。

如上图所示,相较于放量上涨情形,放量下跌期间买入强度较高的股票后续相对于市场有更为明显的超额收益。我们认为其原因在于一方面由于放量下跌过程中容易产生反应过度,后续反转概率较高;另一方面在个股出现放量下跌期间,那些积极逆势买入的投资者对后市表现较为乐观,我们将个股每日放量下跌情形中投资者买入意愿强度定义为“日激流勇进”因子。

每月月底计算过去 20 个交易日“日激流勇进”因子的均值,即可得到 激流勇进 因子。 激流勇进 因子的逻辑可以理解为在过去一段时间内,每天盘中出现放量下跌时,都有比较强的买入力量逆势买入,则这类股票后续表现较为出色。

上图所示为 1 分钟频率与 15 秒频率下的交易状态,可以看到,在 1 分钟频率下上图中 9:51 的交易量明显较大,根据规则这一分钟处于“放量上涨”状态,但是在 15 秒频数据窗口下,我们可以明显看到 9:51:45 这一时段处于缩量状态。因此在不同数据频率下,特定时间段的交易状态可能会有较大差异。

我们按照同样的参数计算 1 分钟、 30 秒、 15 秒频率上的“激流勇进”因子,并将其进一步合成。从测试结果来看,合成后的“激流勇进”因子相比于 1 分钟频率“激流勇进”表现有显著改善, Rank IC 6.35% 提升至 8.97% ,年化 Rank ICIR 3.59 提升至 4.00% ,从各分组超额收益表现来看,可以看到多频率合成因子的分组能力明显提升,各组别分化相对更为明显。
2.3 多数因子在 30 秒、 15 秒频率下有信息增量

进一步,我们将上文中提到的所有分钟频因子分别进行多频率计算并合成,可以看到大多数因子在经过多频率合成之后的表现相较于分钟频因子有一定改善。


从因子相关性来看,大多数 1 分钟频率因子与 30 秒、 15 秒频因子相关性相对较高,其中“草木皆兵”因子相对特殊,其计算过程中主要使用了日线数据,日内数据仅用于计算日内波动率指标,因此 1 分钟、 30 秒以及 15 秒数据得到的最终因子呈现高度相关性。


进一步我们将上述多频率合成因子等权合成“综合量价”因子,可以看到相比原始 1 分钟“综合量价”因子也有较为明显的改善。








请到「今天看啥」查看全文