在股票市场中,交易行情数据一般分为Tick数据、分钟数据以及日线数据,其中日线数据因其易获取、易分析且适合中长周期分析等特点,在投资决策及策略开发中应用最为广泛。
近年来随着机器学习、深度学习等前沿技术的应用,以及量化机构算力设备的不断提升,分钟频、Tick级数据已被大量应用于策略开发及交易过程中。
从包含信息幅度来看,Tick数据是目前最精细、最完整的交易数据,真实反应了所有的交易信息,但其数据量非常庞大且噪音信号较多,开发因子难度较高。
相对而言,分钟频数据是性价比较高的一类数据,目前已广泛应用于公募、私募、保险、券商等量化投资团队中。
在方正金工多因子选股系列研究中,我们结合分钟频数据与日频数据构建了“适度冒险”、“完整潮汐”、“勇攀高峰”、“球队硬币”、“云开雾散”、“飞蛾扑火”、“草木皆兵”、“水中行舟”、“花隐林间”、“待著而救”、“多空博弈”、“协同效应”、“一视同仁”、“激流勇进”等14个特色高频量价因子。为了降低因子换手率,我们对所有的因子进行了月度频率的平滑处理,即高频因子低频化处理。
上述因子中绝大多数以分钟频数据为基础计算,再低频化至月频使用。本文中我们将尝试进一步将数据频率提升至30秒以及15秒频率,研究其对现有因子的信息增量。事实上,分钟频、30秒频、15秒频数据本质上都是由Tick数据根据时间长度切割而来,因此数据结构上没有特别大的差异,但由于切割点更细,每一个切片上反应的交易信息要比分钟频数据上的信息更多,因此30秒与15秒频的数据在部分因子上的表现可能比分钟频更为理想。
从实证结果来看,大多数因子在经过多频率合成之后的表现相较于分钟频因子有一定改善。其中多频率合成的“待著而救”因子相比于1分钟频率“待著而救”因子RankIC从-8.27%提升至-9.36%,年化RankICIR从-3.38提升至-3.59%,多空组合年化收益率从26.47%提升至31.24%,信息比率从2.53提升至2.59。合成后的“激流勇进”因子相比于1分钟频率“激流勇进”RankIC从6.35%提升至8.97%,年化RankICIR从3.59提升至4.00%,从各分组超额收益表现来看,分组能力明显提升,各组别分化相对更为明显。
风险提示:
本报告基于历史数据分析,历史规律未来可能存在失效的风险;市场可能发生超预期变化;各驱动因子受环境影响可能存在阶段性失效的风险。