专栏名称: 紫金天风期货研究所
天风期货研究所官方订阅号
目录
相关文章推荐
北京厚朴中医  ·  厚朴电子日历 | 早 ·  2 天前  
北京厚朴中医  ·  筑基十一期招生开启——学习中医、厚朴筑基 ·  3 天前  
安徽交通广播  ·  久坐引发腰部不适?快揉按这两个穴位! ·  4 天前  
安徽交通广播  ·  久坐引发腰部不适?快揉按这两个穴位! ·  4 天前  
北京厚朴中医  ·  厚朴电子日历 | 晚安 ·  6 天前  
北京厚朴中医  ·  《靈樞經》学习班今日上线 (徐文兵、左常波主讲) ·  5 天前  
51好读  ›  专栏  ›  紫金天风期货研究所

专题:AI是未来?我试了试新闻舆情因子

紫金天风期货研究所  · 公众号  ·  · 2025-01-09 17:16

正文

“复杂之美”:大宗商品舆情策略
紫金天 风期货研究所 量化组 2025年1月7日

摘要

新闻数据对大宗商品价格有没有影响? 借助自然语言处理等人工智能技术, 我们尝试构建了20种国内主流商品的“新闻舆情指数”, 指导投资。 舆情因子和传统商品动量、基差低相关,它提升基差-动量组合夏普比18%

我们发现, 20 20年开始舆情数据对大宗商品的定价能力显著提升,再之前是11-12年。 13-16年,舆情因子表现失色。

舆情指数。 我们简要介绍从商品新闻数据到商品舆情指数的构建流程,并用一个原油舆情指数作为例子说明。

舆情组合。 基于指数,我们 讨论如何用一种均线策略构建最简单的商品舆情组合,以及用作对比的基差和动量组合。

单因子。 在同样的参数下, 我们的 动量夏普比是0.32,舆情因子是0.42,基差因子是0.53。 10年至23年,舆情因子和基差/动量的费后相关性分别为0.1和0.2

多因子。 我们等权组合商品舆情/基差/动量因子,相比常规基差-动量组合,夏普比进一步提升18%至0.6。样本外,我们的模型也展现韧性。

风险提示: 过去业绩不代表未来、数据敏感、交易成本等。

舆情指数

新闻舆情对股票的预测力众人皆知,比如所谓的“机构观点”、 “零售投资者情绪” 。这些往往大量的、不同来源的新闻包含了对一家公司持负面/正面/中性的态度,后者对其股票未来价格走势可能会产生影响。

大宗商品为什么不这么做? 比如2020年原油崩盘之际,国内各种来源的负面舆情可能一天就能达到上百条。 又或者当全球需求走弱,技术革新之时,铜的负面新闻也会纷至沓来。

这种数据的特点在于它不是结构化的。它需要爬取、智能解析(如NLP)等额外处理来生成,比如对应商品的情绪。情绪得分是结构化的。然后,我们可以借助传统CTA策略来交易这种情绪。

我们将每个商品、每天的这样的情绪得分(一个介于中性/负面/正面之间的连续值,continuous)序列称为“舆情指数”。这篇报告,我们尝试构建了20种商品(南华商品指数下)的舆情指数。我们选择指数来研究,因为 主流商品通常拥有更为充分的舆情数据,情绪会出现“统计意义”。 当然,单纯考虑舆情数量,我们也可以做到更多的品种。

我们以国内原油(SC)为例,展示一个原油舆情指数,从17年开始。这里展示的指数只为说明用,为了显示出舆情走势。

大周期来看,我们的舆情指数较好的表达了:

  • 2020下半年以来的原油的超级周期

  • 22年和去年以来对原油需求的担忧,并且这种担忧可能会持续

  • 2020年因covid导致的原油需求暴跌担忧

所以, 直观上我们的舆情指数合理。 我们自然将这种做法,连同一开始的数据处理流程应用在了其余主流大宗商品上。在不同商品的新闻数量分布方面,大体上,平均每年的新闻数目都比较“均匀”。

下面一节我们会讨论依据这些指数,如何构建一个简单的舆情策略组合,以及它和传统动量、基差策略之间的相关性。我们有什么样的发现。

单因子

先阐述组合构建细节。舆情指数的投资逻辑较为简单: 舆情指数上升时,我们做多对应商品主力期货,下降时我们做空。 组合是所有品种(20)的等权平均。这里所有交易单位均为1。在成本方面,我们 用1个滑点计入本文中所有的交易市场,同时移除管理费和提成等因素的影响。

信号方面,我们对所有标的构建60x240的二元均线策略,其是最为经典的趋势模型之一。作为对比,我们的基差和动量策略也采用这一方法,也覆盖同样的20个商品期货。这三种策略的长期收益走势如下,从2010至2023年。在第一年,我们对所有数据进行了“burn-in”。

首先 我们的舆情因子有长期收益, 总回报略弱于基差和动量 回报稳定性方面,最差,它的收益集中在2020年开始,这可能不会太奇怪。因为在那之后, covid、供应链危机和全球地缘政治等因素导致商品成了大类资产中的主角。 技术上来说,彼时相比海外,中国期货市场的流动性(例如成交量)经历了巨量的增长,这也给社会舆论带来了契机。在此之前是11-12年,当时通胀也正好是中国的一个宏观主题。因而,我们的舆情组合表现符合认知

组合参数方面,我们分了两组均线,括号内为其夏普:

  • 10x40(-0.16),20x80 (-0.16)

  • 50x200 (0.08) 60x240 (0.42)

我们的舆情因子更适合长周期。 换句话说,它在周期上的稳健性不如传统动量。比如,一个10x40的动量夏普是0.53,一个60x240的动量夏普仍有0.32,虽然后者夏普低于舆情。

接下来是相关性。整个样本内舆情因子和基差/动量(60x240)的相关性分别为0.1和0.2。这里需要注意 尽管基差22-23年表现也不错,但是它们同期的相关性也仅有0.1。 换句话说,我们能在动量表现不佳的时期获得两种不同的正收益源。

三因子

下面,我们简单将上节中的动量、基差和舆情因子作等权来形成我们的三因子组合。

夏普有全面提升 。我们的动量夏普比是0.32,舆情因子是0.42,基差因子是0.53,而三因子夏普达到0.6。 风险方面,舆情因子的加入将两因子(动量-基差)波动从7.21%下降到5.98%。

我们也确实看到,我们的曲线比前述任何一个单策略都更加的稳,更加的向上。

最后,我们提及费率的影响,如果不考虑滑点,我们的动量夏普比是0.33,舆情夏普比是0.49,基差夏普是0.54 。可以看到, 成本对舆情的影响更大一些(-14%), 这也体现了这类数据的不同之处。

总结

我们从未涉及过该类cta策略: 用不同来源的、大量的新闻数据及其包含的情绪来投资国内大宗商品期货, 其中情绪使用了经典的NLP技术。 有正收益、 低相关、分散化, 我们的舆情组合能给传统基差和商品动量因子提供一层很好的互补。

我们没有做任何额外的优化,为了清晰说明: 1) 新闻数据有用; 2) 人工智能有用。当然,后者我们并未用来作常用的资产价格预测, 而是用来提取新闻语义输入到cta。 缺点之一,这类策略相比动量等因子,是否能更长期稳定,值得深究。

样本外,截至去年三季度,我们的舆情因子夏普比轻微下降至0.37。展望未来,我们自然会扩充一部分投资组合标的,持续跟踪。以及进一步研究它的alpha。

说明:截至2024年三季度,紫金天风期货研究所量化组计算

相关

作者:






请到「今天看啥」查看全文