兴业证券金融工程研究成果展示与交流平台 |
投资要点
西学东渐,是指从明朝末年到近代,西方学术思想向中国传播的历史过程。西学东渐不仅推动了中国在科学技术和思想文化方面的发展,也有力地促进了社会与政治的大变革。在今天,西学东渐仍有其重要的现实意义。作为 A 股市场上以量化投资为研究方向的卖方金融工程团队,在平日的工作中,常常深感海外相关领域的研究水平之高、内容之新。而这也促使我们通过大量的材料阅读,去粗取精,将认为最有价值的海外文献呈现在您的面前!
作为西学东渐——海外文献系列报告第一百七十五篇,本文推荐了Joon Chul James Ahn,Dragos Gorduza和Seonho Park于2024年发表的论文《Hidden Neighbours: Extracting Industry Momentum from Stock Networks》。
本文介绍了一种创新的方法,通过利用两个股票网络来构建行业动量组合:一个基于股票价格相关性,另一个基于企业披露的文本相似性。这些网络捕捉了公司关系的不同方面,将这两个网络结合起来可以形成一个行业动量的组合,而这样的行业动量并未被市场充分定价。本文回测了2013年至2022年期间的隐性关联组合,获得了18.16%的年化回报率,夏普比率为0.85,表现超过了标普500和其他传统动量策略。因子分解表明,特定的选股所产生的α是收益的主要来源。本文采用跨学科的方法,将网络分析和自然语言处理(NLP)技术结合起来,利用先进的文本嵌入模型,将公司披露的文本信息整合到股票网络中,提升了投资组合的表现。
风险提示:结论基于历史数据,市场环境转变时模型存在失效风险。
1、引言
自Jegadeesh和Titman(1993)的开创性论文发布以来,研究人员多年来发现了不同形式的动量收益(见Wiest 2023及其中的参考文献)。过去文献中常见的动量形式之一是行业动量,其超额收益来源于过去的价格波动没有完全反应行业信息冲击(Wiest 2023;Moskowitz和Grinblatt 1999)。虽然存在多种行业动量组合的方案,但研究人员通常使用标准行业分类方案(ICS),如标准行业分类(SIC)和北美行业分类系统(NAICS)(Wiest 2023)。基于标准ICS构建行业动量组合的好处在于其简便和可复制。然而,这种方法也有其缺点,即过于简化了公司之间复杂的行业关系(Li 2022;Phillips和Ormsby 2016)。
为了更好地融入标准ICS无法描绘的复杂行业关系,研究人员开始探索使用网络来反应股票之间的关系。一种常见的构建股票网络的方法是利用股票之间的价格相关性来定义网络的边(Marti等,2021)。另一种方法是通过公司披露的文本相似性来构建股票网络的边,例如通过10-K和10-Q报告。将文本数据纳入股票网络的主要目的是捕捉那些可能尚未完全反映在股票价格中的额外信息,这在弱有效市场假说下尤为明显(Fama 1970)。该方法将公司披露文本转换为向量表示或嵌入。然而,尽管自然语言处理(NLP)领域已开发出更为复杂的嵌入模型,但使用这些工具构建股票网络方面的研究仍然不足。此外,尽管过去的文献研究了如何利用股票价格相关性或文本相似性网络进行组合优化,但将这两种网络结合起来应用于投资组合的尝试仍然较少。
本文提出了一种基于网络的新颖方法来构建行业动量组合,旨在更好地捕捉那些无法通过标准ICS或以往基于网络的方法表示的复杂行业关系。我们所提出的行业动量组合,是基于股票价格相关性以及公司披露文本相似性网络构建而成的,称之为隐性关联组合。我们的分析表明,这两种网络捕捉到的公司关系信息是不同的,将两种网络结合起来,可以从不显眼的公司关系中捕捉行业动量。
从2013年到2022年,隐性关联组合的年化回报率为18.16%,夏普比率为0.85,在风险调整后的回报方面优于标普500指数和其他知名的动量策略。组合的因子分解显示,特定的选股所产生的α是收益的主要来源。我们认为,隐性关联组合的超额回报源于识别那些未被充分定价的同行公司之间的行业动量。
本文的贡献可总结如下:
1.我们使用两种类型的股票网络;(1)基于股票价格相关性的网络;(2)基于10-K和10-Q文档嵌入的文本网络。为了构建文本网络,我们开发并提出了一种新颖的基于NLP的技术,融合了多种文档嵌入技术。
2.分析表明,这两种网络具有不同的特征。这两种网络的组合,能够识别那些具有强业务相似性但股票价格相关性较低的同行公司。
3.使用组合网络,我们提出了一种新型的行业动量组合——隐性关联组合,该组合在2013至2022年间的夏普比率为0.85,而基于SIC的行业动量组合的夏普比率为0.55。
本文的其余部分安排如下:第二部分简要回顾了行业动量和构建股票网络的文献;第三部分概述了我们使用股票价格相关性和公司披露文本数据构建股票网络的方法,介绍了现代NLP工具的应用;第四部分将两种基于不同数据源的网络进行对比,并提出使用组合网络来发现公司之间不易察觉的联系;第五部分概述了使用组合网络进行投资组合构建的方法,并测试了隐性关联组合在2013至2022年间的表现;第六部分讨论了该方法生成的同“行业”公司,并分析了隐性关联组合的其他数据,如最大回撤和交易成本;最后,第七部分给出结论。
2、背景及相关介绍
2.1
股票收益的动量效应
动量效应是一种经济异常现象,指的是通过购买过去表现良好的股票并卖出表现差的股票,能够获得正收益(Wiest 2023)。这一市场异常现象在Jegadeesh和Titman(1993)的论文之后开始在学术文献中被广泛讨论,论文表明,仅仅通过利用过去的价格表现,投资者就可以获得超额利润。在对动量利润来源进行一系列不同的研究后,学术界现在普遍接受的观点是,不同时间段和资产类别中均存在动量效应(Wiest 2023)。
一种普遍认可的解释认为,动量效应之所以广泛存在,是因为投资者对信息存在过度反应或反应不足的情况(Daniel 等,1998)。由于投资者自身存在一些内在偏见,例如自我归因偏差和过度自信(Chui 等,2010),他们没办法充分整合新信息,这就致使回报出现滞后性,无论是正向回报还是负向回报都如此。而且,这种市场低效性在规模较小、受关注程度较低的市场里更为凸显,进而产生更为可观的动量收益(Hong 等,2000)。
2.2
行业动量
行业动量是文献中深入研究的动量形式之一,表现为同一行业的公司组合超额收益存在动量效应(Wiest,2023)。Wiest(2023)对行业动量和基于动量的方法进行了全面回顾。Moskowitz 和 Grinblatt(1999)是最早通过基于公司前两位 SIC(标准行业分类)代码将公司分组来研究行业动量的。他们构建了一个多空投资组合,持有收益排名前三的行业,同时做空收益排名后三的行业。然而,与 Jegadeesh 和 Titman(1993)文献中记录的动量收益不同,行业动量收益在 1 个月持有期内表现出最高的回报,并且在更长的持有期内超额收益迅速下降。此外,行业动量策略的纯多头策略在 1989 至 1999 年间未能在风险调整后的表现上超越标普 500 指数(O'Neal,2000)。
与 Moskowitz 和 Grinblatt(1999)类似,许多研究者利用标准行业分类方案(ICS),如 SIC 代码,将公司分组到其指定的行业中,然后提取行业动量(Li,2022;Grobys 和 Kolari,2020;Behr 等人,2012)。使用该方法的主要优势在于实现的便捷性和可重复性。然而,标准 ICS 倾向于简化公司之间复杂的行业关系,因为它仅通过一个行业代码来分类公司。此外,行业动量利润的超额收益幅度通常会根据 ICS 的选择而有所不同,因此选择何种ICS行业分类是个令人纠结的问题(Li,2022)。
为了克服基于 ICS 的分组的局限性,Hoberg 和 Phillips(2016)使用 10-K 文件中的产品描述,构建了基于频率的词向量,并根据公司产品的相似性将公司分组到各行业中。这种基于文本分类构建的行业动量投资组合能够产生比基于 SIC 的行业动量投资组合时间更久,规模更大的超额回报(Hoberg 和 Phillips,2018)。在这项研究中,作者认为该方式带来的超额行业动量收益源于基于文本的分类能够识别较不明显的行业关系(Hoberg 和 Phillips,2018)。
2.3
股票网络
为了更好地描绘复杂的行业和商业关系,研究人员探索了使用网络来分析不同公司之间的关系(Marti et al. 2021)。虽然一个公司仅仅对应一个行业代码,但可以采用网络方法来捕捉股票之间更复杂的商业关系(Hoberg 和 Phillips 2016)。构建股票网络的最常见方法是使用收益率相关数据(Marti et al. 2021)。股票即为节点,其收益相关性用于定义边的权重,从而形成一个加权的股票网络(Mantegna 1999)。在定义节点和边之后,通常构建最小生成树(MST),形成相应的公司簇(Marti et al. 2021)。
虽然基于股票价格的网络已被证明是良好的风险管理工具(Lee 和 Nobi 2018),但它们可能不适合表示行业关系。MST要求无环结构,可能无法表示现实中复杂的行业关系。此外,股票之间虚假的价格相关性也可能导致分类的误差,即使没有经济关系的节点之间也可能连接起来。
因此,一种基于文本(公司披露的文本)的网络,如Hoberg 和 Phillips(2016)建议的那样,可能是描绘行业关系的另一种选择,因为它可以将公司的产品、报告中的行业术语、以及公司的商业风险等都纳入考量。然而其技术要求较为复杂,研究人员需要选择合适的方法论将文本数据转换为向量嵌入表示。值得注意的是,Hoberg 和 Phillips(2016)使用基于单词计数的方法将10-K产品描述转换为向量表示。虽然基于单词计数的方法具有可解释性,但它无法反应整体语法结构,并且其对产品的描述随时间变化较大。应用基于机器学习的文档嵌入模型,如Adosoglou等(2022)使用Doc2Vec(Le 和 Mikolov 2014)模型构建的基于文本的网络,揭示了超越单词计数的文本相似性。使用更先进的嵌入模型使研究人员能够从公司披露文本中提取更多信息。然而,是否要去使用更先进的网络仍然需要权衡,这些模型往往不具可解释性,可能导致隐藏的偏差。
2.4
基于文本信息的投资组合构建
随着计算能力的提升和在线内容的增加,金融分析和投资组合构建中使用文本数据的数量呈指数级增长(Loughran 和 McDonald 2020)。在先前研究中(Loughran 和 McDonald 2020),常见的文本数据来源之一是向美国证券交易委员会(SEC)提交的公司披露文件,如10-K和10-Q披露(以下简称10-X披露)。10-X披露包含如公司的总体业务描述和主要风险考虑因素(Dyer et al. 2017)等颇具价值的公司信息。Cohen等人(2020)假设市场未能充分定价10-X披露中的文本数据,并构建了一个市场中立的投资组合,持有那些10-X披露变化最小的公司的多头头寸,同时做空那些披露变化较大的公司。该“懒惰价格”(Cohen et al. 2020)投资组合每月产生188个基点的超额收益,表明10-X披露中包含了大量有利可图的信息。
在“懒惰价格”投资组合构建方法的基础上,Adosoglou等人(2022)提出了“懒惰网络”投资组合,采用基于网络的方法分析那些公司披露变化最小的公司之间的相关性。在Adosoglou等人(2022)的研究中,通过网络中的各种指标选择的50家披露变化最小的公司的等权重多头投资组合每月可以产生51到96个基点的超额收益。鉴于“懒惰网络”投资组合仅持有多头头寸,可以说其超额收益的来源与Cohen等人(2020)中的“懒惰价格”投资组合相似。
在使用公司披露文本数据构建股票投资组合时,语言模型的选择会影响超额收益的大小。Adosoglou等人(2021)比较了基于文本相似性构建的金融投资组合的超额收益,该研究使用了三种不同的语言模型,分别是Word2Vec(Mikolov et al. 2013)和两种Doc2Vec(Le 和 Mikolov 2014)实现:PV-DM和PV-DBOW。使用PV-DM Doc2Vec模型的投资组合产生了最大的超额收益,这意味着能够考虑单词顺序和语义的语言模型在构建利用文本相似性的投资组合时表现更好。
3、构建基于文本信息和股票价格的股票网络
3.1
基于股价的网络
3.2
基于文本信息的网络
除了基于价格的网络,本文还介绍了基于文本的网络。基于文本的网络与基于价格的网络具有相同的节点,但其边的权重定义为公司文本数据的向量表示之间的余弦相似度。如Adosoglou等人(2022)所述,我们也采用了公司披露、10-K和10-Q(通常为10-X)作为我们分析的文本信息。
3.2.1 文本数据收集
历史的10-X披露数据是通过Loukas等人(2021)开发的Edgar Crawler和The Notre Dame Software Repository for Accounting and Finance收集的。为了避免任何前瞻性偏差,我们严格收集了日历年内的披露数据,而非财年数据。
3.2.2 NLP模型
对于每个日历年,我们的目标是构建一个基于文本的网络。因此,必须定义其边的权重,这些边的权重在一年内都不会变化。类似于Hoberg和Phillips(2016),我们将基于文本的网络的边的权重定义为年度文档向量表示的余弦相似度。为此,我们特别采用了两个NLP模型。此外,我们还提出了一种方法来无缝整合这两个NLP模型的输出。以下是我们定义的训练方法:
1.Doc2Vec
Doc2Vec(Le和Mikolov,2014)是一种广泛使用的基于词袋的文档表示方法,其训练基于一个包含段落ID的单词集合。段落ID的加入将Word2Vec(Mikolov等,2013)嵌入方法扩展为Doc2Vec,增加了在段落中表示词袋的灵活性。我们按照Adosoglou等人(2022)建议的超参数设置训练Doc2Vec模型。由于他们的工作中使用的数据也是10-X,因此直接借用他们的超参数设置非常合理。训练方法的细节见附录A。
2.FinBERT
虽然Doc2Vec模型已成功地于先前的工作中构建基于文本的网络(Jeon等,2017;Adosoglou等,2022),但它作为词袋模型存在明显的局限性。Doc2Vec无法表示完整的语法结构,因为它不考虑给定文本中单词的顺序。因此,我们希望通过采用一个更现代的NLP模型来进一步改进基于文本的网络,该模型可以更好地处理整体语法。具体而言,我们使用了FinBERT(Huang等,2022)。FinBERT是一个基于BERT的双向编码器表示模型(Devlin等,2019),它在公司披露和金融文本数据上进行了预训练,因此非常适合用于金融应用。通过使用FinBERT,我们希望创建更复杂的文档向量嵌入,更好地反映不同公司之间的细微相似性。
为了使用FinBERT创建文档级嵌入,我们首先使用SimCSE(Gao等,2021)对FinBERT模型进行微调。为了避免标注过程,SimCSE对比学习作为一种自监督学习方法,利用了文本实例中句子向量表示之间的距离。具体来说,它试图最小化相同句子之间的向量表示距离,同时最大化不同句子之间的距离。为了推广表示,我们还在实现的FinBERT模型的倒数第二层上附加了丢弃层(Srivastava等,2014)。虽然也可以使用ICS(例如SIC或NAICS)作为我们的标注数据来微调FinBERT模型,但这将削弱模型理解公司之间潜在关系的能力。使用SimCSE微调FinBERT的整体过程如图1所示。
微调完成后,我们使用FinBERT模型生成10-X文档中句子的向量表示。然后,将句子嵌入平均化以生成我们的最终文档嵌入,维度为784。与Doc2Vec类似,我们将10-X披露文件平均化,以创建公司的年度文本向量表示。这个过程总结在图2中。训练方法的更多细节请参见附录A。
3.结合Doc2Vec和FinBERT
基于上述两个NLP模型,我们能够计算不同公司之间公司披露文本的余弦相似度,从而完成基于文本的网络构建。对于每个NLP模型,我们计算公司披露之间的余弦相似度。
3.3
网络骨干化
网络构建通常涉及骨干化过程,即去除不重要的边以简化网络结构。网络骨干化对基于文本的网络和基于价格的网络都至关重要。由于大多数公司之间都有非零的文本相似度和股票价格相关性,如果没有骨干化,基于文本和价格的网络中的每个节点都会与其他节点完全连接。这种完全连接的结构不仅会使可视化识别变得困难,而且也不能很好地代表现实中的行业关系。
为了对股票网络进行骨干化,通常使用全局阈值的方法。这种方法将低于某个切割参数的边全部去除。然而,如图3左侧所示,基于价格和基于文本的网络的边的权重分布存在显著差异。在这种情况下应用全局阈值方法是不合适的,文本网络中的边会被过多删去。
因此,我们没有先使用全局阈值方法,而是先通过差异过滤器对基于文本的网络和基于价格的网络进行了统一的骨干化。差异滤波器方法假设节点的度数 k 遵循均匀分布,进而确定节点的统计显著边。差异过滤器将边的权重转换为1-α的检验统计量,并去除任何低于预设水平的权重为1-α的边。α为第一类错误的值。
在使用差异过滤器对两个网络的权重进行标准化后,本文建议将切割点设置得尽可能高,以便去除两个网络中统计不显著的边。然而,当切割值设置得过高时,可能会导致过多边被删去,从而导致过于简化的稀疏网络以及过多节点的丧失。由于本文的最终目标是投资组合优化,因此过于稀疏的网络以及过多节点的丧失并不理想。最终,我们选择了0.7作为我们的切割值。在我们的实验中,发现0.7可以去除统计上不显著的边,同时不会导致节点的丧失。进一步的细节和考虑因素将在附录B中讨论。
4、构建组合网络
4.1
网络分析
本节对基于文本和基于价格的公司关联网络进行分析,以探究两种网络是否捕捉了不同类型的公司关系信息。这一网络分析佐证了使用综合网络识别企业间隐性关联的合理性。
可视化呈现
基于前文所述方法,我们构建了文本关联网络与价格关联网络,并通过Gephi软件进行可视化(如图4)。可视化结果显示,文本关联网络中企业集群的分布与标普Capital IQ行业分类高度吻合。例如,网络右侧可见软件服务类企业集群(橙色),与左侧公用事业类企业集群(棕色)形成鲜明对比。
而在价格关联网络中,企业集群更多呈现风险-收益特征的同构性而非行业一致性。价格网络底部主要由特斯拉(TSLA)、亚马逊(AMZN)、谷歌(GOOG)等成长股构成,代表高波动性股票群体;网络右上角则聚集了沃尔玛(WMT)、杜克能源(DUK)、Realty Income(O)等低贝塔值企业,体现稳健型投资标的。
典型案例:特斯拉的跨网络定位差异
特斯拉在不同网络中的位置差异尤为显著。在基于企业核心业务描述的文本网络中,特斯拉因其电动汽车制造主业与软件服务企业的业务差异,远离软件服务类企业集群。但在价格网络中,特斯拉节点却紧邻软件服务类企业。这可能源于两者均被视为高风险高收益的成长型股票,导致股价联动性增强。
核心发现
可视化对比表明,两类网络捕捉的关联模式存在本质差异:文本网络反映企业间业务活动的相似性,而价格网络映射股票风险-收益特征的趋同性。我们推断,文本网络的关联主要受企业基本面相似性驱动,而价格网络的关联更多由市场因素和投资者情绪塑造。这一差异验证了综合网络模型在挖掘企业隐性关联方面的必要性。
近邻节点的行业分类分析
通过分析两个网络中节点的最近邻企业,我们进一步探究不同网络形成的企业集群特征。具体而言,我们统计了与目标节点属于同一行业分类(基于标普Capital IQ行业标准)的邻居数量,以评估哪种网络的集群特征更贴近传统行业分类体系(ICS)。
图6展示了各节点最近邻企业的同行业分布情况。结果显示,文本关联网络中邻居节点与目标节点同属一个行业的比例显著高于价格关联网络。这一发现与可视化观察一致:文本网络中行业集群特征更为明显。分析表明,尽管两种网络均能捕捉企业间的经济关联,但文本网络更贴近传统行业分类逻辑。该结论可为投资组合构建者提供参考,帮助其评估网络信息相对于行业基准的价值。
网络结构的动态演化
股票关联网络会随新信息的融入而动态演变。由于文本网络与价格网络的数据源不同,我们进一步分析两者结构随时间的演化差异。采用Faizliev等人提出的图相似度指标(基于汉明距离与PageRank中心性变化的加权平均),我们测量了两种网络年度结构相似度的变化。该指标范围为0至1,0表示网络结构完全不变,1表示完全重构。
图6展示了2012至2021年间网络结构的年度相似度变化。整体而言,价格网络相比文本网络表现出更高的结构稳定性,各年度相似度值均相对较高。尽管价格网络基于股价相关性(易受投资者行为影响),理论上应更具波动性,但实证结果显示文本网络的结构变化更为显著。这可能源于投资者对既有行业关系的路径依赖(Kimura和Nakagawa,2022),即使在市场压力时期,也未发现投资者存在跟风行为,或者他们在行业 ETF中的配置发生变化(Gleason等,2004)。虽然因果关系尚待验证,但两种网络的时间演化差异已得到证实。
4.2
综合网络构建
上述分析表明,文本网络与价格网络分别捕捉企业间不同维度的关联信息:价格网络反映市场导向的关联模式,文本网络则更贴近企业基本面特征。基于此,我们提出将两类网络融合构建综合网络,以优化信息提取效果。
综合网络的构建方法是从文本网络边权中扣除价格网络边权,通过矩阵减法实现:
5、隐性关联企业的行业动量投资组合
5.1
隐性关联组合构建
我们使用组合网络,旨在构建一个仅持有多头的行业动量投资组合,其风险调整后的回报优于各种基准。
我们提出的行业动量投资组合的构建方式如下。首先,我们将过去12 - 1个月中总回报率位于前30%的股票定义为动量股,在回溯期内跳过最近的 1 个月。其次,我们根据与动量股相连的边权重的平均值,对组合网络中的每个节点进行排名,即与动量股的组合网络边权重平均值最高的节点获得最高排名。最后,我们从这个排名列表中选出前50只股票,以等权重的方式纳入我们的投资组合,并持有12个月。
我们将这个行业动量投资组合命名为隐性关联投资组合,因为它旨在选择与动量股具有强业务相似性但低股价相关性的股票。这种方法可以捕捉到不显眼的同行公司之间的行业动量,而市场对这些公司的业务相似性并未充分定价。隐性关联同行的例子在第6.1节中讨论。
5.2
基准策略对比
为评估隐性关联组合的相对表现,我们选取以下三类基准进行对比:
1. 标准动量策略(Jegadeesh与Titman,1993): 选取标普500成分股中过去6个月(扣除最近1个月)总收益率前50的股票,采用等权重配置,持有期为6个月。
2. SIC行业动量策略(Moskowitz与Grinblatt,1999): 筛选总收益率前30%的动量股,根据其SIC代码前两位识别动量行业,选取标普500中属于该行业且总收益率前50的股票,等权重配置并持有6个月。
3. 标普500指数: 以标普500全收益指数作为市场组合基准。
(注:基准策略参数已调整以确保可比性,具体构建方法参见附录C。)
5.3
夏普比率与累积收益
我们报告了2013年至2022年期间,隐性关联投资组合的夏普比率和回报率,以及其基准表现。如图7所示,隐性关联投资组合显著优于其他基准策略。它不仅提供了更高的风险调整后回报,还实现了最高的累计回报。而SIC行业动量基准的波动性更大收益更低,导致其夏普比率甚至低于标准普尔500指数(图7)。
(注:基准策略参数已调整以确保可比性,具体构建方法参见附录C。)
5.4
因子分解
我们还使用Carhart四因子模型(Carhart 1997)对隐性关联投资组合的收益特征进行了分解,该模型的具体形式如下:
我们之所以使用Carhart四因素模型,是因为它包含了标准动量因子变量UMD。通过分析UMD,我们能够更好地理解投资组合的收益是否与单纯通过过去的收益构建的标准动量组合有所不同。我们还对Carhart的alpha(α)感兴趣,这有助于我们了解隐性关联的收益是否由标准风格因子无法解释的alpha所驱动。
图9展示了将投资组合的日收益拟合到Carhart四因素模型(Carhart 1997)以及其他动量基准的回归结果。隐性关联投资组合的alpha在5%的显著性水平上表现出统计学意义,这表明超额收益是由特有的证券选择驱动的,而不是由标准风格因子驱动的。这与Lewellen等人(2010)的发现一致,该发现表明横截面行业收益很难被标准风格因子模型所捕捉。
同样,SIC行业动量在5%显著性水平上与标准因子并未表现出统计学意义。同时,该策略未能产生统计学上显著的alpha值。鉴于SIC行业动量基准的持有期为6个月,而SIC分类识别的行业动量的超额收益往往快速衰减,因此SIC组合未能产生显著的alpha值(Hoberg和Phillips 2018)。
异常收益的规模
对于许多研究人员而言,异常收益的规模或Carhart中的alpha值是评估投资组合时的重要指标。高alpha值的投资组合表明其收益主要由特有的证券选择所驱动。隐性关联投资组合的年化alpha值约为15.0%。与“懒惰网络”投资组合(Adosoglou等人,2022)相比,后者的年化alpha值为11.5%,隐性关联投资组合的alpha值高出约3.5%。与“懒惰价格”投资组合(Cohen等人,2020)相比,后者的年化alpha值为22.6%,隐性关联投资组合的alpha值较小。然而,必须考虑到“懒惰价格”投资组合是作为多空投资组合构建的,这意味着alpha值包括了多头和空头的异常收益。而我们的隐性关联投资组合仅持有多头,直接比较“懒惰价格”(Cohen等人,2020)和我们提出的隐性关联投资组合的alpha值可能不恰当。
虽然异常收益的规模不应是评估投资组合构建成功与否的唯一标准,但与以往文献中提出的类似投资组合相比,我们认为隐性关联投资组合已经实现了统计学意义上的显著收益。其他因素,如交易成本和最大回撤,也是投资组合中需要考虑的重要指标,将在第6节中讨论。
抗风险能力验证
图7展示了隐性关联组合与基准策略的52周最大回撤对比。在2020年(疫情冲击)与2022年(加息周期)两段熊市期间,该组合最大回撤分别为-34.35%与-28.20%,显著优于标准动量策略(-39.37%/-21.20%)与SIC行业动量策略(-42.68%/-28.51%)。
6、延申讨论
6.1
通过组合网络识别隐性关联
由于隐性关联投资组合捕捉了其动量强劲的邻接节点,我们认为隐性关联alpha值的来源在于识别组合网络中不太显而易见的行业同行。图10展示了通过标准ICS和其他基于网络的方法生成的伯克希尔·哈撒韦公司的五家同行公司。伯克希尔·哈撒韦是一家保险集团,旗下拥有众多行业的公司。虽然通过标准ICS方法生成的同行公司主要围绕伯克希尔·哈撒韦的核心GEICO保险业务,但组合网络更能考虑到该集团的非核心业务,涵盖铁路、医疗保健、食品饮料等领域。组合网络从文本网络中剔除了价格网络已经建立的关系,从而发现了更接近伯克希尔·哈撒韦非保险边缘业务的同行。
尽管有人可能会认为,从组合网络生成的同行公司在业务相似性上不如标准ICS或基于价格和文本网络的方法,但从组合网络中不太显而易见的同行中提取行业动量可能会转化为更大的超额 动量收益,因为投资者 对这些同行的关注度较低。我们的隐性关联投资组合相对于SIC行业动量基准的优越表现支持了上述假设。
6.2
动量崩溃风险与回撤控制
动量策略常因极端市场环境下的收益反转引发高回撤(Barroso与Santa-Clara,2015)。隐性关联组合在2022年出现28%的最大回撤(图12),虽与标普500指数(-25.43%)接近,但仍需警惕。未来可通过波动率目标调整(Barroso与Santa-Clara,2015)等风控手段优化回撤表现(图13)。图11显示,该组合在熊市中的回撤控制优于传统动量策略,展现出一定抗风险韧性。
6.3
交易成本与组合换手率
隐性关联投资组合的交易成本并不会过多地侵蚀收益。虽然基准动量策略每6个月再平衡一次,但隐性关联投资组合每12个月再平衡一次。因此,在其他条件相同的情况下,隐性关联投资组合的交易成本将大约是基准动量策略的一半。
此外,隐性关联投资组合的年投资组合周转率较低,年中位数周转率为38%。这显著低于SIC行业动量基准的75%年中位数周转率,也低于文献中介绍的许多其他动量策略的投资组合周转率,这些策略的周转率接近100%(Li等人,2009;Baltas和Kosowski,2012)。
总体而言,我们认为在考虑交易成本的情况下,隐性关联投资组合相较于其他动量策略更具优势。根据标准普尔500指数成分股的过去交易成本(Frazzini等人,2018),我们保守估计隐性关联投资组合的年化交易成本约为400个基点,几乎是Moskowitz和Grinblatt(1999)以及Jegadeesh和Titman(1993)假设的交易成本的两倍。尽管在考虑交易成本后,投资组合的夏普比率降至0.66,但仍高于2013年至2022年期间的标准普尔500指数。
6.4
嵌入模型
在本文中,我们介绍了一种独特的方法,使用两种不同的自然语言处理(NLP)模型生成文档嵌入:Doc2Vec和FinBERT。我们最终使用经过微调的FinBERT和Doc2Vec模型来创建文档嵌入,因为这种方法为隐性关联投资组合提供了最高的夏普比率。然而,这并不意味着在构建行业网络时必须使用FinBERT或其他基于Transformer的模型。
实际上,尽管FinBERT在各种金融NLP任务中表现出色(Huang等人,2022),但单独使用FinBERT构建隐性关联投资组合时,其表现不如Doc2Vec嵌入,如表6所示。这可能源于长10-K文档本身信噪比很低,且已经被压缩过了,因此简单的文档嵌入方法比基于Transformer的模型更好地再现了标准ICS关系(He等人,2020),但它们无法完全捕捉公司之间的微妙相似性,而这些相似性可以通过基于Transformer的模型更好地捕捉。
总体而言,我们认为没有一种通用的文档嵌入模型可以完全描绘公司之间的行业关系。在隐性关联投资组合的背景下,使用FinBERT和Doc2Vec模型提供了卓越的性能,展示了如何将复杂的语言模型与词袋嵌入结合使用的方法。然而,我们认为最合适的嵌入方法取决于研究人员想要捕捉的行业关系的范围和类型,需要使用各种NLP工具进行专门的实验。
7、结论
总之,我们的研究引入了一种新方法,将复杂网络分析和先进的自然语言处理(NLP)技术相结合,用于构建行业动量投资组合。组合网络整合了价格和文本的不同信息,揭示了标准普尔500指数公司之间不太明显的关系。由此产生的行业动量投资组合拥有卓越的业绩,其夏普比率超过了标准普尔500指数以及其他仅基于过去收益或标准行业分类(SIC)构建的动量基准组合。
此外,我们通过将FinBERT与Doc2Vec相结合,从标准普尔500指数公司的企业披露中生成文档的嵌入,为文本信息整合提供了一种新方法。基于组合网络,我们在隐性关联投资组合上实现了比其他基准更高的夏普比率(0.85),并且具有统计学上显著的Carhart alpha值和适度的最大回撤。
我们的研究结果对投资组合管理和财务决策具有重要意义,这是一种涵盖了多样数据的全面的策略,当然使用不同的数据源、大型语言模型和投资组合优化技术可能带来不同的效果,我们欢迎进一步地探索。
我们的工作揭示了跨学科方法的潜力,我们的这一新型策略正是金融理论、网络科学和自然语言处理相结合的产物。通过将文本相似性和股票价格相关性无缝结合,我们为金融从业者提供了一个应对当代金融复杂性的全新工具,推进了投资组合管理的理论和实践研究。
参考文献
附录
附录一:文档嵌入NLP模型的细节
Doc2Vec
我们去除了 Loughran-McDonald 主词典(Loughran 和 McDonald,2011 年)中使用频率最高的前 100 个词,来剔除公司披露中的常用词。之后,我们遵循 Adosoglou 等人(2022 年)的实现方法来训练我们的 Doc2Vec 模型,该模型用PV-DM(段落向量 - 分布式记忆)实现,具有 256 维嵌入,并经过 10 轮训练。如果为所有年份训练一个统一的主 Doc2Vec 模型,可能会存在前瞻性偏差的空间。因此,对于每个日历年,我们分别使用该日历年的 10-K 和 10-Q 报告训练一个新的 Doc2Vec 模型。之后,使用该日历年的 Doc2Vec 模型为 10-K 和 10-Q 创建文档嵌入。最后,通过平均四个文档嵌入(一个 10-K 和三个 10-Q)来创建年度向量表示。
FinBERT
我们使用预训练的 FinBERT(Huang 等人,2022 年)的 Sentence BERT 以及均值池化方法,为 10-X 披露生成文档嵌入。该模型采用 SimCSE(Gao 等人,2021 年)方法进行了微调。SimCSE 是一种无需任何标记过程的对比学习方法。
图 1 展示了我们使用 SimCSE 对 Transformer 模型进行微调的过程。我们首先将 10-X 文档拆分为各个句子。之后,将每个句子复制一次以生成一对相同的句子。然后,使用 FinBERT 为句子中的每个词生成词嵌入。接着,我们使用 Sentence BERT(Reimers 和 Gurevych,2019 年)的均值池化操作对词嵌入进行平均,以生成维度为 784 的句子嵌入。
由于 FinBERT 的 Transformer 架构中存在 dropout 层(Devlin 等人,2019 年;Huang 等人,2022 年),即使输入两个相同的句子,生成的句子嵌入也会略有不同(如图 1 中的 u 和 u' 所示)。这种差异相较于从不同文档中的不同句子生成的向量表示 v 来说相对较小。SimCSE 学习方法通过最大化真正不同的句子集合(u 和 v)之间的余弦距离,同时最小化从相同句子生成的嵌入(u 和 u')之间的余弦距离,来对 FinBERT 模型进行微调。
完成微调后, FinBERT 模型会为每个 10-X 文档生成向量表示。为此,FinBERT 模型会先为相应 10-X 文档中的句子生成句子嵌入。然后,对句子嵌入进行平均,以生成我们最终的文档嵌入,其维度为 784。与 Doc2Vec 方法类似,我们对 10-X 披露进行平均以创建年度表示。
附录二:差异过滤骨干方法
附录三:基准投资组合构建的细节和考虑因素
对于我们的标准动量基准,我们选择了6个月的持有期和6-1的回溯期,以确保与SIC行业动量基准的规格相同。
我们构建的SIC行业动量与Moskowitz和Grinblatt(1999)建议的原始构建方法有所不同。主要区别在于,我们在SIC行业成分股中选取了总回报率最高的前50只股票,以确保基准投资组合与隐性关联投资组合中的持股数量相同。50只股票尽管少于Moskowitz和Grinblatt(1999)的SIC行业动量投资组合中应有的持股数量,但我们不认为这会导致投资组合的表现显著下降。
海外文献推荐系列第一百七十四期:市场危机期间国际多资产基金的表现与投资风格
海外文献推荐系列第一百七十期 : 企业 层面的气候变化暴露敞口
海外文献推荐系列第一百六十九期 :社交互动如何影响你的共同基金投资?
海外文献推荐系列第一百六十八期 : 利用流动性指标和技术指标预测股票价格的日内跳跃
海外文献推荐系列第一百六十五期:全球化时代基金经理技能研究:出海持仓集中度与基金业绩
海外文献推荐系列第一百六十四期:资金流、业绩表现与管理行为——针对基金管理人报告的文本研究
海外文献推 荐系列 第一百六十三期: “风险追逐 风险规避”:一个多角度衡量全球投资者风险厌恶度的方法
海外文献推荐系列第一百六十一期: 非财务企业社会责任报 告与公司价值:关于金融分析师作用的国际证据 ?
海外文献推荐系列第一百六十期: 被动型ETF持仓对主动管理型基金业绩表现的影响几何
海外文献推荐系列第一百五十九期: 股票市场的交易共现、交易流分解和条件订单失衡
海外文献推荐系列第一百五十八期: 欧盟碳边境调节机制(CBAM)对欧盟贸易伙伴的影响:对发展中国家的影响研究 海外文献推荐系列第一百五十七期:如何估计盈利预测中的缺失值?——基于矩阵分解的视角 海外文献推荐系列第一百五十六期:机器学习模型的实践探索:在交易限制下能否有效预测股票收益?
海外文献推荐系列第一百五十五期:高换手率基金vs低换手率基金:增值方式的差异
海外文献推荐系列第一百五十三期:日内跳价风险和股票横截面收 益:以中国市场为例
海外文献推荐系列第一百五十二期:ESG对基本面及二级市场整体表现的影响:主张一种过程和综合建模方法
海外文献推荐系列第一百五十一期:ETF如何改变市场宏观有效性和风险结构?
海外文献推荐系列第一百五十期:收缩调整夏普比率:一种更优的选择共同基金的方法
海外文献推荐系列第一百四十九期:基金经理的 卖出能力是否比买入能力更重要
海外文献推荐系列第一百四十三期:优胜策略胜过等权策略 :使用高配策略进行资产配置
海外文献推荐系列第一百四十二期:系统性ESG风险和ESG被动投资
海外文献推荐系列第一百四十一期:如何衡量共同基金经理的技能与业绩?
海外文献推荐系列第一百三十九期:如何评估固收基金经理的因子择时能力?
海外文献推荐系列第一百三十七期:因子投资时应该进行行业中性处理吗?
海外文献推荐系列第一百三十六期:量化视角看企业文化——基于机器学习的研究
海外文献推荐系列第一百三十三期:高频交易对市场环境影响的实证分析
海外文献推荐系列第一百三十二期: 如何评价中国共同基金的表现?
海外文献推荐系列第一百二十四期:基于ICC聚类算法的市场状态预测模型
海外文献推荐系列第一百二十三期:基于DTW算法构建标普500行业ETF模式匹配交易策略
海外文献推荐系列第一百二十期:基于泡沫识别的行业指数实时交易策略
海外文献推荐系列第一百一十九期:战略资产配置中的长期波动率预测
海外文献推荐系列第一百一十八期:通过LTR算法构建横截面策略
海外文献推荐系列第一百一十七期:如何提升股债相关性的预测能力
海外文献推荐系列第一百一十六期:基于宏观经济周期对因子进行动态配置
海外文献推荐系列第一百一十三期:绝对收益基金是否真的可以实现绝对收益?
海外文献推荐系列第一百零九期:机构投资者可能会助推投机泡沫?
海外文献推荐系列第一百零七期:买入持有VS择时策略:谁是赢家?
海外文献推荐系列第一百零六期:基于历史收益的绝对收益基金分类
海外文献推荐系列第一百零二期:如何基于ESG信息构建因子投资组合?
海外文献推荐系列第一百零一期:从SRI到ESG——社会责任和可持续投资的起源
海外文献推荐系列第一百期: 市场对宏观经济信息错误定价的估计
海外文献推荐系列第九十八期:重温奥卡姆剃刀:合理估计资产长期收益
海外文献推荐系列第九十七期:价值因子与利率:低利率是否导致了价值因子的回撤?
海外文献推荐系列第九十六期:共同基金的尾部风险与横截面收益 ?
海外文献推荐系列第九十五期: 如何正确使用因子风险贡献比率指标?
海外文献推荐系列第九十四期: 挑战传统智慧——近20年主动管理基金文献回顾
海外文献推荐系列第九十期: 无形资产与价值因子:你的价值因子是否过时了?
海外文献推荐系列第八十八期:基于核PCA的动态市场风险信号研究
海外文献推荐系列第八十六期:基于债券市场风险因子分析投资经理业绩
海外文献推荐系列第七十七期:投资组合因子配置——不仅仅是资产配置
海外文献推荐系列第七十四期:共同基金投资者是否会高估基金极端正收益发生的概率?
海外文献推荐系列第七十三期:基于尾部风险和相关性的动态资产配置
海外文献推荐系列第七十一期:资产配置与因子配置——是否可以建立一个统一的方法?
海外文献推荐系列第七十期:从因子到资产:将因子暴露映射到资产配置
海外文献推荐系列第六十九期:如何克服海量因子库难题?—新因子的检验方法
海外文献推荐系列第六十八期:如何根据不同的经济环境进行资产配置?
海外文献推荐系列第六十七期:最差时期的最佳策略:投资组合能否抵御危机?
海外文献推荐系列第六十二期:预测股票市场收益:分项加总的效果优于整体
海外文献推荐系列第六十一期:基于共同基金业绩分析羊群行为能否展示基金经理能力
海外文献推荐系列第六十期:基于预期收益的风险平价模型的构建与改进
海外文献推荐系列第五十九期:基于机器学习方法的宏观因子模拟投资组合构建
海外文献推荐系列第五十八期:现金指标是否比利润指标更能预测收益?
海外文献推荐系列第五十七期:如何将因子信息融入到指数基金和主动基金之中
海外文献推荐系列第五十六期:全球区域配置框架:构建全球FOF型ETF
海外文献推荐系列第五十四期:公司治理、ESG与全球股票收益关系
海外文献推荐系列第五十二期:如何有效利用ESG数据构建Smart Beta指数
海外文献推荐系列第五十期:基于风险溢价的投资组合—一类风险分散的新方法
海外文献推荐系列第四十八期: 基于机构投资者交易情绪的动态资产配置研究
海外文献推荐系列第四十七期:主动投资中的 Timing 与 Sizing
海外文献推荐系列第四十六期:市场对称性及其在组合选择中的运用
海外文献推荐系列第四十四期:如何确定股票的联动效应?基于网络模型的择时研究
海 外文献推荐系列第四十三期:ESG投资基础:ESG对股票估值、风险和收益的影响研究
注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
证券研究报告:《西学东渐--海外文献推荐系列之一百七十五》。
对外发布时间:2025年2月25日
报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)
--------------------------------------
分析师:郑兆磊
SAC执业证书编号:S0190520080006
--------------------------------------
分析师:宫民
SAC执业证书编号:S0190521040001
--------------------------------------
更多量化最新资讯和研究成果,欢迎关注我们的微信公众平台(微信号:XYQuantResearch)!
|
为你读诗 · 我愿,时光浸染之后,你简单依旧 | 张净淇为你读诗 · 第1243期 8 年前 |
|
英国那些事儿 · 你经历过的最诡异的事情是什么?国外网友的这波人生阴影,你们感受下. 8 年前 |
|
无极太极 · 第五十七期实战功夫课火爆招募中! 7 年前 |
|
最爱大北京 · 这条“筋”越软,人就越长寿!每天一次,筋软一寸,寿长十年 7 年前 |
|
传感器技术 · 滤波器的应用领域分析 7 年前 |