专栏名称: 华安证券研究
华安证券研究所立足于精品报告,发力卖方研究、实现买卖协同。 立足安徽,放眼全国,在“科技长牛”到来之际,依靠精英团队研究和产业政策解读,回归估值定价本源,顺应市场改革,理性推动研究布局,为用户寻找最优赛道。
目录
相关文章推荐
51好读  ›  专栏  ›  华安证券研究

【华安证券·金融工程】专题报告:基金中的策略背离、竞争与资金流动

华安证券研究  · 公众号  ·  · 2024-12-13 08:00

正文

点击上方 蓝字 关注华安证券研究

本篇是“学海拾珠”系列第二百一十五篇,文献利用美国主动型基金招募说明书中包含的主要投资策略(Principal Investment Strategy,PIS)描述,扩展了对投资者偏好和基金风格的理解。当基金偏离其文本策略同类基金的平均持仓时,资金会净流出,当其表现优于同类基金时,资金会净流入。基金经理在兑现承诺与超越同类之间面临着微妙的权衡。回到国内基金市场,策略描述的差异可能反映了基金真实行为的差异,而非纯粹的营销手段,基于文本的同类基金分析与研究目前尚且空白。


策略同类组(SPG)

使用K-means算法来描述策略同类组(SPG)。将每个基金的PIS(主要投资策略)描述编码为一个相对词频向量。在语料库构成的空间中随机初始化质心向量后,根据欧氏距离距离,形成若干个集群,每个集群内成员与几何中心之间的距离最小。识别出17种不同的策略,一些策略众所周知(例如大、中、小盘股)。但多数策略不止于此:与公司特征相关(股息;新产品与服务;竞争优势;市盈率),与投资理念相关(量化;基本面;内在价值;长期;防御性;税收),与次要资产类别相关(固定收益;衍生品),与国际市场相关(外国;新兴市场)。


实证结论

基金费后收益减去同类SPG平均费后收益得到基金的SPG调整后业绩(SPG Alpha)。每个SPG中基金的平均持仓能够代表该团体的核心策略,通过单个基金的持仓与核心策略向量之间的距离来衡量其偏离核心策略的程度。

投资者能够意识到SPG的界限,并认为同一SPG内的产品是不完全替代品,资金流对SPGAlpha产生响应。偏离SPG策略后,基金会面临资金流出,最初影响不显著,在六个月内,响应的幅度继续增加,然后逐渐衰减至零。策略偏离度都与未来业绩无显著正相关。但当基金出于战略目的(从策略拥挤空间移动到不太拥挤的空间)而产生偏离时,将对未来业绩存在显著正向影响。

风险提示

文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。

1

引言

现有研究美国主动型股票基金的文献大多关注投资者对更高风险调整后收益的偏好,并记录了基于规模、价值和动量等特征的产品细分。本文献利用基金招募说明书中包含的主要投资策略(Principal Investment Strategy,PIS)描述,扩展了对投资者偏好和基金风格的理解。使用无监督机器学习中的一个简单工具——K-means算法,将文本提炼为可解释的策略同类组(strategy peer groups,SPG):即代表不同文本型投资风格的相似群体。

首先关注基金的供给,不同SPG之间的策略描述差异反映了基金收益、持仓和策略特征的显著差异,但在风险调整后表现上并无差异。文本差异似乎并非仅仅是营销手段,而是反映了差异化的产品供应。风险调整后表现无差异表明,产品差异可能发生在风险敞口和/或非定价特征上。其次,SPG调整后收益的显著资金流-业绩敏感性,其幅度与其他常用业绩指标相当,投资者关心SPG提供的策略特征,当基金偏离其SPG核心策略时,即便控制了业绩,他们也会做出资金流出反应。

投资者既偏好更高的SPG调整后业绩,又要求遵守SPG核心策略,这给基金带来了相互冲突的激励。基金经理对SPG调整后业绩与SPG遵守度之间存在权衡:当SPG同类组在传统风格空间(规模、价值和动量)中过于拥挤时,通过偏离其SPG核心策略进入不太拥挤空间的基金,其表现会优于SPG同类组中的其他基金。

首先,使用K-means算法来描述策略同类组(SPG)。将每个基金的PIS(主要投资策略)描述编码为一个相对词频向量。然后,在由整个描述语料库构成的空间中随机初始化质心向量后,根据欧几里得距离,将每个PIS分配给最近的质心。完成分配后,每个质心向量都会重新计算为其分配的所有文档的平均向量。最后两步重复进行,直至收敛,形成若干个集群,每个集群内成员与几何中心之间的距离最小。

最优化下,识别出17种不同的策略,如图表2所示。一些策略的关键特征在学术界和业界都是众所周知的(例如大盘股、中盘股、小盘股)。但大多数策略不止于此:一些与公司特征相关(股息;新产品与服务;竞争优势;市盈率),一些与投资理念相关(量化;基本面;内在价值;长期;防御性;税收),一些与次要资产类别相关(固定收益;衍生品),还有一些与国际市场相关(外国;新兴市场)。

分析假设在任何给定时间,基金都属于一个单一的主要策略。因此,策略同类组(SPG)与K-means算法的结果完全吻合。然后,通过允许基金承诺上述策略的任意组合来扩展该方法,从而识别出定制化的基金特定SPG。两种方法得出的所有结果大多一致,因为基金往往有一个主要SPG,可以解释大多数记录的效应。

评估SPG是否反映了实际的产品差异化供应。不同SPG的基金在持仓特征上存在显著差异,这与直观理解其承诺的策略一致。例如,属于“股息”SPG的基金持有股息收益率最高、现金和投资最少的股票,而属于“长期”SPG的基金则持有账面市值比更低、无形资产更高、股息收益率更低的股票。

接下来,构建了策略遵循度(策略偏离度)指标,方法是:衡量每个基金的投资组合权重向量与同一SPG中所有基金的平均权重向量之间的平方差之和(对数变换)。如果基金遵循其承诺的策略,那么它们与同类组的偏离程度应小于与安慰剂策略(即其他组的平均值)的偏离程度。事实上,基金与同类SPG的相似度比安慰剂高9%至46%(取决于纳入的控制变量),证明了基金通常遵循其承诺的策略。

大量文献已记录了资金流动对业绩的敏感性,并强调了相对于直接竞争对手评估基金的重要性。结合这些见解,如果投资者了解风格纯粹基金的界限,并将同一风格纯粹基金组内的基金视为替代产品,那么在相对于这些风格纯粹基金组内竞争对手评估业绩时,应能观察到显著的资金流-业绩敏感性。因此,通过减去同类组中所有基金的平均回报来构建风格纯粹基金调整后的回报,并表明这一新的业绩衡量指标与未来资金流动呈显著正相关,即使在控制了多种传统业绩衡量指标的情况下也是如此,这些指标包括:CAPM Alpha、Fama-French-Carhart四因子Alpha、Fama-French 五因子加动量Alpha、HKP定制同类Alpha,以及DGTW特征选择性指标。在包含所有控制变量的情况下,资金流动对风格纯粹基金调整后业绩的敏感性仍然是对CAPM  Alpha敏感性的43%,这表明投资者了解风格纯粹基金的界限,并将属于同一风格纯粹基金组的基金视为不完全替代品。

为进一步探索投资者对风格纯粹基金特定特征的偏好,研究当基金偏离承诺策略时投资者的反应。在策略偏离程度较高的月份后,资金流动占总净资产(Total Net Assets,简称TNA)的比例显著降低,且这一结果在控制了业绩和产品差异化替代指标(KW和HKP)后依然稳健。在初始偏离变化之后,投资者的资金流出会持续12个月以上,一个标准差冲击会导致年度资金流减少相当于年度样本均值的15%。

最后探讨了驱动策略偏离的潜在经济机制。当基金发现Alpha机会和/或面临来自类似基金的高竞争时,尽管可能会遭到投资者的反对,但基金仍可能希望进行战略性的偏离。借鉴HKP的发现,即拥有较少DGTW同类基金的基金更有可能实现Alpha收益,因此推测,使基金从高密度DGTW特征空间(即拥有许多同类基金)转移到低密度空间(即拥有较少同类基金)的偏离变化更可能是出于战略考虑。在这些情况下,预期偏离度的增加会导致SPG调整后的业绩提升。

2

数据与方法

2.1 数据

数据包括基金的标准特征信息、收益和持仓信息,而文本数据集来源于向美国证券交易委员会(SEC)提交的强制性披露文件(即招募说明书)中的“主要投资策略”(Principal Investment Strategy,PIS)。样本涵盖了从2000年3月至2017年12月的2,995只基金和315,190个月度数据。图表3为描述性统计信息。

2.1.1 招募说明书

美国证券交易委员会(SEC)要求所有基金公布招募说明书,重点关注一个特定部分:主要投资策略(PIS),该项要求基金披露其主要投资方法,包括其倾向于持有的证券类型以及选择这些证券的主要标准。

文献构建了一个按基金-月份划分的PIS描述的综合性面板数据集,并将其与传统基金数据集合并。能够将31,695份PIS描述与所关注的基金相匹配。招募说明书可能在一年中的任何一天发布,且通常每季度发布不到一次。由于基金的任何重大管理变更都必须向SEC和基金投资者报告,因此对于任何没有PIS的月份,使用最新的可用信息进行填充。

2.1.2 基金特征与收益率

从CRSP基金数据集中获取基金特征和收益,样本限制为股票基金,剔除国际基金、行业基金、指数基金等,剔除总资产净值(TNA)低于500万美元的基金。对基金的不同份额进行汇总,剔除观测期不足12个月的基金。

2.1.3 持仓

基金持仓数据是来源于ThomsonReuters基金持仓数据集(从2000年1月至2008年8月)和CRSP基金持仓数据集(从2008年9月至2017年12月)。选择切换日期是为了最大限度地覆盖主动型股票基金。排除了持股数量少于10只股票的基金,以及股票占比低于80%的基金。当观测值缺失或仅按季度提供时,将其填充至月度频率。

2.2 策略同类组

本节介绍如何根据基金的招募说明书(PIS)文本的相似性,将基金分组为可量化和可解释的“策略同类组”(strategy peer groups,SPG)。
2.2.1 预处理

为了将文本数据转换为量化数据,采用了“词袋”方法,为每个文本生成一个包含所有单词和双词短语(连续两个单词组合)的列表,移除符号、标准的英文停用词(例如“is”、“the”、“and”等)以及一系列特定语境下的停用词。还会使用波特词干提取算法(Porter stemmer algorithm)将单词还原为其词根(例如,“company”、“companies”等都还原为“compani”)。

第二步是移除大多数招募说明书中都会出现且信息量较少的套话,这一步可以减少分类噪音。为此,会将任何PIS部分中出现的唯一词干汇总到一个语料库中,然后计算该语料库中所有四词短语(四个单词的组合)的频率。对于每个文档,会移除全语料库中频率高于0.1%的任何四词短语(此步骤移除了601个四词短语)。还会进一步移除出现在超过30%的PIS部分中且出现在少于5%的PIS部分中的单词和双词短语。剩下的单词和双词短语就是聚类算法中使用的“特征”。

第三步,将整个语料库表示为一个单一矩阵,该矩阵的列是语言项(单词和双词短语),行是单个PIS部分。该矩阵中的每个元素都是某个特定特征在某个特定PIS部分中的频率,按该特征出现的部分数量进行标准化。这个矩阵被称为词频-逆文本频率(term frequency–inverse document frequency,tfidf)矩阵。

2.2.2 聚类

使用K -means算法根据文本相似性对PIS部分进行分组。选择此算法是因为它比较简单,并且因为其结果与将核心策略作为同类组平均投资组合权重进行衡量的方法自然吻合。

K-means算法的输入包括:tfidf矩阵、所需的聚类数量以及一个容差参数。该算法的目标是使每个聚类中心(称为“质心”)与该聚类中所有观测值之间的总欧几里得距离最小化。在文本分析的背景下,欧几里得距离的计算方法如下:

其中,x_r是特定文档中特征r的tfidf值, 是质心的对应值,R是总特征数。在所有文档的向量空间中,质心被随机初始化,然后通过迭代过程进行更新。在每次迭代中,每个文档都被分配给最近的质心(即欧氏距离最小的质心),然后该质心被重新定义为分配给它的所有文档的tfidf向量的均值。这个过程一直持续到连续两次迭代中聚类质心之间的欧氏距离小于指定的容差水平为止。

关键超参数是聚类数𝑘。最优的聚类数取决于数据的真实结构。为了找到这个最优值,独立地对连续的𝑘值(如𝑘=[10,20])运行算法,然后根据两个标准比较结果:

1、稳定性。一个稳健的方法不应该对所选的聚类数非常敏感。在连续的𝑘值下,大多数PIS部分应该被共同归类到同一个聚类中。这一标准应该适用于任何两个连续的𝑘值。

2、密度。当从𝑘增加到𝑘+1时,新生成的聚类应该与现有的聚类有足够的区别。这提供了一个最优的停止点,超过这个点后,额外的聚类就是多余的。

为系统地量化上述2个概念,首先,定义交叉表矩阵,该矩阵表示在𝑘值下属于聚类𝑖的观察数,以及在𝑘+1值下属于聚类𝑗的观察数,例如:

如果将𝑘 +1视为真实情况(ground truth),而将𝑘视为预测值,那么对于任意组合(𝑖,𝑗),其精确度的分母是给定𝑖时所有𝑗的和,其召回率的分母是给定𝑗时所有𝑖的和。形式上,可以将精确度和召回率定义为:

直观上,较大的𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑖,𝑗)意味着在𝑘下被分类为𝑖的观察对象在𝑘 + 1下很可能被分类为𝑗。同样地,较大的𝑅𝑒𝑐𝑎𝑙𝑙(𝑖,𝑗)意味着在𝑘+1下被分类为𝑗的观察对象在𝑘下很可能被分类为𝑖。将这两个标准结合到一个𝐹𝑠𝑐𝑜𝑟𝑒矩阵中,该矩阵表示它们的调和平均值。由于调和平均值的特性,如果𝐹𝑠𝑐𝑜𝑟𝑒(𝑖,𝑗)较大,那么𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑖,𝑗)和𝑅𝑒𝑐𝑎𝑙𝑙(𝑖,𝑗)也都预期会较大,这意味着在𝑘下的聚类𝑖很可能与在𝑘 + 1下的聚类𝑗相一致:

最终将𝐹𝑠𝑐𝑜𝑟𝑒(𝑖,𝑗)矩阵转换为𝑆𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝑖,𝑗)矩阵,如果分数大于某个阈值(目前使用0.5),则用1替换,否则用0替换。所有的1都表示在连续的𝑘和𝑘+1运行中匹配的聚类。接下来,定义𝐷𝑖𝑠𝑡为在𝑘和𝑘+1下任意两个聚类质心之间的欧几里得距离,如: 其中 表示在𝑘下聚类𝑖的tfidf向量的质心, 表示在𝑘+1下聚类𝑗的tfidf向量的质心。两个质心之间的距离较小表明底层聚类可能在意义上相似。因此,将Dist_(i,j)矩阵转换为Density_(i,j)矩阵,如果距离低于某个阈值(目前使用0.2),则用1替换,否则用0替换。所有的1都表示在连续的𝑘和𝑘+1运行中匹配的聚类。

从检查(𝑘,𝑘+1) = (10,11)的Stability_(i,j)矩阵开始。为了满足稳定性标准,必须满足以下条件:(1) Stability_(i,j)的所有行之和至少为1;这意味着在𝑘 = 10中的所有聚类都与𝑘 = 11中的至少1个聚类相匹配。(2)列之和应至多为1;这意味着在𝑘 = 11中的所有聚类都与𝑘 = 10中的至多1个聚类相匹配。任何和为0的列都被视为新聚类。请注意,𝑘中的一个聚类可能与𝑘+1中的2个聚类相匹配,如果代表一个广泛类别的聚类被分成两个意义上有明显区别的子聚类,就会出现这种情况。

为了验证新生成的聚类与现有的聚类有足够的区别,接下来检查(𝑘,𝑘 + 1) = (10, 11)的Density_(i,j)矩阵。为了满足密度标准,必须满足以下条件:对于𝑘 + 1中任何新生成的聚类,Density_(i,j)矩阵中对应列的和应等于0(即,该聚类的质心向量应与𝑘中已存在的任何质心向量有显著差异)。如果两个条件都满足,将继续分析(𝑘,𝑘 + 1) = (11,12)的𝑆𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦和𝐷𝑒𝑛𝑠𝑖𝑡𝑦矩阵。重复上述步骤,直到𝐷𝑒𝑛𝑠𝑖𝑡𝑦标准失败。最终确定最优聚类数为17。

2.2.3 基于文本风格聚类

通过这种方法确定的质心应被解释为基于文本的、独特的承诺策略。尽管策略是通过词汇和双词组的分布来表示的。图表2的标签和关键词是简写,可以指示每个策略最具特色的特征。一些策略的关键特征是学术界和行业所熟知的(如大盘股、中盘股、小盘股)。但大多数代表新的维度:一些与企业特征相关(如股息、新产品和服务、竞争优势、市盈率);一些与投资理念相关(如量化、基本面、内在价值、长期、防御性、税收);一些与二级资产类别相关(如固定收益、衍生品);还有一些与国际市场相关(如外国存托凭证(ADR)、外国新兴市场)。K-means算法将每个PIS分配给一个质心,这隐含地假设每个策略描述都有一个主导策略,即,基金的空间分布集中在质心周围。

采用两种方法将基金分配给策略同行组(SPG)。第一种方法,采用K-means分配结果来代表SPG,即,仅研究基金的主导承诺策略。第二种方法,允许基金承诺采用已识别策略的加权组合来泛化SPG的定义,所有结果对于使用这两种方法都是稳健的。因此,为了简化说明,首先报告了基于简化方法的结果,而泛化结果将在第3.4节中报告。

图表4显示,从基金数量和总资产净值(TNA)两个方面来看,SPG的相对规模会随时间而变化。基金往往会在长时间内被分配到同一个SPG。1087只基金在其生命周期内仅被分配到一个SPG,大多数基金被分配到的SPG数量不超过5个,只有少数基金被分配到更多(这可能是估计噪声的结果)。

3







请到「今天看啥」查看全文