机器学习与资产定价简要介绍

兰州大学萃英在线 · 公众号 · 大学校园 · 2025-04-04 21:59

正文

请到「今天看啥」查看全文

量化投资作为一种基于过往历史数据，挖掘资产收益率的统计规律来确定资产的购买和出售策略的投资管理模式，在资产管理行业的应用越来越广泛。截至2022年第二季度，在全球对冲基金管理规模排名前十的机构中，有七家为量化对冲基金。

根据中国证券投资基金业协会发布的《2021年私募基金统计分析简报》，2021年底我国前十大私募证券基金管理机构中，量化管理机构已占据五席。量化投资通常涉及大量数据的处理，包括股票价格、公司财务数据、宏观经济数据等，并通过统计和计算模型来发现并利用潜在的投资机会。

近些年，随着金融资产定价学科的不断进步，实证研究发现了越来越多能预测股票收益率的变量。然而，金融数据的低信号噪声比特性使得传统统计方法在从众多预测变量中发掘最有效的投资策略时面临困难。这就是机器学习技术被广泛应用的原因，因为它可以处理大量的数据并识别出复杂的、非线性的预测关系。因此，无论是在学术研究领域，还是在量化投资业界，机器学习都开始得到广泛的应用。然而，相较于投资管理行业，金融学术研究对机器学习方法的研究相对滞后。

Markowitz在1952年提出了经典的均值方差投资组合优化理论，系统地分析了如何利用资产收益率的统计特征，即均值和方差，来优化投资组合配置，为现代金融学的研究奠定了基础。基于均值方差理论构建的投资组合有效边界，Sharpe(1964)和Lintner(1965)在考虑无风险资产和市场均衡概念后，提出了资本资产定价模型(capital asset pricing model, CAPM),为资产预期收益率与其系统性风险敞口(beta)确立了经典的线性因子模型关系。Fama(1970)提出了有效市场假说，尽管双重检验问题使得有效市场假说难以被精确检验，但它作为评价金融市场定价效率重要参照系，为进一步研究资产收益率的预测变量和构建因子定价模型提供了理论基础。

如果金融市场是信息有效的，那么资产的收益率应该是不可预测的。如果发现了可以预测股票收益率的变量，这就意味着该变量衡量了资产对某种系统性风险的敞口。在调整资产的系统性风险溢价后，不应存在额的异常收益率。那些经因子模型调整后仍显著的预测变量被称为市场异象。在有效市场假说被提出之后，资本资产定价模自然成了最早被广泛检验的因子定价模型。

随着市值效应、价值效应等不能被CAPM解释的市场异象在20 世纪80年代陆续被发现，Fama和French(1993)在CAPM的基础上加入了市值因子和价值因子，提出了著名的Fama-French三因子模型。三因子模型可以解释除了动量效应以外几乎全部已知的市场异象。随后资产定价研究领域也开启了发掘检验可预测资产收益率的新变量与开发升级新因子定价模型的“竞赛”。随着信息收集分析技术手段的进步，越来越多基于公司财务报表、经营公告的基本面数据，高频的股票历史交易数据以及基于机器学习深度文本分析挖掘产生的公司层面、投资者层面和宏观经济层面的变量被发现可以有效预测风险资产的预期收益率。仅考虑公司层面，迄今的资产定价文献已提出了数以百计的具有显著预测能力的公司特征变量。Harvey, Liu和Zhu(2016)统计了1967-2012年发表在国际顶尖金融期刊的论文中涉及的预测指标，发现有316个指标被实证检验具有重要影响，并且指标数量以接近平均每年18个的速度增长。Mclean和Pontiff(2016)在研究了金融、经济以及会计学顶尖期刊论文中涉及的97个横截面股票收益率预测指标后，发现部分指标的预测效果来自数据挖掘，平均而言，这些指标的多空组合收益在样本外下降了26%,在文章发表后下降了58%。Hou,Xue和Zhang (2020)检验了文献中452个市场异象后，发现即使剔除流动性较差的小市值股票，仍然有161个变量是统计显著的。相应的因子定价模型也在发展演进，Fama和French(2018)在Fama-French三因子模型的基础上加入了盈利因子、投资因子和动量因子，提出了Fama-French六因子模型。Hou等(2019)则提出了包含市场因子、市值因子、投资因子、盈利因子和预期投资增长因子的Q5因子模型。尽管这两个最新提出的多因子模型在众多因子模型中对市场异象的解释能力最强，但依然存在较多的市场异象无法被解释。

时任美国金融学会主席的约翰·科克伦(John Cochrane)教授在2011年的学会主旨演讲中将数量众多的收益率预测指标称为“因子动物园”，并提出问题:“究竟哪些变量能独立解释股票预期收益率差异？而哪些变量的解释能力会被其他变量所涵盖？”因此，发现真正具有解释力的变量并确定能够解释其他变量的定价因子是目前资产定价领域核心的研究问题。

过去十多年中，很多研究从探究资产横截面收益率的可预测性出发，提出并验证新因子模型。金融数据具有低信号噪音比的特性，同时因子定价模型中有效因子结构及其函数关系不确定，随着包含众多变量的“因子动物园”被发现，大数据分析和机器学习方法也被广泛引入资产定价的研究。迄今为止，较多研究从筛选有效变量来预测资产横截面和时间序列收益率、定价因子的风险溢价检验和估计随机贴现因子(stochastic discount factor, SDF)模型的因子载荷(factor loadings)的角度，使用机器学习方法来解决“因子动物园”问题。然而从投资者最大化期望效用函数的角度，构造最优投资组合来确定随机贴现因子则较少被关注，尤其是在面对高维度的解释变量时，局用机器学习方法的相关研究则更有限。

下面我们以投资组合优化为例，简要介绍为什么包含高维解释变量的“因子动物园”会导致基于线性回归的传统计量分析方法面临“维度灾难”问题。

continue

Markowitz(1952)均值方差投资组合优化理论根据资产收益率的均值和方差来估计最优资产配置权重，因此在有N个资产的情形下，该模型需要估计N个均值和含有(N2+N)/2个参数的协方差矩阵。其估计参数的维度随资产数量N的增加以幂函数的速度增加，因此在面对大量资产和有限样本时，参数估计变得十分困难。以往的研究往往采用贝叶斯估计方法解决这一问题，通过引入先验信息帮助提高参数估计精度，或者使用因子模型来降低估计参数的维度。但引入先验信息通常会包含主观判断，导致统计推断有一定的主观性，而通过因子模型降维则需要引入模型假设，增加了模型误置的风险。

Brandt, Santa-Clara和Valkanov(2009)通过直接对资产权重建模的方式来实现参数降维。之前的资产定价研究发现了大量对股票横截面收益率有解释力的特征变量，因此他们将股票权重建模成有K个特征变量的线性函数，再通过最大化投资者的期望效用函数来估计这K 个参数。该方法被称作参数化投资组合方法，其待估参数的数量级从N维降至K维。在面对数以千计的股票资产(在中国A股市场，N>3000),而特征变量数K相对较小时，这一方法大大降低了投资组合参数的估计难度并提升了估计精度。然而，随着研究发现的解释变量越来越多，形成“因子动物园”时需要加入权重模型的特征变量数K越来越大，参数化投资组合方法的估计也会面临“维度灾难”，导致传统回归方法的参数估计精度下降。为解决这个问题，DeMiguel等(2020)在股票权重的K维线性模型下使用LASSO算法挑选最有效的特征变量来实现降维。

尽管DeMiguel等(2020)使用LASSO方法使得参数化投资组合在“因子动物园”背景下得到较准确的估计，但该研究领域仍存在三方面问题。首先，Brandt, Santa-Clara和Valkanov(2009)及DeMiguel 等(2020)只考虑了权重的线性模型，忽略了最优权重和特征变量之间极可能存在的非线性预测关系。Ait-Sahalia和Brandt(2001)指出，即使假定收益率和特征变量服从线性预测关系，最优投资组合权重和预测变量之间也可能存在高度非线性关系，其原因在于求解的最优组合权重中包含协方差矩阵的逆。而Freyberger，Neuhierl和Weber (2020)运用非参数自适应组LASSO(adaptive group LASSO)算法研究公司特征变量与股票期望收益率间的非线性预测关系。他们的实证发现使用非线性预测模型构造的投资组合的样本外夏普比率比使用线性LASSO模型得到的结果高近3倍，从而证明特征变量和收益率间存在显著的非线性预测关系。其次，参数化投资组合方法能适用LASS0 模型的前提假设是投资者具有均值方差效用函数，这样才能把最大化效用问题转化成一个具有约束条件的线性回归问题，符合LASS0的模型形式。然而在实际中，投资者偏好不太可能符合均值方差效用函数的描述，因为任何二阶矩以上的高阶矩在这一效用中均被忽略了。事实上，已有大量研究表明投资者很注重三阶矩偏度和四阶矩峰度[Harvey和Siddique(2000)及Dittmar(2002)等]。因此投资组合优化文献中通常会假设常数相对风险厌恶(CRRA)效用函数，然而在CRRA效用下，DeMiguel等(2020)使用的LASSO降维方法则无法直接应用。最后，虽然在均值方差效用函数下可以选出最有效的特征变量，但并不能准确估计其在随机贴现因子中的载荷。Feng,Giglio 和Xiu(2020)指出使用线性回归法或LASS0方法直接估计随机贴现因子中的因子载荷会产生遗漏变量带来的估计偏差，进而提出双重选择LASS0算法，通过第一步LASSO选出最能解释收益率的因子，再施加第二步LASSO筛选出遗漏变量，来消除估计误差。