Markowitz(1952)均值方差投资组合优化理论根据资产收益率的均值和方差来估计最优资产配置权重,因此在有N个资产的情形下,该模型需要估计N个均值和含有(N2+N)/2个参数的协方差矩阵。其估计参数的维度随资产数量N的增加以幂函数的速度增加,因此在面对大量资产和有限样本时,参数估计变得十分困难。以往的研究往往采用贝叶斯估计方法解决这一问题,通过引入先验信息帮助提高参数估计精度,或者使用因子模型来降低估计参数的维度。但引入先验信息通常会包含主观判断,导致统计推断有一定的主观性,而通过因子模型降维则需要引入模型假设,增加了模型误置的风险。
Brandt, Santa-Clara和Valkanov(2009)通过直接对资产权重建模的方式来实现参数降维。之前的资产定价研究发现了大量对股票横截面收益率有解释力的特征变量,因此他们将股票权重建模成有K个特征变量的线性函数,再通过最大化投资者的期望效用函数来估计这K 个参数。该方法被称作参数化投资组合方法,其待估参数的数量级从N维降至K维。在面对数以千计的股票资产(在中国A股市场,N>3000),而特征变量数K相对较小时,这一方法大大降低了投资组合参数的估计难度并提升了估计精度。然而,随着研究发现的解释变量越来越多,形成“因子动物园”时需要加入权重模型的特征变量数K越来越大,参数化投资组合方法的估计也会面临“维度灾难”,导致传统回归方法的参数估计精度下降。为解决这个问题,DeMiguel等(2020)在股票权重的K维线性模型下使用LASSO算法挑选最有效的特征变量来实现降维。
尽管DeMiguel等(2020)使用LASSO方法使得参数化投资组合在“因子动物园”背景下得到较准确的估计,但该研究领域仍存在三方面问题。首先,Brandt, Santa-Clara和Valkanov(2009)及DeMiguel 等(2020)只考虑了权重的线性模型,忽略了最优权重和特征变量之间极可能存在的非线性预测关系。Ait-Sahalia和Brandt(2001)指出, 即使假定收益率和特征变量服从线性预测关系,最优投资组合权重和预测变量之间也可能存在高度非线性关系,其原因在于求解的最优组合权重中包含协方差矩阵的逆。而Freyberger,Neuhierl和Weber (2020)运用非参数自适应组LASSO(adaptive group LASSO)算法研究公司特征变量与股票期望收益率间的非线性预测关系。他们的实证发现使用非线性预测模型构造的投资组合的样本外夏普比率比使用线性LASSO模型得到的结果高近3倍,从而证明特征变量和收益率间存在显著的非线性预测关系。其次,参数化投资组合方法能适用LASS0 模型的前提假设是投资者具有均值方差效用函数,这样才能把最大化效用问题转化成一个具有约束条件的线性回归问题,符合LASS0的模型形式。然而在实际中,投资者偏好不太可能符合均值方差效用函数的描述,因为任何二阶矩以上的高阶矩在这一效用中均被忽略了。事实上,已有大量研究表明投资者很注重三阶矩偏度和四阶矩峰度[Harvey和Siddique(2000)及Dittmar(2002)等]。因此投资组合优化文献中通常会假设常数相对风险厌恶(CRRA)效用函数,然而在CRRA效用下,DeMiguel等(2020)使用的LASSO降维方法则无法直接应用。最后,虽然在均值方差效用函数下可以选出最有效的特征变量,但并不能准确估计其在随机贴现因子中的载荷。Feng,Giglio 和Xiu(2020)指出使用线性回归法或LASS0方法直接估计随机贴现因子中的因子载荷会产生遗漏变量带来的估计偏差,进而提出双重选择LASS0算法,通过第一步LASSO选出最能解释收益率的因子,再施加第二步LASSO筛选出遗漏变量,来消除估计误差。