来源 | 狗熊会(微信号:CluBear)
作者 | 熊大
给大家看一个老掉牙的案例。该数据来自于互联网上的一篇工作论文。王老师10年前发现了,觉得是一个教学用的好数据,于是就不停滴用,也从来没有关注过后来这篇论文发表没有。有兴趣的童鞋可以根据截图中的参考文献去追踪一下哈。
咱们长话短说,这是一个非常简单而有趣的数据。该数据来自于某个年度,样本量为2029。其中,每一个样本代表一个共同基金。关于该基金,数据收集了以下指标。首先是风险调整后的收益率。怎么个风险调整法,熊大也不知道,但是简单滴说,这个收益应该是越高越好。这是我们关注的因变量。接下来,数据采集了几个有趣的解释性变量,都是关于该基金的负责经理的。当时的作者尝试通过这些指标去理解:
什么样的基金经理最会赚钱。是男性还是女性?是MBA还是非MBA?是经验丰富的还是小青椒?
这是我们关心的问题。
为此,熊大作了一个漂亮的直方图,首先研究一下性别因素。简单滴说,我们希望对比男性基金经理 vs. 女性基金经理。有人认为男性基金经理可能投资策略更加激进,因此风险更大,表现更差。当然,也有人认为,金融投资风险同受益成正比,男性基金经理投资基金,风险相对较大,但是带来的收益也应该更好。但是,在这个数据集合中,到底是怎样的?为此熊大作了一个漂亮的直方图,如下图所示。大家看,男性基金经理的表现,是否非常明显地要比女性差不少。当然,我们不敢说这是一个放之四海而皆准的结论。但是,至少对这个数据集合而言,似乎对比强烈。
同样的方法,我们可以研究一下MBA学位的重要性。有的基金经理,从基层开始,摸爬滚打,最后成为一个基金经理,而没有MBA学位。但是,也有的基金经理,接受过正规的商学院教育,因此拥有MBA学位。请问:他们的MBA教育背景的差异,是否最终影响到了他们的投资业绩表现?从下图看,答案似乎是肯定的。读过MBA学位的基金经理的表现明显滴比非MBA基金经理的表现要好。这个发现让熊大非常开心,这似乎证明MBA教育,之于投资,是非常有帮助的嘛。
为此,熊大觉得备受鼓舞,决心继续研究下一个问题:基金经理的从业年限(也就是经验)是否同基金的表现相关呢?为此,根据基金经理不同的从业年限分组,并作直方图如下。
艾玛,这张图就有点奇葩了。大家看到什么奇葩现象没?这张图里哪一组的平均收益率最高?表现最优异?不是经验最丰富的(从业年限=8年)的基金经理。而是从业经验比较欠缺的。尤其是从业1年的这些基金经理,他们的表现最好,风险调整后的收益率为:3.26%。这是怎么回事?难不成这说明基金经理的经验不值钱?以后应该用新人,尤其是入行1年的新人作基金经理,并且在下一年把他们解聘。怎么样?这个主意不错吧?
我相信大家都不会认同熊大的主意,这个馊主意显然不合情理。但是问题出在哪里?我想这里有无穷多种可能。但是,按照批判性数据思维的基本理论框架去检讨,我们很容易会聚焦在一个问题上,那就是:样本量!于是乎又有了下面这个直方图,非常漂亮,跟正态分布好像。我们发现绝大多数基金经理的从业年限是4-5年左右。真正经验非常丰富的(例如:大于7年的),并不多。另外,新入行的基金经理,非常少。具体到从业1年的基金经理们(也就是基金业绩表现最好的那一组),他们的样本量才15个!对,15个,15个,15个!重要的事情说三遍。大家看,这个样本量是不是也太少了点?
好吧,大家都认为这一组的样本量太小了,以至于没有任何信度。但是,反过来说,您说样本量要多大才算大?有一个简单的标准,或者方法论帮助大家回答这个困惑吗?答案是肯定的。这就是我们今天要跟大家分享的,一个统计学中极其重要的概念,就是:标准误差(Standard Error, SE)。说白了,从业1的基金经理形成了一个样本组,该组的样本量是15。然后,基于这15个样本,人们计算了他们的样本均值:。假设资本市场上,所有从业1年的基金经理看作一个整体的话,那么是对这个整体的平均收益率的一个样本估计。假设这个总体的平均收益率是mu,那么是对mu的一个无偏估计。这说明,作为一个估计量,它不会系统性滴高估,或者低估mu。这是一个大好事。所以,请大家热烈鼓掌!
但是,有了无偏性就可以了吗?当然不可以。无偏性保证了样本均值不会系统性滴高估或者低估总体均值mu。但是,这并不代表样本均值对总体均值的估计就很准确了。为什么?因为样本均值围绕着总体均值,还有随机波动。显然,如果这个波动程度很小,那么样本均值,之于总体均值,就是一个非常准确的估计量。否则,就不是。由此可见,估计精度基本上是被样本均值的波动程度所确定的。那么,接下来的一个自然问题是:样本均值的波动程度可以测量吗?
关于这个问题,答案是清晰肯定的。我们可以用样本均值的标准差(即:方差开根号)来测量。简单滴说,考虑一个统计量(例如:样本均值),如果它的SE非常小,那么这个统计量,之于参数估计,是比较准确的。相反,如果它的SE非常大,那么这个统计量,之于参数估计,是没有用处的。回到咱们今天的基金经理这个案例,我们会发现,从业年限1年的这一组,它们的样本量太小了(n=15)。因此,既有可能相关的SE(即:估计误差)会非常大。但是,他们的SE到底又多大?这个是不清楚的。为此,我们需要一套完整优美的数学理论。经过前辈学者的努力工作,获得了一个非常简单而优美的公式如下: