正文
想起写这个是因为跟
@洁白似血
在
计量经济学中那些从统计学、初级计量里面带来的恶习 - 学点经济学 - 知乎专栏
下面的讨论。
上面一篇专栏文章里面,我说线性模型的异方差问题在估计上不要做任何的处理,可以使用White-heteroskedasticity robust standard error来处理估计的参数的方差。
而
@洁白似血
同学认为,如果有了异方差,说明误差项里面有一些东西的方差跟x相关,而他很难想象某个经济变量跟x的二阶矩相关却跟一阶矩不相关。所以如果异方差是模型错误设定的信号。
那么现在问题来了,为什么会存在异方差呢?是不是真的如
@洁白似血
所说,异方差意味着模型设定错误呢?
答案当然是,否定的。首先考虑这么一个例子,假设有一个模型:
其中
代表个体,
代表一个group。但是我们观测不到个体的数据,只能观测到加总(平均)的数据:
在这种情况下,如果假设
,那么可以推出
,其中
为每个组的个体数目。我们发现,这个方程天然的是异方差的,但是并没有遗漏变量的问题。
也许你会说,这个解释只限于加总数据,那么更微观的数据呢?比如对于单个个人的方程,是不是存在异方差->遗漏变量->模型设定错误呢?
并不见得。我来举个反例。
考虑一项关于结肠癌病人化疗与否(0-1变量)对病人平均预期寿命的研究,我们关心所谓的“平均处理效应”。现在有两种方案,假设可行:
-
对于结肠癌病人随机分组,计算两个组(T=0/1)的寿命平均值,相减,得到平均处理效应。
-
直接使用临床数据,计算寿命平均值,相减。
这个一看就知道,第一个方案肯定是有效可靠的,随机分组的实验,没什么可以挑毛病的(如果我只关心平均处理效应而非其他)。
但是这个问题有意思的地方在于,化疗对不同病人的作用是不一样的。对于不化疗的病人,预期寿命可能大约比如一年,少的半年,多的三年。而对于化疗的病人,身体好的,熬过了化疗,有可能直接治愈,预期寿命可能有10年;但是也有人身体素质不好,三个月就挂了。
现在再来考虑以上的两种方案:
-
随机实验,没有任何自选择,化疗的病人的寿命的方差大于不化疗的病人。
-
临床数据,自选择。病人可能根据自身的身体情况选择是否接受化疗。最极端的情况是,身体好的选择化疗,身体不好的选择不化疗,异方差会变小,甚至极端情况可能不存在。
那么现在再来考虑一下这个问题,异方差是模型错误设定的信号?似乎不对。正确设定的模型反而有异方差。