专栏名称: 码农经济学
Something Anything Nothi…
目录
相关文章推荐
传媒招聘那些事儿  ·  网易:直播运营 ·  昨天  
火石创造  ·  风云对话 | ... ·  昨天  
医脉通临床指南  ·  儿童功能性消化不良,这些诊断标准你都清楚吗? ·  3 天前  
德大器械注册与临床  ·  【展会邀请】2025CACLP,德大凌甫与您 ... ·  3 天前  
51好读  ›  专栏  ›  码农经济学

为什么会存在异方差?

码农经济学  · 知乎专栏  ·  · 2015-05-23 21:16

正文

想起写这个是因为跟 @洁白似血 计量经济学中那些从统计学、初级计量里面带来的恶习 - 学点经济学 - 知乎专栏 下面的讨论。

上面一篇专栏文章里面,我说线性模型的异方差问题在估计上不要做任何的处理,可以使用White-heteroskedasticity robust standard error来处理估计的参数的方差。

@洁白似血 同学认为,如果有了异方差,说明误差项里面有一些东西的方差跟x相关,而他很难想象某个经济变量跟x的二阶矩相关却跟一阶矩不相关。所以如果异方差是模型错误设定的信号。

那么现在问题来了,为什么会存在异方差呢?是不是真的如 @洁白似血 所说,异方差意味着模型设定错误呢?

答案当然是,否定的。首先考虑这么一个例子,假设有一个模型:

y_{ig}=x_{ig}'\beta+u_{ig}

其中 i 代表个体, g 代表一个group。但是我们观测不到个体的数据,只能观测到加总(平均)的数据:

y_g=x_g'\beta+u_g

在这种情况下,如果假设 u_{ig} \sim (0,\sigma^2) i.i.d ,那么可以推出 var(u_g)=\sigma^2/N_g ,其中 N_g 为每个组的个体数目。我们发现,这个方程天然的是异方差的,但是并没有遗漏变量的问题。

也许你会说,这个解释只限于加总数据,那么更微观的数据呢?比如对于单个个人的方程,是不是存在异方差->遗漏变量->模型设定错误呢?

并不见得。我来举个反例。

考虑一项关于结肠癌病人化疗与否(0-1变量)对病人平均预期寿命的研究,我们关心所谓的“平均处理效应”。现在有两种方案,假设可行:

  1. 对于结肠癌病人随机分组,计算两个组(T=0/1)的寿命平均值,相减,得到平均处理效应。
  2. 直接使用临床数据,计算寿命平均值,相减。

这个一看就知道,第一个方案肯定是有效可靠的,随机分组的实验,没什么可以挑毛病的(如果我只关心平均处理效应而非其他)。

但是这个问题有意思的地方在于,化疗对不同病人的作用是不一样的。对于不化疗的病人,预期寿命可能大约比如一年,少的半年,多的三年。而对于化疗的病人,身体好的,熬过了化疗,有可能直接治愈,预期寿命可能有10年;但是也有人身体素质不好,三个月就挂了。

现在再来考虑以上的两种方案:

  1. 随机实验,没有任何自选择,化疗的病人的寿命的方差大于不化疗的病人。
  2. 临床数据,自选择。病人可能根据自身的身体情况选择是否接受化疗。最极端的情况是,身体好的选择化疗,身体不好的选择不化疗,异方差会变小,甚至极端情况可能不存在。

那么现在再来考虑一下这个问题,异方差是模型错误设定的信号?似乎不对。正确设定的模型反而有异方差。







请到「今天看啥」查看全文