专栏名称: 码农经济学

Something Anything Nothi…

为什么会存在异方差？

码农经济学 · 知乎专栏 · · 2015-05-23 21:16

正文

上面一篇专栏文章里面，我说线性模型的异方差问题在估计上不要做任何的处理，可以使用White-heteroskedasticity robust standard error来处理估计的参数的方差。

而 @洁白似血同学认为，如果有了异方差，说明误差项里面有一些东西的方差跟x相关，而他很难想象某个经济变量跟x的二阶矩相关却跟一阶矩不相关。所以如果异方差是模型错误设定的信号。

那么现在问题来了，为什么会存在异方差呢？是不是真的如 @洁白似血所说，异方差意味着模型设定错误呢？

答案当然是，否定的。首先考虑这么一个例子，假设有一个模型：

$y_{ig}=x_{ig}'\beta+u_{ig}$

其中 $i$ 代表个体， $g$ 代表一个group。但是我们观测不到个体的数据，只能观测到加总(平均)的数据：

$y_g=x_g'\beta+u_g$

在这种情况下，如果假设 $u_{ig} \sim (0,\sigma^2) i.i.d$ ，那么可以推出 $var(u_g)=\sigma^2/N_g$ ，其中 $N_g$ 为每个组的个体数目。我们发现，这个方程天然的是异方差的，但是并没有遗漏变量的问题。

也许你会说，这个解释只限于加总数据，那么更微观的数据呢？比如对于单个个人的方程，是不是存在异方差->遗漏变量->模型设定错误呢？

并不见得。我来举个反例。

考虑一项关于结肠癌病人化疗与否（0-1变量）对病人平均预期寿命的研究，我们关心所谓的“平均处理效应”。现在有两种方案，假设可行：

这个一看就知道，第一个方案肯定是有效可靠的，随机分组的实验，没什么可以挑毛病的（如果我只关心平均处理效应而非其他）。

但是这个问题有意思的地方在于，化疗对不同病人的作用是不一样的。对于不化疗的病人，预期寿命可能大约比如一年，少的半年，多的三年。而对于化疗的病人，身体好的，熬过了化疗，有可能直接治愈，预期寿命可能有10年；但是也有人身体素质不好，三个月就挂了。

现在再来考虑以上的两种方案：

那么现在再来考虑一下这个问题，异方差是模型错误设定的信号？似乎不对。正确设定的模型反而有异方差。

推荐文章

传媒招聘那些事儿 · 网易：直播运营

昨天

火石创造 · 风云对话 | 六小龙、哪吒全球爆火，杭州、成都做对了什么？

昨天

转化医学网 · 复旦大学合作发文：新药助力抑制胰腺癌术后复发与扩散，开启辅助治疗新纪元

2 天前

医脉通临床指南 · 儿童功能性消化不良，这些诊断标准你都清楚吗？

3 天前

德大器械注册与临床 · 【展会邀请】2025CACLP，德大凌甫与您相约“浙”里！展位号：5-E0102！

3 天前

老子道德经 · 可别小瞧了这种草，它可是对付痛风的宝

8 年前

蓝血研究 · 库克对话钱颖一：华为小米做得很好，但苹果不追逐做出最多数量的手机

7 年前

青年电影手册 · 黑马变金马，你去看了吗？

7 年前

新青年麻醉论坛 · 最新托下颌技能来了，你值得拥有！

7 年前

架构师之路 · “配置”也有架构演进？看完深有痛感

7 年前