凡是搞计量经济的,都关注这个号了
邮
箱:
[email protected]
所有计量经济圈方法论
丛的code程序
, 宏微观
数据库和各种软
件都放在社群里.欢迎到计量经济圈社群交流访问
.
今天,分享一下计量社群里关于“
回归系数非常大怎么办?
”的问题的讨论。
计量社群群友的回答,值得各位年轻学者的学习和领悟,为其分享精神点赞。
在咱们搞计量模型的时候,如果发现回归系数特别大,那得注意了,这可能是在提醒咱们,数据、模型设置或者变量的衡量方式可能有点问题。
主要原因就像这几个:变量单位不一样、变量之间太相关、模型公式可能没选对、数据里可能有特别离谱的值,还有就是数据量可能不够大。
针对这些问题,可以考虑一些方法,像调整变量的单位,处理变量之间的相关性,修正模型公式,处理异常值,评估数据量够不够等等。
变量单位不一样,这是个常见原因。就好比一个变量用“米”做单位,另一个用“千米”,单位不一样,系数比起来就怪怪的。这时候,我们可以把变量标准化一下,或者归一化,甚至取个对数,再不行就直接调整单位,让它们在同一个尺度上,这样系数就好比较了。
变量之间如果关系太密切,也就是“多重共线性”,也会让系数变得不稳定,甚至变得很大。这时候,我们可以用一些工具,像VIF和相关系数矩阵,来帮我们看看是不是变量之间太“亲密”了。如果是,我们可以考虑去掉一些不那么重要的变量,或者把几个相关的变量合并成一个,再或者用一些更高级的方法,像岭回归或者LASSO,来控制系数的大小。
模型公式没选对,也容易出问题。比如,公式里少放了重要的变量,或者本来变量之间是非线性的关系,你非要用线性的公式去套,再或者模型本身就有内生性问题(就是变量之间互相影响)。遇到这种情况,我们可以看看残差图,或者做个Ramsey RESET检验,来检查模型公式是不是有问题。找到了问题,就好办了,缺啥补啥,该加变量加变量,该换公式换公式,实在不行就用工具变量法来解决内生性问题。
数据里如果有“捣蛋鬼”,就是那些特别离谱的异常值,它们也会把回归线给带偏,让系数变得不正常。这时候,我们可以画散点图、箱线图,或者算算Cook距离,来揪出这些“捣蛋鬼”。找到了之后,看看是不是数据录错了,录错了就改过来。如果确认数据没问题,但确实是异常值,可以考虑把它们删掉,或者用一些方法把它们“拉回来”一点,比如缩尾处理,再或者用稳健回归,让模型对异常值不那么敏感。
还有,如果数据量太少,也容易让系数变得不稳定,忽大忽小的。这时候,最好的办法就是多收集点数据。如果实在不行,就简化一下模型,少用几个变量,或者用贝叶斯方法,给系数加个约束,让它们别跑得太离谱。
此外,有时候系数很大,可能真的是因为变量之间的关系本来就很强。这时候,要结合经济理论和专业知识,来判断这个系数是不是真的合理。别光看系数大小,还得看它有没有道理。
分析系数的时候,别光盯着原始系数看,还得看看标准化之后的系数。如果原始系数很大,但标准化之后发现其实影响没那么大,那可能就不用太在意系数的大小,更重要的是看这个变量在经济上是不是真的重要。还有,系数大不代表就一定靠谱,还得看它的显著性,看看p值是不是够小,别系数看着大,但其实没啥统计意义。为了确保结果靠谱,我们可以多做一些稳健性检验,比如换个样本试试,换个模型试试,或者用工具变量法啥的,都试试,看看结果稳不稳定。
要解决系数太大的问题,得有个系统的流程。首先,可以先把变量都标准化一下,看看系数有没有变化。然后,画画变量的分布图,看看有没有异常值,变量单位是不是有问题。接着,做做共线性诊断,算算VIF和相关系数矩阵,看看变量之间是不是太相关了。再然后,验证一下模型设定,看看残差图,做做RESET检验,检查模型公式是不是合适。 对于异常值,用缩尾或者稳健回归处理一下。还有,评估一下样本量,看看够不够用,不够就想办法增加,或者简化模型。还有,结合经济理论,看看系数的方向和大小是不是合理,别被统计结果牵着鼻子走。
在实际应用中,不同场景下系数太大的表现和处理方法也不一样。比如,虚拟变量如果系数特别大,可能是因为某个类别的数据太少了,这时候可以考虑把这个类别去掉或者合并到其他类别里。在高维数据分析中,比如文本分析,词袋模型的系数经常很大而且不稳定,这时候可以用LASSO或者Ridge正则化来控制。如果因变量分布不均匀,比如大部分数据都集中在0附近,但偶尔又冒出一些很大的值,这时候可以考虑用缩尾处理或者分位数回归。 在分析政策冲击的时候,如果系数显著而且符合理论预期,即使系数很大,我们也可以接受,重点是要从经济意义上解释这个系数。
*可以进一步到社群交流讨论计量问题。
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题
,
Econometrics Circle