傻傻分不清! 内生转换模型,内生处理模型,样本选择模型,工具变量回归等

计量经济圈 · 公众号 · · 2024-03-15 19:37

正文

凡是搞计量经济的，都关注这个号了

邮箱： [email protected]

所有计量经济圈方法论 丛的code程序 , 宏微观 数据库和各种软 件都放在社群里.欢迎到计量经济圈社群交流访问.

    
     之前，我们引荐了
    
       顶刊上出现的样本选择偏差vs自选择偏差问题及其处理方式汇编
      
     ，从中了解了一些与样本选择相关的自选择问题。在面对自选择偏差时，我们首先考虑采用一些匹配方法予以缓解，比如倾向得分匹配（Propensity Score Matching, PSM）。

1. PSM倾向匹配详细步骤和程序, 让Match进行到底， 2. 执行PSM的标准操作步骤, 不要再被误导了， 3. PSM,RDD,Heckman,Panel模型的操作程序， 4. 逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器， 5. PSM-DID, DID实证完整程序百科全书式的宝典， 6. 分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例， 7. PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王， 8. 广义PSM,连续政策变量因果识别的不二利器，9. PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢？ )，NNM(1. 处理效应模型选择标准，NNM和PSM，赠书活动 )，CEM(1. 粗化精确匹配CEM文献推荐, 程序步骤可复制，2. 无需检查协变量平衡性的CEM匹配, 到底有多神气和与众不同 )，GM(1. PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王 )

    
     不过，匹配方法只能处理依可观测变量基础上的自选择问题，对于不可观测变量基础上的选择问题就显得力不从心。对于不可观测变量基础上的自选择问题，匹配方法失去效力，此时需要用到的计量方法是“处理效应模型”，即处理变量为0-1的政策评估模型。假设，我们想要评估是否上大学对将来工作薪酬的影响，其中，“是否上大学”为0-1政策变量，“个体工作薪酬”为结果变量。不过，我们担心“是否上大学”变量存在自选择偏差，即有能力的（天资聪颖的）个体更有可能进入大学读书。在这个模型中，“是否上大学”是个内生二元处理变量，因为存在不可观测的能力与“是否上大学”和“将来工作薪酬”都相关。

    
     此时，解决办法通常参照Heckman(1979)样本选择模型的传统，直接对处理变量进行结构建模，之后使用Heckman两步法进行估计。需要注意的是，这一处理效应模型要求结构方程中存在合理的工具变量（或结果方程与选择方程扰动项服从二元正太分布）。这相当于，为0-1处理变量寻找一个工具变量，从而缓解其不可观测变量基础上的自选择偏差。在本文的模型中，需要为“是否上大学”找一个工具变量，该变量与是否上大学相关，但不会直接影响个体工作薪酬。借鉴既有文献，我们使用“家庭到就读（中小）学校的距离”（distance）作为“是否上大学”的工具变量。其合理之处在于，到就读学校的距离与是否上大学相关，但却不会直接影响个体在将来的工作薪酬。为了使审稿人相信我们的推断，可以就到就读学校的距离与是否上大学做些简单的描述性统计。例如，可以比较一下到就读学校近的个体上大学的比例，是否显著高于到就读学校远的个体上大学的比例。

    
     论证了工具变量的合理性后，需要使用Heckman两步法对结构模型进行估计。在第一阶段，我们以“上大学”为因变量，将那些影响个体上大学的因素作为自变量进行Probit回归，并得到逆米尔斯比例lamda（lamada衡量存在多大程度的自选择行为）。在第二阶段，我们需要将第一阶段估计得到的lamda代入结果变量的回归方程中。

    
     一个简单的code：

gen treatment=(x1==1)
local covariate “x2 x3 x4”

etregress y `covariate' i.year i.province, treat(treatment=distance `covariate’ i.year i.province) two first
outreg2 using “etreg.xls”, bdec(4) sdec(4) rdec(4) bracket replace

etregress y `covariate' i.year i.province, treat( treatment=distance IV1 `covariate’i.year i.province) two first
outreg2 using “etreg1.xls”, bdec(4) sdec(4) rdec(4) bracket append

注：其中IV1是另一个工具变量。

下面这几段话清楚地展示了自选择效应的表达式，其中式（4）是结果变量Y的表达式，式（5）是处理变量的表达式，Ω为两个式子的方差协方差矩阵。

上述通过工具变量处理自选择问题的方法，与常见的工具变量法解决内生性问题框架一致。区别在于内生变量是二值非连续变量，若强硬将其作为连续变量采用2SLS会让统计推断失效。

基于此，主要采用极大似然估计方法估计上述模型的参数，包括FIML(完全信息极大似然法)和LIML(有限信息极大似然法)。 与FIML估计值相比，LIML估计值更稳健，但有效性更低。 FIML是渐近有效的，但它依赖于选择方程的误差项和结果方程的误差项之间的联合正态性的附加假设。

在内生处理效应下，研究者可能确信（或更感兴趣）处理效应表现为截距效应（intercept effect）。 在这种情况下，我们假设所有其他协变量会独立于处理变量，去影响结果变量，因此，处理效应只是回归曲线的上下移动。 然而，在内生转换条件下， 研究者认为处理效应是由其他解释变量传导的，因此也涉及到斜率效应（slope effect），因此，处理效应会使回归曲线的斜率发生变动 。与内生处理效应模型相比，这种转换回归模型当然更灵活，因为它允许系数估计值在不同的分组之间变化，从而估计每个外生因子X对结果的异质性影响。关于内生转换模型，各位学者可以参看 Heckman模型out了,内生转换模型掌控大局。

转换回归模型也可以看作是一种“双样本选择”问题，因为研究者可以通过两个Heckman样本选择过程，分别用模型估计处理组和控制组的系数。此时，若研究者首先关注一个子样本的观测数据并估计模型（6a）和（7），他之后可以关注另一个子样本的数据并估计模型（6b）和（7）。虽然采取这种方法是可行的，但事实上只利用了在子样本内的变化信息，与同时估计整个模型的方法相比，仍然是一个效率较低的过程。此外，执行两个Heckman样本选择程序实质上意味着假设参数为零。

比较OLS，IV，内生处理效应，内生转换模型的回归结果：

*群友可以到社群下载相关区别所提及的文献。

内生性问题的拓展性阅读， 0. 看完顶级期刊文章后, 整理了内生性处理小册子； 1. “内生性” 到底是什么鬼? New Yorker告诉你； 2. Heckman两步法的内生性问题 (IV-Heckman)； 3 . IV和GMM相关估计步骤，内生性、异方差性等检验方法； 4. 最全估计方法，解决遗漏变量偏差，内生性，混淆变量和相关问题； 5. 毛咕噜论文中一些有趣的工具变量！； 6. 非线性面板模型中内生性解决方案； 7. 内生性处理的秘密武器－工具变量估计； 8. 内生性处理方法与进展； 9. 内生性问题和倾向得分匹配； 10. 你的内生性解决方式out, ERM独领风骚； 11. 工具变量IV必读文章20篇, 因果识别就靠他了； 12. 面板数据是怎样处理内生性的； 13. 计量分析中的内生性问题综述； 14. 工具变量IV与内生性处理的解读； 15. 一份改变实证研究的内生性处理思维导图；16. Top期刊里不同来源内生性处理方法； 17. 面板数据中heckman方法和程序 (xtheckman)； 18. 控制函数法CF, 处理内生性的广义方法； 19. 二值选择模型内生性检验方法； 20. 2SRI还是2SPS, 内生性问题的二阶段CF法实现； 21. 内生变量的交互项如何寻工具变量； 22. 工具变量精辟解释, 保证你一辈子都忘不了。

1. 讲座视频: 模型内生性分类, 检验与处理，2. 全能的内生性问题处理方法ERMs, 强烈安利一下！ 3. 补救实证中内生性问题的21种方法, 来自国际顶级期刊的要求！ 4. 前沿: 解决内生性问题的无工具变量推断法，5. 你的内生性解决方式out, CMP已一统天下而独领风骚！ 6. 不强调内生性, 用极简截面数据和交互项, 就将经济学故事讲到领域Top刊！ 7. 六种定量方法解决内生性问题, 附stata代码操作，8. 天下回归, 无内生性不破, 唯此神文不破, 练就内生性处理的终极大法！ 9. 搞懂因果推断中内生性问题解决方法必读的书籍和文献已搜集好！ 10. 实证研究中自选择基础上的内生性问题回顾, 建议和纠正措施！ 11. 简洁的内生性问题处理思维流程图, 并且还附上检验的代码！ 12. 内生性问题: 微观和宏观经济学研究中的关键因果识别问题，13. 控制变量的内生性需要处理吗？如何处理呢？理呢？

1. 用"因果关系图"来进行因果推断的新技能， 2. 因果推断专题：因果图， 3. 因果推断专题：有向无环图DAG ， 4. confounder与collider啥区别? 混淆 vs 对撞， 5. 三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系， 6. 中介效应检验流程, 示意图公布, 不再畏惧中介分析， 7. 图灵奖得主Pearl的因果推断新科学，Book of Why? 8. 前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑！因果关系研究的图形工具! 9. 前沿: 卫星数据在实证研究中的应用, 用其开展因果推断的好处！ 10. 7大因果推断大法精选实证论文, 可用于中国本土博士课堂教学！ 11. 随机分配是什么, 为什么重要, 对因果关系影响几何？ 12. 应用计量经济学现状: 因果推断与政策评估最全综述， 13. 疫情期计量课程免费开放！面板数据, 因果推断, 时间序列分析与Stata应用， 14. Python做因果推断的方法示例, 解读与code ， 15. 内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS ， 16. 不用IV, 基于异方差识别方法解决内生性, 赐一篇文献等等。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

7年，计量经济圈近2000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题 ,

Econometrics Circle

傻傻分不清! 内生转换模型,内生处理模型,样本选择模型,工具变量回归等

正文

请到「今天看啥」查看全文