专栏名称: 宏观研学会
关注宏观经济与宏观经济学研究前沿问题,推广、普及DSGE及其他宏观经济研究方法。
目录
相关文章推荐
南方能源观察  ·  国家能源局印发《2025年能源工作指导意见》 ·  16 小时前  
南方能源观察  ·  监管趋严:电力市场开出160万罚单 ·  16 小时前  
中国能源报  ·  中老500千伏联网工程启动建设 ·  昨天  
中国能源报  ·  中老500千伏联网工程启动建设 ·  昨天  
南方能源观察  ·  央企接入DeepSeek潮,能源“AI+”提速 ·  2 天前  
山西省人民政府  ·  山西这些集体、个人拟获全国表彰 ·  2 天前  
51好读  ›  专栏  ›  宏观研学会

【应用计量系列141】DID的稳健性检验:不可观测的混淆因子-SIV(理论篇)

宏观研学会  · 公众号  ·  · 2024-06-12 16:53

正文

CIMERS暑期班, 因果推断最新进展+量化宏观 ,全新回归!


👉 面板数据模型(DID等)最新进展及其stata应用 ,点击查看

👉 DSGE第一课与Dynare编程 ,点击查看


成为CIMERS内部学员,你可以获得

⭐ 高质量课程,详细课件,可复用代码及数据

⭐ 许老师详尽答疑服务,知无不言,学无止境

⭐ 高质量的交流社群(主要为硕博以及高校教师)

⭐ 许老师增值讲座,文献解读,模型讲解

⭐ 未来课程内部学员折扣

⭐⭐诚邀您加入CIMERS,许老师正在寻找好的合作者,一起作出 高质量研究 ⭐⭐

报名任意课程即可成为CIMERS内部学员



恳请各位老师同学动动发顶刊的小手,点个 赞和 在看 ,让更多人看到我们的研究, 您的支持是CIMERS最大的动力!





许文立,[email protected]

参考文献:Vives-i-Bastida J, Gulek A. Synthetic instruments in DiD designs with unmeasured confounding[J]. 2023.

DID要做的稳健性检验很多,参见 DID的规定动作 。其中,最难的就是不可观测的混淆因子。

在经验研究中,我们最担心的就是内生性问题,例如,处理选择性地影响一些个体,或者收到处理的个体存在不同的趋势等等。为了解决这些问题,我们常常会采用DID设计或者SC(合成控制法),从而用选择的控制组来“代替”不存在处理时的反事实结果。 虽然这些方法可以解决部分内生性的问题,但是由于所有的个体最终都接受处理,或者控制组和处理组并不满足平行趋势,从而不存在有效的控制组 ,最终使得上述方法并不能完全解决内生性问题。

因此,我们这个时候都会转向 IV-DID设计 ,例如,SSIV(shift-share IV)。理想是丰满的,但实现往往很残酷。实践中,内生性问题可能依然存在,因为我们找到的IV肯恩与不可观测的成分相关,从而展示出“处理前趋势”。

其实,大家都知道上述问题意味着“找到一个有效的IV太难了”,那么,我们为什么不构造一个IV呢?(这一点,我每次外出参加研讨会,都会给IV的论文提)今天就来看一种构造IV的方法(SSIV也是一种构造IV的思路)。

一、数据环境

  • 面板数据
  • 有些个体暴露在处理中
  • 存在一些内生性问,例如,在使用DID的时候,担心存在差异化处理前趋势,平行趋势不成立,但是利用IV只能部分解决内生性问题

也就是说,有J个个体,T期,Yit是结果变量,Yit(Rit)是潜在结果。

  • 假设1 :[设计] 潜在结果遵循下列线性因子模型

其中, 是k个不可观测因子载荷向量, 是共同因子, 是不可观测的误差项。假设1定义的是我们感兴趣的处理设计。关于处理的假设有下列两种情形:

  • 假设1.1:[一般化处理] 处理 遵循

其中, 是工具变量, 是不可观测的误差项。此处的处理变量 可以是连续型变量,多值变量,或者二值型变量。如果为二值型变量,上述假设可以转换成:

  • 假设1.2:[IV-DID设计] 处理 遵循

假设1.2表明,影响个体的处理发生在时间T0之后,而对于T0前,处理 。例如,在研究叙利亚危机时,难民进入欧盟对欧盟劳动力市场的影响,发生叙利亚危机前,没有难民进入欧洲,此时构造的SSIV在T0前是0。正是由于在T0前没有外生冲击,所以我们可以选择T0来分离样本,进行很多研究设计。

更重要的是,假设1对不可观测项施加了线性因子结构。线性因子结构在合成控制法和矩阵完成法文献中非常常见。这个假设允许我们分离不可观测项——遗漏变量( )和不可观测误差项( )。我们感兴趣的参数是

  • [1] 如果 ,也就是处理变量与误差项和遗漏变量无关,那么,OLS估计量是无偏的。

但是在许多情形下,处理变量要么与不可观测误差项相关,要么与不可观测的遗漏变量相关。此时,我们有一个工具变量 ,它对于不可观测的误差项引起的内生性问题是有效的,但是对于不可观测的遗漏变量并不是有效的。

  • 假设2 : [部分有效工具变量] 下列独立性条件成立:

假设2意味着,工具变量Z可以解决与不可观测因素 有关的内生性问题。

下面,我们用因果图模型来看看上述问题:

图(a)是一般化研究设计。(b)是我们常见的有效IV研究设计。(c)是OLS估计量有效的研究设计。需要注意的是,在(a)中,不可观测的混淆因子U也可以与处理变量R相关。

(a)与(b)最大的区别在于,有效的IV需要满足(1)Z与R相关;(2)Z只通过R影响Y。第一个相关性假设通常用一阶段F统计量来检验,或者AR检验。但是外生性假设则无法检验,因为U是不可观测的。这才是“朋友不建议朋友使用IV”的根本原因。

二、新的合成IV估计量

从研究设计的角度来看,其实想法很简单:如果我们能控制住遗漏变量U,那么,IV不就有效了吗?

但是,问题是U是不可观测的,如何控制住它?

我自己想的研究设计更简单(我还没有研究这个研究设计的估计量的性质):

  • 假定在观察数据研究中,我们不可能得到真实的处理效应,但是我们可以尽可能地消除偏误,以接近真实处理效应。

  • 在实践中,我们可以找到不可观测混淆因子U的可观测结果变量或者原因变量。例如,2008年实施的4万亿刺激,这个政策其实是一揽子刺激措施,根本不可能准确测度4万亿政策。但是,我们可以找到4万亿刺激政策的可观测结果变量,例如各地区的村镇银行、投融资平台等等,这些变量都是4万亿刺激措施的直接结果。

  • 然后,在IV回归中,控制这些可观测的结果变量,得到的IV估计量会在一定程度上消除U带来的偏误问题。

这是一种近似替代变量(proxy)的方法,非常实用,大家以后可以试试,如上图(d)所示。也有很多文献提出了各种不同的寻找近似控制变量的方法,例如Miao et al. (2018) 、 Deaner (2021),但是这些方法需要额外的数据。还有一些方法不依赖于额外的数据,例如,直接控制线性趋势(Wolfers, 2006)、交互固定效应(Bai,2009;Liu et al,2023)、合成控制法,或者SDID的扩展方法(Arkhangelsky and Korovkin,2023)。

Vives-i-Bastida and Gulek(2023)提出了一种新的方法——合成IV(Synthetic IV,SIV)来应对不可观测混淆因子U带来的偏误/内生性问题。

叙利亚危机对欧盟劳动力市场的影响。叙利亚危机发生在2011年3月,持续到2017年。600万叙利亚人离开叙利亚去往欧洲。给定叙利亚难民冲击的结构,估计难民冲击对欧洲劳动市场的因果效应的方法是利用SSIV——探索叙利亚危机的外生时间冲击和对不同欧盟地区的差异化影响。

  • 表示j地区,t年的难民/原住民比例
  • 用旅途距离做为shift-share工具(Angrist and Kugler, 2003; Aksu et al., 2022)

其中, 是t年进入欧盟的难民数量, 是欧盟地区j与叙利亚地区s之间的旅途距离。 是一个与s地区人口规模成比例的权重——通常认为,人口多的地区,难民也比较多。

此时,一阶段的研究设计是下列TWFE事件研究:

上述一阶段回归结果检验工具Z是否可以预测难民的位置选择。结果如下: F统计量的结果为154,这个IV回归的相关性假设得到证实。但是,考察下列缩减形式的IV回归:

得到的结果如下:

上述事件研究结果显示,处理前存在明显的处理前趋势。这意味着,这个IV-DID可能并不满足平行趋势假设。

Vives-i-Bastida and Gulek(2023)的合成IV估计量主要有两步组成:

  • 【第一步】处理前的每个个体找到一个合成控制组,并对结果变量Yit,处理变量Rit和工具变量Zit构造出反事实估计量;
  • 【第二步】用上述反事实估计量来跑标准的IV回归,即计算一阶段和缩减形式的IV估计量。

三、SIV的实践应用

再次考察叙利亚难民对欧盟劳动市场的影响。

  • 【第一步】创造结果、处理、工具等变量的合成控制地区;
  • 【第二步】用原始数据减去合成控制数据,得到 ;-【第三步】在跑标准的IV之前,先检验一些处理前匹配质量,例如,画出去偏误后的数据图来检验拟合优度,这些数据应该在0附近小幅波动,如下图所示
  • 【第四步】用纠偏数据跑一阶段回归:

结果如下: F统计量是218。-【第五步】用纠偏数据跑缩减形式的回归 第一行的方程是IV的缩减形式回归,第二行方程式SIV的缩减形式回归。结果如下:

  • 【第六步】过度拟合/匹配偏误检验。如图(c)所示,用整个时期来进行匹配,即使数据中没有有用信息,缩减形式回归仍然会给我们无处理前趋势的结果。这就是过度拟合偏误。因此,我们可以改变处理前匹配的时期,例如(c)的绿色三角用2004-2007年作为处理前的合成控制样本,然后在跑上述过程来进行稳健性检验。

注: 后期会给大家讲解上述过程的stata代码。


注:(1)相关讲稿、Slides和stata do文件在许文立老师的github及其主页上公布。

(2)CIMERS学员/付费会员注意后续线上讲座通知。

(3)更多计量和stata内容,请参见 经验分析方法及Stata命令汇总

71、【应用计量系列71】断点回归(1):概述

72、 【应用计量系列72】断点回归(2):丝滑世界里找“跳跃”

73、 【应用计量系列73】交叠DID估计量 :stata包csdid升级版

74、 【应用计量系列74】控制组群固定效应还是个体固定效应?

75、 【应用计量系列75】合成控制法的新推断框架和stata应用

76、 【应用计量系列76】平行趋势的秘密(一):平行趋势假设的类型

77、 【应用计量系列77】平行趋势的秘密(二):明知不可为而为之

78、 【应用计量系列78】断点回归(3):分离不分家

79、 【应用计量系列79】平行趋势的秘密(三):如何给平行趋势假设提供经验证据?

80、 【香樟推文2663】破产改革的经济后果

81、 【应用计量系列81】平行趋势的秘密(四):如何给平行趋势假设提供经验证据?







请到「今天看啥」查看全文