凡是搞计量经济的,都关注这个号了
邮箱:
[email protected]
所有计量经济圈方法论
丛的code程序
, 宏微观
数据库和各种软
件都放在社群里.欢迎到计量经济圈社群交流访问
.
“1.
RDD断点回归, Stata程序百科全书式的宝典
",“2.
最强断点回归RDD方法资料主页!提供replication数据, 编写和注释完整的codes!
”,“3.
政策评估里的断点回归设计RDD是什么, 如何做?如何简单的理解?
”,“4.
复现经典RDD断点回归设计文献保姆级教程, 直接上手!
” "5.
她极度近视, 却凭该TOP5文掌控着关于RDD使用的话语权!
"
接着
“
陈强: 计量经济学实证论文写作全解析
”
,今天看看最新关于断点回归设计RDD的综述方法类论文“断点回归的两大分析框架:我们究竟该用哪一个?”。如果你不在意选择哪个框架,哪个好用就用哪个,或者别人怎么用你就用哪个,也可以熟悉一下断点回归设计研究思路。
假定、带宽选择还是推断方法上均有相当差异。其中,基于连续性的框架(continuity-based framework)假定潜在结果的条件期望连续,在实证研究中广泛应用。局部随机化的框架(local randomization framework)则为后起之秀,该框架假定在断点附近的小窗口,驱动变量可视为随机分配。本文详细介绍了这两大框架的原理与技术细节,包括识别、估计、推断与证伪,并通过蒙特卡罗模拟与经典案例深入比较了二者的差异。
文献中一般认为基于连续性的框架所依赖的假定更弱,但本文发现,一方面,该框架隐含假定驱动变量在带宽内为外生变量,在实践中未必满足;另一方面,局部随机化的框架所选窗口一般更窄,故驱动变量的外生性条件更易满足,且适用于离散驱动变量的情形。由于局部随机化框架的有效样本容量一般较小,易受离群值影响,故本文提出使用“留一估计”(leave-one-out estimation)作为稳健性检验。
断点回归设计(regression discontinuity design),简称“断点回归”(RD),是经济学实证研究中最为流行的准实验因果推断方法之一。Thistlethwaite & Campbell( 1960)首次提出断点回归,并以此研究奖学金对于未来学业成就的影响。由于奖学金由考试成绩决定,而学生无法精确控制其成绩,故成绩刚好达到获奖标准与差点达到的学生具有可比性。自20 世纪90 年代以来,断点回归在经济学的多个领域,包括教育经济学、劳动经济学、发展经济学、健康经济学、政治经济学以及区域经济学等领域得到了广泛应用。
断点回归设计包含两个基本前提。首先,个体获得一个得分(score),①若此得分超过已知的某个断点(cutoff 或threshold),则进入处理组,接受政策处理;反之,则进入控制组。此前提正是断点回归所特有的“处理配置机制”(treatment assignment mechanism)。其次,在此断点附近两侧的处理组与控制组个体具有“可比性”(comparability),故可将对方作为“有效的反事实”(valid counterfactuals)。此前提排除了在断点两侧存在“内生分组”(endogenous sorting)的可能性,因为若个体可精确地控制进入断点的某侧,则断点附近两侧的个体将失去可比性。
针对断点附近两侧个体的可比性所使用的不同数学表达,文献中出现了两个分析框架。一方面,基于连续性的框架(continuity-based framework),简称“连续性框架”,假设潜在结果的条件期望在断点处连续,这保证了在断点附近两侧的处理组与控制组个体的特征相近。基于此连续性假定,可识别在断点处的“局部平均处理效应”(local average treatment effect),并使用非参数的局部多项式回归(local polynomial regression)进行估计与推断(Hahn et al., 2001)。另一方面,局部随机化的框架(local randomization framework)则假设在断点附近的小窗口内,个体的驱动变量及处理状态可视为随机分配(as-if randomly assigned)。基于局部随机化的假设,可使用分析实验(analysis of experiments)的方法进行估计与推断(Cattaneo et al., 2015)。
一个重要问题是如何在断点回归的两大分析框架之间进行选择。连续性框架出现更早,是目前的主流框架,在实践中广泛应用。局部随机化框架出现较晚,当前仍主要作为替补方法或稳健性检验。然而,作为后起之秀的局部随机化框架,有望在未来的断点回归实证研究中发挥日益重要的作用,原因如下:
首先,一方面,尽管连续性假设弱于局部随机化假设,但基于连续性框架进行局部多项式回归时,仍隐含假定驱动变量在所选带宽内为外生变量,以保证局部多项式回归的一致性。然而,此外生性条件一直为文献所忽略,实证研究者通常非正式地视断点回归为“ 局部随机实验”(local randomized experiment),故默认接受此外生性条件。但连续性框架并未假设局部随机实验,在选择带宽时也完全未考虑须保证驱动变量的外生性,只是通过最小化均方误差(MSE)来选择最优带宽,称为“MSE 最优带宽”(MSE-optimal bandwidth)。由此所得最优带宽一般比较宽,可能难以保证驱动变量的外生性,遑论局部随机实验。另一方面,局部随机化框架并不通过最小化MSE 来选择带宽,而是通过一系列的协变量平衡(covariate balance)检验来选择带宽,以满足局部随机化的假定。①因此,局部随机化框架所选带宽一般更为狭窄(Cattaneo & Vazquez-Bare, 2017),这使得驱动变量的外生性更易被满足。当然,选择更窄带宽的后果是在此带宽内的有效观测值可能大幅下降。为此,Cattaneo et al.( 2015)建议使用适用于小样本的“费雪推断法”(Fisherian inference),通过随机化检验(randomization test)进行统计推断。
其次,一方面,连续性框架通常假定驱动变量连续,且在断点处的密度函数为正,这使得连续性框架在离散驱动变量的情况下不便使用,而不得不引入额外假定;另一方面,无论驱动变量连续或离散,局部随机化框架均可照常使用。
再次,一方面,由于连续性框架仅能识别在断点处的局部平均处理效应(local average treatment effect,简记LATE),其“外部有效性”(external validity)较弱。尽管文献中已有若干将此局部平均处理效应拓展外推(extrapolation)的尝试,②但均须施加额外的较强假定,在实践中鲜有应用。另一方面,局部随机化框架所识别的是在带宽内所有个体的平均处理效应(ATE),尽管其带宽通常较窄。
总之,断点回归的两大分析框架各有优缺点,而局部随机化框架在未来可能越来越重要。进一步,本文通过蒙特卡洛模拟,深入比较了二者的表现。结果发现,若驱动变量在更宽的MSE 最优带宽内外生,则连续性框架的估计更有效率。然而,若驱动变量仅在更窄的局部随机化带宽内外生,则连续性框架的估计不一致,而局部随机化框架的估计依然一致。另外,本文还通过美国参议院选举的经典案例(Cattaneo et al., 2015)进行演示,比较两大框架在操作上的具体差异。
有关断点回归的英文文献综述包括Cook( 2008)、Imbens & Lemieux( 2008)、van der Klaauw( 2008)、Lee & Lemieux( 2010)、Cattaneo & Titiunik( 2022),以及 Cattaneo et al.( 2020a, 2023)所提供的实践指南,而中文文献综述包括谢谦等(2019)、刘生龙(2021)、张泽宇等(2022)及刘冲等(2022)。其中,刘冲等(2022)在国内文献中首次将断点回归的两大分析框架进行了对比,并介绍了断点回归的一些新应用场景及拓展,包括多重驱动变量、多重断点、拐点回归设计等。与这些综述文献相比,本文详细地介绍并比较了两大框架的原理与技术细节,包括识别、估计、推断与证伪,特别是国内学界还比较陌生的局部随机化框架;并通过蒙特卡洛模拟与经典案例深入考察了二者的差异。本文的创新之处包括,首次指出连续性框架的断点回归可能存在内生性偏差,并通过蒙特卡洛模拟进行验证。另外,由于局部随机化框架下的有效样本容量可能较小,易受离群值影响,本文提出使用“留一估计”(leave-one-out estimates)进行稳健性检验。本文还使用美国参议院选举的经典案例(Cattaneo et al.,2015),演示两大框架的具体操作。
断点回归的连续性框架与局部随机化框架无论在假定、识别、估计及推断方面均有相当差异。一方面,连续性框架始于Hahn et al.( 2001)的非参数识别,成熟于Calonico et al.( 2014)的偏差校正稳健估计,技术已十分完善,是目前断点回归的主流方法。另一方面,局部随机化框架起步较晚,始于Cattaneo et al.( 2015),经过Cattaneo et al.( 2017)的拓展,也趋于成熟。局部随机化框架目前应用较少,仍主要作为稳健性检验或替补方法。
断点回归两大框架一主一辅地位的形成,表面原因是局部随机化框架出现较晚,而连续性框架占据先发优势,早已在实证研究中普及。更重要的原因则是,学界普遍认为连续性框架的假定比局部随机化框架更弱,而出于稳健性考虑,我们一般偏好假定更弱的方法。但事实上,连续性框架的假定并不一定比局部随机化框架更弱,因为它隐含地假定驱动变量在最优带宽内为外生变量。为此,本节首先考察连续性框架的隐含外生假定,以及离散驱动变量的问题,并以表格形式全面对比两大框架的不同特征。
众所周知,在进行线性回归时,一致估计的最基本要求是解释变量为外生变量,即解释变量与扰动项不相关。此结论对于非参数回归依然成立,因为非参数回归仅解决回归函数误设问题,本身并不解决可能存在的内生性。具体到断点回归的连续性框架,一致估计要求驱动变量Xi 在所选最优带宽内为外生变量。显然,假定2.1(驱动变量的连续性)与假定2.2(结果变量条件期望的连续性)均无法保证驱动变量的外生性。进一步,在实践中,连续性框架的MSE 最优带宽通常较宽,一般也难以满足局部随机实验的假设。例如,在美国参议院选举的经典案例中(Cattaneo et al., 2015),使用三角核进行局部线性回归所得的MSE 最优带宽为[-17.754, 17.754 ]。①在民主党得票率与最强竞争对手相差达±17.754% 的区间内,显然未必是势均力敌的选举(close election),故难以满足局部随机实验的假设。事实上,根据Cattaneo et al. (2015)所汇报的结果,满足局部随机化带宽仅为[-0.75, 0.75 ]。然而,实证研究者经常非正式地将MSE 最优带宽内的断点回归一概视为局部随机实验(无论此带宽有多宽),而不担心驱动变量可能的内生性。为此,本文在文献中首次引入如下外生性假定,以保证连续性框架的一致估计。
假定4.1( 驱动变量的外生性):驱动变量Xi在所选最优带宽内为外生变量,与局部多项式回归方程的扰动项不相关。
很遗憾,假定4.1 长期为文献所忽视,而实证研究者则通常将其看作理所当然的隐含假定。当然,实证研究者也担心存在内生分组的可能,故一般通过密度检验(McCrary, 2008;Cattaneo et al.,2020)考察在断点处存在个体完全操纵的可能性。然而,即使密度检验通过,也依然无法保证驱动变量在整个最优带宽内的外生性。
由于学界对于假定4.1 充满信心,以至于经常以一元回归进行断点回归,而不在回归方程中加入任何协变量。进一步,即使加入协变量,也认为只是改进了估计效率,而不影响估计的一致性(Calonico et al., 2019)。基于同样的原因,在使用面板数据进行断点回归时,一般也认为不必考虑个体固定效应,尽管控制个体固定效应可以提高估计效率(张春丽等,2020)。然而,由于连续性框架所选最优带宽一般较宽,故局部随机实验的假设难以成立,这使得假定4.1 也可能不成立。这提示实证研究者,在使用连续性框架进行断点回归时,应重视引入协变量,以解决可能存在的遗漏变量偏差。类似地,在使用面板数据进行断点回归时,则建议控制个体固定效应,以缓解内生性偏差的顾虑。
局部随机化框架在通过协变量平衡检验选择带宽时,已充分考虑满足局部随机化的假定,且所选带宽通常更窄,故假定4.1 在局部随机化框架下更易满足,从而在源头上避免了可能的内生性偏差。在第五节,我们通过蒙特卡罗模拟,进一步比较了连续性框架与局部随机化框架,以揭示连续性框架可能存在的内生性偏差。
连续性框架假设驱动变量为连续型随机变量,且在断点处密度为正数(假定2.1)。这意味着,若驱动变量离散,则使用连续性框架进行断点回归可能会遇到困难。若驱动变量离散,则在断点处的局部平均处理效应不再是“非参数可识别”(nonparametrically identifiable),因为在断点两侧的极限lim x↓c E (Yi |Xi = x ) 与lim x↑c E (Yi |Xi = x ) 没有定义。此时,连续性框架的识别与估计必然要求对驱动变量的取值范围进行外推(extrapolation outside the support of the running variable)。
不失一般性,假设离散驱动变量的可能取值为{ x-K,⋯,x-1,c,x1,⋯,xK},其中,为了简便,假设断点c 为中位数。在此情形下,若使用连续性框架,则需加上两个额外假定,即(1)从Xi = x-1 到Xi =c 所作的参数外推(parametric extrapolation)足够精确;(2)样本中驱动变量不同取值的个数足够大。如果满足这两个额外条件,则连续性框架的局部多项式回归仍可使用(Cattaneo & Titiunik, 2022)。
相反,无论驱动变量连续或离散,局部随机化框架均同样适用,无须额外假定。这凸显了局部随机化框架的另一优势。进一步,如果样本中驱动变量的重复值(repeated values)足够多,甚至可以选择最小的窗口,即直接使用满足Xi = x-1 到Xi = c 的观测值进行局部随机化的估计与推断。即使需要更宽的带宽,也可以每次按照驱动变量的离散取值来扩大窗口。
需要指出,尽管局部随机化常使用小样本的费雪推断法进行统计推断,但并不意味着其适用于原始样本就比较小的数据。如果原始样本容量已经较小,则在协变量平衡检验所选取的较窄带宽内,有效观测值可能更少,依然不利于小样本推断。由表1 可见,使用局部随机化框架的两大场景为离散驱动变量,或驱动变量在连续性框架最优带宽内可能存在内生性。由于这两种情形(尤其是后一种情形)均比较常见,故局部随机化框架在未来的断点回归实践中可望发挥更大的作用。
Reference:
陈强,齐霁,颜冠鹏.断点回归的两大分析框架:我们究竟该用哪一个?[J].经济学动态,2024,(11):128-144.
关于断点回归设计RDD,可参看1.
断点回归设计RDD分类与操作案例
,2.
RDD断点回归, Stata程序百科全书式的宝典
,3.
断点回归设计的前沿研究现状, RDD
,4.
断点回归设计什么鬼?且听哈佛客解析
,5.
断点回归和读者的提问解答
,6.
断点回归设计RDD全面讲解, 教育领域用者众多
,7.
没有工具变量、断点和随机冲击,也可以推断归因
,8.
找不到IV, RD和DID该怎么办? 这有一种备选方法
,9.
2卷RDD断点回归使用手册, 含Stata和R软件操作流程
,10.
DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征
,11.
安神+克拉克奖得主的RDD论文, 断点回归设计
,12.
伊斯兰政府到底对妇女友不友好?RDD经典文献
,13.
PSM,RDD,Heckman,Panel模型的操作程序
,14.
RDD经典文献, RDD模型有效性稳健性检验
,15.
2019年发表在JDE上的有趣文章, 计量方法最新趋势
,16.
关于(模糊)断点回归设计的100篇精选Articles专辑!
17.
断点回归设计RDD精辟解释, 保证你一辈子都忘不了
,18.
“RDD女王”获2020年小诺奖!她的RD数据, 程序, GIS和博士论文可下载!关于她学术研究过程的最全采访!
19.
中国博导要求掌握的RDD方法实证运用范文(配程序code), 不然就不要用RDD做实证研究!
20.
最近70篇关于中国环境生态的经济学papers合辑!
21.
事件研究法用于DID的经典文献"环境规制"论文数据和程序
,22.
环境, 能源和资源经济学手册推荐, 经典著作需要反复咀嚼
,23.
中文刊上用断点回归RDD和合成控制法SCM的实证文章有哪些?不看至少需要收藏一下!
24.
上双一流大学能多赚多少钱? 学习断点回归RDD, 机制分析的经典文章!
25.
JPE上利用地理断点RDD和IV研究中国环境议题的do文件release!
26.
学习经济学会让你富有吗? 基于大学专业回报的断点回归分析
,27.
政策评估里的断点回归设计RDD是什么, 如何做?如何简单的理解?
28.
AER上用断点回归设计的经典文章有哪些?给出了具体的程序和code
,29.
AER: 严刑竣法真的可以减少犯罪吗? 断点回归设计RDD的经典!
30.
断点回归设计RDD的原理和实证指南, 年龄, 地理, 分数等断点应有尽有
,31.
最强断点回归RDD方法资料主页!提供replication数据, 编写和注释完整的codes!
32.
前沿: 农业与环境经济学中断点回归设计RDD万字综述与最新进展!
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题
,
Econometrics Circle