专栏名称: 中国经济学教育科研网
经济学术动态资料,经济思想交汇碰撞,经济政策解读聚焦,经济书籍品评荐读
目录
相关文章推荐
出彩写作  ·  快速列措施做法提纲的小套路 ·  9 小时前  
鸡西新闻网  ·  2月23日 | ... ·  20 小时前  
鸡西新闻网  ·  2月23日 | ... ·  20 小时前  
51好读  ›  专栏  ›  中国经济学教育科研网

断点回归的两大分析框架:我们究竟该用哪一个?

中国经济学教育科研网  · 公众号  ·  · 2025-01-07 17:44

正文





断点回归的两大分析框架:我们究竟该用哪一个?

陈强  齐霁  颜冠鹏


本文深入比较了断点回归两大分析框架的优缺点,并提供实践建议与案例演示。基于连续性(continuity-based)的主流框架在最优带宽内进行局部线性回归,但隐含假定驱动变量在最优带宽内外生,在实践中未必成立。局部随机化(local randomization)的框架假定驱动变量在断点附近的小窗口内可视为近乎随机分配,并通过协变量平衡检验选择此小窗口,故驱动变量的外生性条件更易满足,但小窗口内的观测值可能较少。
一、选题背景及意义
断点回归设计(regression discontinuity design),简称“断点回归”(RD),是经济学实证研究中最为流行的准实验因果推断方法之一。Thistlethwaite & Campbell (1960)首次提出断点回归,并以此研究奖学金对于未来学业成就的影响。由于奖学金由考试成绩决定,而学生无法精确控制其成绩,故成绩刚好达到获奖标准与差点达到的学生具有可比性。自上世纪九十年代末以来,断点回归在经济学的多个领域得到了广泛应用,包括教育经济学、劳动经济学、发展经济学、健康经济学、政治经济学以及区域经济学等。
断点回归设计包含两个基本前提。首先,个体获得一个得分(score),若此得分超过已知的某个断点(cutoff或threshold),则进入处理组,接受政策处理;反之,则进入控制组。此前提正是断点回归所特有的“处理配置机制”(treatment assignment mechanism)。其次,在此断点附近两侧的处理组与控制组个体具有“可比性”(comparability),故可将对方作为“有效的反事实”(valid counterfactuals)。此前提排除了在断点两侧存在“内生分组”(endogenous sorting)的可能性,因为若个体可精确地控制进入断点的某侧,则断点附近两侧的个体将失去可比性。
针对断点附近两侧个体的可比性所使用的不同数学表达,文献中出现了两个分析框架。其中,基于连续性的框架(continuity-based framework),简称“连续性框架”,假设潜在结果的条件期望在断点处连续,这保证了在断点附近两侧的处理组与控制组个体的特征相近。基于此连续性假定,可识别在断点处的“局部平均处理效应”(local average treatment effect),并使用非参数的局部多项式回归(local polynomial regression)进行估计与推断。另一方面,局部随机化的框架(local randomization framework)则假设在断点附近的小窗口内,个体的驱动变量及处理状态可视为随机分配(as-if randomly assigned)。基于局部随机化的假设,可使用分析随机实验(analysis of experiments)的方法进行估计与推断。
本文详细介绍了这两大框架的原理与技术细节,包括识别、估计、推断与证伪,并通过蒙特卡罗模拟与经典案例深入比较了二者的差异,可为应用断点回归的实证研究提供重要指南。
二、研究主要发现
一个重要问题是如何在断点回归的两大分析框架之间进行选择。连续性框架出现更早,是目前的主流框架,在实践中广泛应用。另一方面,局部随机化框架出现较晚,当前仍主要作为替补方法或稳健性检验。然而,作为后起之秀的局部随机化框架,有望在未来的断点回归实证研究中发挥日益重要的作用,原因如下。
首先,尽管连续性假设弱于局部随机化假设,但基于连续性框架进行局部多项式回归时,仍隐含假定驱动变量在所选带宽内为外生变量,以保证局部多项式回归的一致性。然而,此外生性条件一直为文献所忽略。实证研究者通常非正式地视断点回归为“局部随机实验”(local randomized experiment),故默认接受此外生性条件。然而,连续性框架并未假设局部随机实验,在选择带宽时也完全未考虑须保证驱动变量的外生性,而只是通过最小化均方误差(MSE)来选择最优带宽,称为“MSE最优带宽”(MSE- optimal bandwidth)。由此所得最优带宽一般比较宽,可能难以保证驱动变量的外生性,遑论局部随机实验。
另一方面,局部随机化框架并不通过最小化MSE来选择带宽,而是通过一系列的协变量平衡(covariate balance)检验来选择带宽,以满足局部随机化的假定。因此,局部随机化框架所选带宽一般更为狭窄,这使得驱动变量的外生性更易满足。当然,选择更窄带宽的后果是在此带宽内的有效观测值可能大幅下降。为此,一般建议使用适用于小样本的“费雪推断法”(Fisherian inference),通过随机化检验(randomization test)进行统计推断。由于局部随机化框架的有效样本容量一般较小,易受离群值影响,故本文提出使用“留一估计”(leave- one- out estimation)作为稳健性检验。
其次,连续性框架通常假定驱动变量连续,且在断点处的密度函数为正。这使得连续性框架在离散驱动变量的情况下不便使用,而不得不引入额外假定。另一方面,无论驱动变量连续或离散,局部随机化框架均可照常使用。
再次,由于连续性框架仅能识别在断点处的局部平均处理效应(local average treatment effect,简记LATE),其“外部有效性”(external validity)较弱。尽管文献中已有若干将此局部平均处理效应拓展外推(extrapolation)的尝试,但均须施加额外的较强假定,在实践中鲜有应用。另一方面,局部随机化框架所识别的是在带宽内所有个体的平均处理效应(ATE),尽管其带宽通常较窄。
总之,断点回归的两大分析框架各有优缺点,而局部随机化框架在未来可能越来越重要。进一步,本文通过蒙特卡罗模拟,深入比较了二者的表现。结果发现,若驱动变量在更宽的MSE最优带宽内外生,则连续性框架的估计更有效率。然而,若驱动变量仅在更窄的局部随机化带宽内外生,则连续性框架的估计不一致,而局部随机化框架的估计依然一致。另外,本文还通过美国参议院选举的经典案例进行演示,比较两大框架在操作上的具体差异(数据集与Stata程序放入附录)。
三、启示
断点回归设计是最为流行的准实验因果推断方法之一。本文详细介绍了断点回归的两大分析框架,即连续性框架与局部随机化的框架,并通过蒙特卡罗模拟与经典案例对二者进行了深入比较。当前主流方法使用连续性框架,而仅以局部随机化框架作为替补或稳健性检验。此做法的隐含悖论在于,连续性框架通过最小化MSE选择最优带宽,但无论此带宽有多宽,实证研究者一般将其视为局部随机实验,而不考虑驱动变量可能的内生性。另一方面,局部随机化框架通过一系列协变量平衡检验选择带宽,以满足局部随机化的假定,故所选带宽通常更窄,在源头上排除了驱动变量可能的内生性。
连续性框架的另一假定为驱动变量连续,故在离散驱动变量的情况下,需要额外假定才能适用。另一方面,无论驱动变量连续或离散,局部随机化框架均同样适用。另外,连续性框架的被估量仅为断点处的局部平均处理效应,故外部有效性不强;而局部随机化框架可识别在带宽内所有个体的平均处理效应。当然,局部随机化框架的最大缺陷在于,由于所选带宽通常很窄,导致有效样本容量大幅下降,故一般须使用费雪法进行小样本的精确推断。为避免离群值的影响,本文提出使用留一估计作为稳健性检验。总之,局部随机化框架的价值在当前的断点回归实践中被低估,未来有望得到更广泛的应用,尤其当所选带宽内的观测值比较多时。









请到「今天看啥」查看全文