专栏名称: 计量经济圈
记录一个我们生活在其中的时代社会,囊括的主题如下:经济、社会、世界和计量工具。
目录
相关文章推荐
21世纪经济报道  ·  #A股#A股【#全球财经连线#|沪指收复34 ... ·  23 小时前  
西部财经融媒  ·  800家!湖南官宣涉金融领域投资企业“失联” ... ·  昨天  
西部财经融媒  ·  800家!湖南官宣涉金融领域投资企业“失联” ... ·  昨天  
51好读  ›  专栏  ›  计量经济圈

AERI主编亲授: 稳健性检验与实证分析的方法论要诀, 告别无效回归, 少盲动, 多思考.

计量经济圈  · 公众号  · 财经  · 2025-03-13 09:22

主要观点总结

本文介绍了计量经济圈主编Tatyana Deryugina关于稳健性检验与实证分析的方法论建议。文章涵盖了稳健性检验的核心要点、实证分析的通用建议以及计量经济社群的相关特点。

关键观点总结

关键观点1: 计量经济圈与Tatyana Deryugina的介绍

计量经济圈是一个专注于计量经济方法的社群,Tatyana Deryugina作为AER:insights联合主编和伊利诺伊大学副教授,基于其多年学术研究经验,提供了关于稳健性检验与实证分析的宝贵建议。

关键观点2: 稳健性检验与实证分析的通用性建议

Deryugina强调了稳健性检验的重要性,并分享了她在多年学术研究实践中总结出的通用性建议,包括检验处理前趋势的差异、明确首选回归模型和核心样本、首选模型不必囊括所有潜在控制变量等。

关键观点3: 安慰剂检验在稳健性检验中的应用

文章提到了安慰剂检验的方法,包括评估处理变量的先导效应、随机生成虚拟预测变量、考察处理效应对理论上不应受影响的变量等,以验证研究的稳健性。

关键观点4: 计量经济圈社群的特色

计量经济圈组织了一个热情互助、前沿趋势、资料数据丰富的社群,聚集了众多优秀学者。文章鼓励积极进取的中青年学者到社群交流探讨,互相成就彼此。


正文

图片
凡是搞计量经济的,都关注这个号了
箱: [email protected]
所有计量经济圈方法论 丛的code程序 , 宏微观 数据库和各种软 件都放在社群里.欢迎到计量经济圈社群交流访问 .
图片
AER:insights联合主编、伊利诺伊大学副教授Tatyana Deryugina基于其多年学术研究经验,总结了关于稳健性检验与实证分析的方法论要诀。在仔细研读其论述后,尤为叹服于她对学术论证每个环节的缜密考量,文中提出的几大核心建议堪称实证研究的金科玉律。
向社群群友推荐后,引发热烈讨论,群友反馈其方法论指导极具实操价值。例如,这位主编说:“ 控制组样本的规模不宜过小,以至于处理组样本数量远超控制组(如3:1); 但控制组数量远超处理组(如10:1)通常也未必优于接近1:1的比例。 如果使用面板数据,首选模型通常应基于平衡面板(balanced panel)。”

下面就一起来看看这位TOP刊主编说了什么?
关于稳健性检验与实证分析的几点建议
我的博士导师曾对我谆谆教诲,留下了一句至理名言:“你需要多思考,少盲动。”这句话对许多研究者都具有普遍的指导意义。
相较于静下心来深入思考问题的解决方案,数据清理或运行回归分析等操作性工作往往更容易让人产生成就感。然而,倘若在缺乏充分思考的前提下就匆忙付诸行动,则很可能导致数小时、数天乃至数周的徒劳付出,最终事倍功半。
在实证研究的各个阶段,特别是在进行稳健性检验时,优先进行深入的理论思考显得尤为重要。 稳健性检验的核心并非是对所有可能的回归模型或数据变体进行简单粗暴的穷举式计算。
事实上,在绝大多数研究情境下,如果研究者试图穷尽所有可能的样本组合、固定效应类型以及控制变量选择,很快便会陷入庞杂的数据处理与模型运行工作中,感到手足无措、疲惫不堪(对此我深有体会,因为我早年的学术生涯就曾深受其扰)。

不仅如此,运行数量庞大的回归模型还常常会导致一些异常结果的出现,而这些异常结果很可能仅仅是由随机噪声所导致的统计假象,却极易使研究者陷入困惑与迷茫,难以准确判断这是否意味着研究在某项关键的稳健性检验环节上遭遇了“滑铁卢”。

尽管研究者可以采用多重假设检验调整等统计方法,但如果在事前未能合理地精简回归模型的数量,此类事后调整可能会不必要地降低统计检验功效。
以下是我在多年学术研究实践中总结出的一些关于稳健性检验与实证分析的通用性建议,希望能对各位有所启发。需要强调的是,并非所有建议都具有普遍适用性,能够完美契合所有研究情境,但它们应能为大多数准实验研究提供一个良好的分析起点与基本遵循原则。
当然,如果在论文审稿过程中,审稿专家要求补充额外的稳健性检验或调整模型设定,且相关要求在方法论上是可行的,那么通常情况下,研究者应当尽可能地执行,或至少应在事前分析(prior analysis)的基础上,对为何某些稳健性检验或模型设定在本研究中不适用做出合理解释。
1.如有可能,务必检验处理前趋势的差异
令人颇感诧异的是,许多学术论文的作者仅仅口头声称其研究中的处理措施或政策干预实施时间的分布近似于随机分配,却并未采取任何实证方法或计量模型来检验处理组与对照组在处理前趋势(pre-treatment trends)方面是否存在显著差异。
在任何基于双重差分法(Difference-in-Differences,DiD)的研究的初始阶段,即便你确信政策处理分配在很大程度上是近似随机的,也务必对处理前趋势的平行性假设进行严格检验。究其原因,即使是那些严谨执行随机对照实验(Randomized Controlled Trials, RCT)的研究人员,也会例行公事般地进行协变量平衡性检验(covariate balance tests),以确保随机化实验设计在实践中确实能够按照研究预期有效发挥作用。
2.在得出最终研究结论之前,务必预先明确你的首选回归模型和核心样本
这并不意味着研究者必须始终顽固地坚持最初设定的样本范围和计量模型形式。在科学研究的实际探索过程中,研究者有时可能会偶然发现一些最初在研究设计阶段未曾充分注意到的关键数据特征,从而有必要对既定的分析策略做出相应的调整。
但是,尽早确定一个首选模型(preferred model)的分析策略,将有助于确保后续的回归分析能够建立在一个坚实的概念框架和理论基础之上,避免在实证分析阶段陷入漫无目的的“数据挖掘”与“模型堆砌”。
研究者所设定的首选模型,应尽可能地基于在经济学理论或研究设计上最为自然的处理组和控制组样本(例如,在自然灾害冲击评估研究中,以飓风易发州的县级数据作为研究样本)。
一般而言,这意味着研究者既要在样本选择过程中尽可能多地纳入符合处理组定义的样本观测值,同时也需竭力确保控制组样本的质量足够高,从而为研究提供一个可靠的、可信的反事实情境(counterfactual)。
例如,控制组样本的规模不宜过小,以至于处理组样本数量远超控制组(如3:1);但控制组数量远超处理组(如10:1)通常也未必优于接近1:1的比例。如果使用面板数据,首选模型通常应基于平衡面板(balanced panel)。
3.首选模型不必囊括所有潜在控制变量
与此相反,模型构建应优先考虑纳入那些能够有效消除主要混淆因素的控制变量,而非不加甄别地增加变量。举例而言,若你认为某项政策的实施时机具有近似随机性,则仅需控制时间固定效应和个体固定效应即可,而其他随时间推移发生变化的变量则可留待稳健性检验环节进行考察。
最令人Frustrating的情况莫过于在模型构建初期便贸然引入潜在内生性变量或过多的控制变量,以至于难以判断在剔除这些变量后,回归结果是否依然稳健可靠。
如何判断基于首选回归设定/样本的结果是否稳健?
为了评估实证结果的稳健性,应逐步调整关键要素,并检验可能威胁研究结论的主要因素。
调整关键因素,检验主要威胁
如果你的首选回归模型未能纳入充分的控制变量,可以尝试扩展或缩减控制变量的范围。然而,并非所有固定效应或控制变量的组合均合理有效。例如,在面板双重差分(DiD)研究中,若模型忽略时间或个体固定效应,其回归结果的价值通常会大打折扣。
对于涉及多重结果变量的研究,应着重对一至两个核心结果变量进行稳健性检验。对于次要结果变量,则可仅报告首选回归结果,或进行有限的稳健性检验即可。
当不同处理组的估计效应可能存在异质性时,不必对所有回归设定进行重复检验。针对此类样本,只需展示首选回归设定以及少量的关键稳健性检验。具体稳健性检验的数量可根据已有的检验情况酌情决定。
此外,应避免将可能存在内生性问题的变量纳入控制变量,尤其是那些可能受到处理效应影响的变量。如果结果因纳入此类变量而发生改变,这不仅不能证明结果的稳健性,反而可能引入额外的偏差。
每一项稳健性检验都应具有明确的目标,旨在为研究中潜在的问题提供合理的解释,而非仅仅为了执行回归分析而进行检验。
引入安慰剂检验(PlaceboTest)
你是否已检验过处理变量是否具有先导效应?是否存在预测变量过多而导致模型过度拟合的风险?处理效应是否可能外溢至邻近的对照组?是否存在弱工具变量问题?是否存在理论上不应受到处理效应影响的变量?标准误的计算方法是否存在不确定性?这些疑问均可通过安慰剂检验加以验证。
安慰剂检验的方法多样,例如:
评估处理变量的先导效应(the “effect” of treatment leads),以验证是否存在“虚假因果关系”;
随机生成若干虚拟预测变量,检验是否将随机噪声误判为因果关联;
考察处理效应对理论上不应受到影响的变量或邻近对照组的影响,以验证处理效应的合理性;
多次随机打乱处理变量并重新估计效应,以检验估计结果是否仅由特定数据模式所驱动。
选择安慰剂检验方法时,应与稳健性检验的整体思路保持一致,着重针对研究可能面临的具体问题提供有力的证据支持。
稳健性检验的“未通过”并非总是坏事
稳健性检验的“未通过”并不总是负面信号。
例如,在回归模型中过度加入固定效应,可能导致有益的变异信息大量损失,并使估计的处理效应变得高度不稳定。若核心结果变量的分布呈现长尾特征,直接使用原始数据进行回归分析可能放大噪声的影响。此外,若纳入潜在的内生性控制变量(即所谓的“坏控制变量”),估计的“处理效应”可能产生偏差,甚至方向逆转。
再者,如果处理变量的分配基于某个协变量,而移除该协变量后结果不再显著,这并不一定表示结果缺乏稳健性,关键在于深入思考该项检验未能通过的潜在原因。在研究设计阶段提前规划稳健性检验,有助于减少事后合理化解释(expost rationalization)的风险。
在评估稳健性检验的结果时,不应仅关注显著性星号的数量,而应更侧重于考察点估计值和标准误的变化趋势。若稳健性检验后的点估计值基本保持稳定,但标准误略有增大,在多数情况下是可以接受的。

例如,若某项稳健性检验因仅保留了10%的数据而导致显著性降低,这并非严重问题。然而,若一项合理的稳健性检验导致点估计值显著下降,且标准误足够小,以致95%置信区间不再包含首选估计值时,则需对此结果保持警惕。

Tatyana Deryugina, 2025, Some tips for robustness checks and empirical analysis in general.

*社群已上传PDF, 可以到社群交流讨论计量问题。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题 ,

Econometrics Circle




数据系列 空间矩阵 | 工企 数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据






请到「今天看啥」查看全文