凡是搞计量经济的,都关注这个号了
邮箱:
[email protected]
所有计量经济圈方法论
丛的code程序
, 宏微观
数据库和各种软
件都放在社群里.欢迎到计量经济圈社群交流访问
.
审稿人说,你就这么点样本做DID,还想异质性稳健DID呢,看看最新文献再说吧。
最新文献表明,根据不同的因变量和效应大小,即使是效率最高的估计方法,通常也需要至少250个样本单位才能获得合理的统计效能(statistical power)。
在交错双重差分(DID)研究设计中,传统的双向固定效应估计值常常难以准确揭示因果关系。为解决这一问题,学术界已经提出了多种创新的估计方法。尽管这些新方法在适应性上有所增强,但它们也带来了更大的方差,这可能会削弱统计检验的效能。这意味着,细微的效应更难以被捕捉。更令人担忧的是,在统计效能不足的情况下,即使某些估计结果看似达到了显著性,它们也可能存在偏差,甚至被严重夸大。
通过对美国各州数据的模拟分析,本研究指出,最新开发的交错DID估计值在效应大小达到10%至15%时,才能确保统计检验具有80%的效能。此外,在统计显著性的前提下,当干预的效应较弱时,约有10%的模拟结果显示了错误的符号,并且平均高估了实际效应数百倍。本研究还利用上市公司的数据,深入探讨了进行交错DID分析所需的样本规模。结果表明,根据不同的因变量和效应大小,即使是效率最高的估计方法,通常也需要至少250个样本单位才能获得合理的统计效能。
最后,本文讨论了研究人员在应用交错DID模型之前,应如何进行"设计分析"。此外,本文还探讨了在特定条件下,如何通过重新设计研究(例如,通过观察州级政策在县级层面的效果)来提高研究的统计效能。
大概介绍:
关于多期DID或交叠DID: 1.
DID相关前沿问题“政策交错执行+堆叠DID+事件研究”, 附完整slides
,2.
交错(渐进)DID中, 用TWFE估计处理效应的问题, 及Bacon分解识别估计偏误
,3.
典范! 这篇AER在一图表里用了所有DID最新进展方法, 审稿人直接服了!
4.
最新Sun和Abraham(2020)和TWFE估计多期或交错DID并绘图展示结果!详细解读code!
5.
多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习
,6.
多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等
,7.
交叠DID中平行趋势检验, 事件研究图绘制, 安慰剂检验的保姆级程序指南!
8.
系统梳理DID最新进展: 从多期DID的潜在问题到当前主流解决方法和代码!
9.
标准DID中的平行趋势检验,动态效应, 安慰剂检验, 预期效应教程
,10.
DID从经典到前沿方法的保姆级教程, 释放最完整数据和代码!
统计功效已成为社会科学研究中的一个热点话题。如果研究的统计功效不足,我们可能无法捕捉到实际存在的效应。更糟糕的是,即便我们检测到了某些效应,得出的估计值也可能普遍偏高,甚至可能指向完全相反的方向。
缺乏足够统计功效的研究检验可能不会提供太多有用信息,在某些极端情况下,这样的研究结果甚至可能误导我们。目前,许多看似离奇且不稳定的研究结果,很可能就是受到了统计功效不足的影响。那么,要进行一次信息量充足的DID分析,我们究竟需要多少数据?当数据中的噪声水平上升,或者误差项不再独立同分布时,情况又会如何变化?
为了深入探讨这些问题,作者在真实世界数据的基础上模拟了政策干预的效果,这样做可以自然地反映出实际数据的复杂性。尽管使用完全模拟的数据可以排除一些干扰因素,但要全面考虑数据生成过程中的所有相关因素,仍然是一个巨大的挑战。
通过这些模拟,我们能够更清晰地认识到,在进行DID分析时,确保数据量充足的重要性。这不仅关系到我们能否检测到显著的效应,也关系到我们的研究结果是否具有说服力和可靠性。
在这篇论文的初步研究中,作者通过模拟实验,探讨了一个政策干预对美国50个州在21年间的opioid类药物过量死亡率的影响。尽管样本量超过了1000,但即便是10%这样显著的效应,要达到统计上的显著性依然充满挑战,这使得对许多重要政策干预措施进行可靠研究变得困难。
统计上显著的估计往往会高估实际效应。特别是对于5%的效应,这种高估现象尤为明显。尽管对于非常大的效应大小,高估的影响可能变得不那么显著,但问题仍然存在。
接下来,作者进一步探讨了进行此类研究所需的样本量。通过对20年的面板数据进行分析,研究了对公司收入(以自然对数形式表示)的干预措施的影响。结果显示,要研究一个能够使公司收入增加5%的干预措施,至少需要250家公司的数据。
然而,与公司其他重要的经营指标相比,以自然对数形式表示的收入相对容易研究。作者进一步将这一指标与同一面板数据中的资产回报率(ROA)进行了比较。结果发现,即使是能够使ROA增加10%的干预措施,也因样本量不足而缺乏足够的统计功效,需要超过1000家公司的数据才能进行有效研究。
在探究非独立同分布误差项对研究结果的影响时,作者巧妙地在公司面板数据中进行了模拟实验,特意打乱了时间序列的顺序,以此与保持原有时间序列顺序的基准情景进行对比分析。结果表明,不同估计方法的效果存在显著差异,这一发现对于选择适当的统计模型具有重要意义。
在观察性研究中,单纯增加样本量往往不足以解决所有问题。为了提高研究的统计功效,作者提出了一些切实可行的策略:首先,寻找与研究目标密切相关但结构更为简单的结果变量;其次,探索减少数据中的噪声或自相关性的方法。
在某些情况下,通过简单的数据转换,比如对数转换,可以有效地降低噪声,但这同时也意味着需要对数据的函数形式做出不同的假设。在这方面,Sekhon在随机对照试验(RCT)的背景下提供了宝贵的建议,比如对因变量进行差分处理,以提高研究的统计功效(更多细节可参见相关论文)。
此外,作者还探讨了在州级政策干预的情境下,通过收集县级数据是否能够提升研究的统计功效。尽管结果并不如预期,但这可能与州内不同地区的处理效应有关。
结论1:在进行观察性研究时,我们必须认真对待统计功效的问题。即使样本量庞大,如果结果变量本身非常复杂,研究仍可能面临挑战。重要的是要认识到,一个设计精良的研究,如果其干预检验缺乏足够的统计功效,那么其结果可能缺乏足够的信息价值。
结论2:本研究提供了一些在固定样本大小的观察性研究环境中提高统计功效的指导,有助于研究者更有效地规划和执行研究。
结论3:在选择不同的估计方法时,除了考虑它们的统计功效(例如,自相关系数大约为0或1时的功效差异),还需要考虑它们在假设和解释上的差异。统计功效虽然重要,但并非选择估计方法时唯一需要考虑的因素。
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题
,
Econometrics Circle