AEJ: 星星***大战: 实证的反击, 实证的反击！

计量经济圈 · 公众号 · 财经 · 2024-09-27 18:56

正文

凡是搞计量经济的，都关注这个号了

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

接着“当看到期刊1整期都是DID实证设计, 就不自主地想起了这篇AER文章作为reminder”，今天继续看看AEJ上的《星星**大战: 实证的反击》。

在本研究中，作者发现了一些备受尊崇的经济学术期刊中检验统计量的分布存在误分配的现象。本文的分析显示，这种误分配的模式与所谓的“通胀偏差”现象相符：研究者可能会倾向于通过选择稍微更显著的计量模型来提升那些几乎被拒绝的检验值。还对这种通胀偏差进行了量化分析：在边际显著的检验中，有10%到20%的结果被错误地报告。这些数据可能仅仅是实际误分配的下限，因为本研究在收集和估算过程中采取了保守的方法。

本研究的发现在一定程度上支持了p-hacking现象的存在，这进一步证实了对数据可重复性的重视和实施预分析计划的必要性。

*实证研究不得不面对p-hacking问题，不然会让很多中青年学者对实证研究持有怀疑态度。类似地文章，TOP5: 终于能侦探出你有没有操纵P值了！瑟瑟发抖！

简要说明：

在学术界，论文作者与其他人员之间存在显著的信息不对称现象。正如Olken在2015年所指出的，普遍的看法是“研究者本质上是有偏见的，他们会进行尽可能多的数据挖掘，直到找到他们想要的结果。”这种观念深刻影响了审稿人和编辑的行为，他们常常要求作者提供额外的稳健性检验。(诺奖科斯: 如果你不断地‘拷打逼问’数据，连上帝也会屈服的)

学者们引入的规范——如95%或90%的置信度，以及引人注目的星标元素***，导致学术界更倾向于接受那些带有边际显著性系数的星标研究，而忽视那些没有星标且边际不显著的研究。Sterling在1959年所强调的，这种倾向性可能会影响期刊论文的筛选过程，进而导致倾向于发表那些拒绝null假设的检验结果。这种选择并非毫无根据，因为设定规范的初衷是为了清晰地区分被拒绝和被接受的假设。

这种选择性的后果可能导致研究者预见到其研究想法可能遭遇的障碍。例如，他们可能会对那些具有较高p值的论文进行更严格的审查，或者只追求那些刚好达到显著性水平的研究设计，而忽略那些刚好不显著的设计，以此来提高论文被发表的可能性。这种行为对已发表检验结果的分布产生了不同的影响。

经济学领域的检验文献自1980年代以来迅速发展，已经揭示了作者在选择模型设计时的策略性行为的重要性。例如，Leamer和Leonard在1983年以及Leamer在1985年指出，从线性回归中估计的系数所推导出的结论对基础的计量经济学模型极为敏感。他们建议应该展示一系列模型所产生的推论的范围。Leamer在1983年驳斥了一个从物理科学继承而来的神话，即计量经济学的推论与先验假设无关：根据对可接受计量模型的先验假设，可以同时展示死刑对犯罪率的正面和负面影响（玄乎）。

最近，Gelman和Loken在2014年讨论了数据分析选择如何可能依赖于数据本身，即使所检验的假设直接源自理论关注。本文的一个贡献是记录了这种计量模型选择的潜在结果。此外，本文的研究还与所谓的文件抽屉问题或选择偏差的广泛文献相关：低值统计量往往被期刊所忽视。

众多学术出版物已经对选择性偏差如何影响已发表研究结果进行了量化分析。例如，Ashenfelter、Harmon和Oosterbeek在1999年对Mincer方程进行的荟萃分析中，揭示了对显著和正向教育回报的偏好性选择偏差。Card和Krueger在1995年以及Doucouliagos、Stanley和Giles在2012年的研究，也是处理发表偏差问题的荟萃分析的典型例子。Havránek通过跨时间替代估计的荟萃分析，探讨了选择性报告实践所导致的偏差。在医学文献和心理科学领域，选择性偏差问题同样受到了广泛关注。此外，Auspurg和Hinz在2011年、Gerber和Malhotra在2008年的两项研究、Gerber等人在2010年以及Masicampo和Lalande在2012年，都收集了社会学、政治学和心理学期刊中的检验分布数据。

在本研究中“Star Wars: The Empirics Strike Back”，作者收集了2005年至2011年间在AER、JPE、QJE上发表的大量检验统计量。这一收集过程涵盖了50,078个检验，分为3,389个表格（或结果小节）和641篇文章。这样大规模的检验数据能够揭示已发表检验分布中的细微模式，并允许根据作者和文章特征进行子样本分析。

本研究的发现在一定程度上支持了p-hacking现象的存在，这进一步证实了对数据可重复性的重视和实施预分析计划的必要性。特别是，作者识别出了与通胀偏差相关的论文和作者特征，如使用吸引眼球的元素或处于终身教职轨道的职位。此外，通胀偏差还与实证分析的类型（例如随机对照试验）以及理论贡献的存在有关。

正如Fanelli在2009年所指出的，对通胀偏差的担忧在科学界引起了广泛的关注。这种关注自然导致了对减少选择性偏差和通胀偏差的呼声，学术界越来越倾向于追求“正确性”而非仅仅追求“发表”。例如，《the Journal of Negative Results in BioMedecine和the Journal of Errology》的创立，就是为了给研究者提供一个发布非显著发现的平台。此外，也有提议采用密封信封提交的方式。同样，预分析计划也被提出，并在自然科学和社会科学中得到应用，如Miguel等在2014年在经济学领域的相关研究，以减少数据挖掘的可能性。

在本篇论文中，作者提供了证据表明，学术界的经济学家会对出版激励做出反应，这一发现为上述担忧提供了一定的合理性。虽然本研究记录的扭曲现象可以被视为相对适度，但将本研究的方法应用到其他学科中，尤其是那些被认为激励机制更可能导致扭曲的领域，例如医学领域的FDA审批流程，也将会是非常有趣的研究课题。

具体作者是如何识别出来Star war的呢?

如果期刊的接受标准与检验统计量的值成正比关系，那么在提交的论文中，最终被发表的比例应该会随着检验统计量的增加而增加。基于这一假设，本文构建了一种会计框架，该框架适用于分析任何已发表检验统计量的分布。这种方法使我们能够识别出已发表统计量分布中由选择过程所导致的一部分，并从中提取出那些无法仅通过选择过程来解释的残余部分。我们将这部分残余residual称为“膨胀”，因为它能够捕捉到部分行为反应。

为何会预期已发表的统计量分布与发表概率的增加不相符，并且这种不符与研究者的行为有所关联？可以设想存在三种研究结果：第一种是明显拒绝null假设的检验（绿灯），第二种是明显接受null假设的检验（红灯），第三种是结果不确定的检验（黄灯），即那些接近5%或10%的统计显著性阈值但尚未达到的检验。

假设（i）研究者在初次遇到不确定结果时，更倾向于修改研究以获得明显拒绝null假设的检验，而不是明显接受null假设的检验；并且（ii）将不确定结果转变为明显拒绝null假设的边际收益，要高于将明显接受null假设的检验转变为不确定结果的收益。在这种情况下，所观察到的统计分布可能会因为不确定结果转变为明显拒绝null假设的结果而发生偏移，这种模式与我们对选择过程的假设不一致。

实际上，与那些明显拒绝null假设的检验相比，结果不确定的检验数量往往偏少，这与选择性偏差是一致的；然而，与那些明显接受null假设的检验相比，结果不确定的检验数量同样偏少。从图表上看，我们应该能够观察到：（i）第一个峰值，（ii）一个低谷（p值约为0.15的检验数量不足，类似于p值为0.30的检验不受欢迎），以及（iii）一个回声峰值（p值略低于0.05的检验数量过多，就像p值远低于0.001的检验更受欢迎）。

本文找到了这种双峰模式的实证证据。在2005年至2011年期间，三本享有盛誉的经济学期刊上发表的检验统计量分布明显低于边际不显著的统计量，与显著统计量以及非常不显著的统计量相比。简而言之，一旦检验被标准化为z统计量，其分布呈现出类似双峰骆驼的形状，具有以下特点：（i）低z统计量的第一个峰值，（ii）在1.2和1.65之间缺失的z统计量（对应的p值在0.25和0.10之间），在1.5（p值为0.12）附近有一个局部最小值，以及（iii）在2到4之间的第二个峰值（对应的p值略低于0.05）。

本文的会计框架能够证明，这种非单调模式不能仅用选择性偏差来解释，假设选择在z统计量上应该是弱递增的。因此，存在一个较大的残差，我们称之为“膨胀”。我们发现，10%到20%的p值在0.05和0.0001之间的检验被错误地分配：那些在0.10阈值之前缺失的检验统计量可以在0.05阈值之后找到。

*群友可直接在社群下载AEJ全文PDF。
Reference: Brodeur, Abel, Mathias Lé, Marc Sangnier, and Yanos Zylberberg. 2016. "Star Wars: The Empirics Strike Back." American Economic Journal: Applied Economics, 8 (1): 1–32.
相关主题，参看：1.实证研究中的P值: 误解, 操纵及改进, 探析P值操纵表现及原因,提出相应的改进策略，2.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚！3.DID和IV操纵空间大吗? 一切皆为P-hacking，4.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗？5.显著不显著的后背是什么, 非(半)参估计里解决内生性，6.科学家倡议P值需要0.005，显著性判断才成立，7.X与Y负相关但回归系数却为正? OLS不显著但2SLS却显著？8.统计上不显著的变量表明该变量对结果变量没有影响吗？9.IV与Y在理论上无直接关系, 但用Y对IV做回归发现IV是显著的, 这是咋回事？10.继JDE之后, 又一期刊重磅宣告"不显著的结果仍可以发表" 11.前沿, 终于有人解释为什么顶刊上很少有不显著的结果发表! 背后机理？12.回归中常数项显著说明模型中有遗漏变量问题？13.关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留？14.为什么回归系数不显著? 15.添加一个新变量能使以前不显著的变量变得显著了？16.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了？17.结果不显著但成功发在Top期刊上的论文有哪些？你心虚过没？18.交互效应显著的几种情况, 列出了6种类型，19.试了几百次, 回归结果依然不显著, 到底咋办，20.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚！21.800名科学家联合呼吁, 停止使用统计学上的P值，22.美国统计学会关于ｐ值的声明，23.美国宣布禁用p值，原来p值很危险，如何取代p值？

7年，计量经济圈近2000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。