专栏名称: 香樟经济学术圈
香樟经济学术圈是经济研究平台,于2014年10月9日成立。平台主要为读者推送经典经济学术论文,发布“香樟经济学论坛”、“CEC Workshop"和学术研讨会等相关公告。希望平台能够为发展社会主义市场经济理论贡献微薄之力,感谢您的关注!
目录
相关文章推荐
财宝宝  ·  第一次看到这么说话的 ... ·  3 天前  
VOCs前沿  ·  蛇年开工大吉 ·  3 天前  
51好读  ›  专栏  ›  香樟经济学术圈

【香樟推文3389】经济学发表的P值操纵

香樟经济学术圈  · 公众号  ·  · 2024-12-15 07:30

正文

图片来源:timoelliott.com


原文信息: Brodeur, Abel, Mathias Lé, Marc Sangnier, and Yanos Zylberberg. 2016. "Star Wars: The Empirics Strike Back." American Economic Journal: Applied Economics, 8 (1): 1–32.

Brodeur, Abel, Scott Carrell, David Figlio, and Lester Lusher. 2023. "Unpacking P-hacking and Publication Bias." American Economic Review, 113 (11): 2974–3002.


相关阅读:

【香樟推文2261】学习经济学会使你富有吗?

【香樟推文2978】经济学发表的漫长周期


If you torture the data long enough, it will confess.

——Ronald Coase

如果你折磨数据足够长的时间,它们会招供的。

——罗纳德·科斯


01

引言


在学术出版的世界中,研究人员不仅承载着发现真理的理想,更面对着现实的压力:显著性结果被认为是通往顶级期刊的“通行证”。当期刊倾向于接受具有显著性结果的研究,未能达成显著性结果的研究被忽视或埋没,发表偏倚(Publication Bias)便产生了。


这一问题由Sterling在1959年便已提出,他警告选择性发表可能导致研究领域的集体认知偏差。顶级期刊对显著性结果的“特殊待遇”不仅诱使研究人员选择性报告,更可能导致P值操纵(P-hacking)。例如,研究者可以通过选择性报告、调整数据或优化统计方法,人为获得显著P值(通常小于0.05)。


在经济学领域,论文发表的压力同样明显。统计显著性,特别是以三颗星号(***)标注的结果,已经成为经济学学术成果的“硬通货”。在这样的文化下,研究人员是否会倾向于调整模型、选择数据,甚至操控统计方法以“制造”显著结果?Brodeur 等人试图用一系列的研究揭开谜底。


顶级期刊中的P值操纵

02


在Star Wars: The Empirics Strike Back一文中,为了定量分析经济学领域的发表偏倚,作者收集了2005 至2011 年三大顶级期刊American Economics Review(AER)、Journal of Political Economy(JPE)和The Quarterly Journal of Economics(QJE)发表文章汇报的统计值,形成了超过50000个统计量的数据集。


分析过程中,作者聚焦于每篇论文中的“核心假设检验”,即研究的主要发现,而非控制变量或次要结果。这是因为“核心假设检验”的结果更有可能成为P值操纵的对象。为实现统一比较,作者将所有统计结果标准化为z分数,为不同类型测试之间的比较提供了公平的基础。


在学术研究中,统计检验的Z值反映了研究结果的显著性。如果零假设成立,我们通常预期Z值分布呈现一种平滑的下降曲线,也就是Z值越高,出现的概率越低。然而,Brodeur 等人的研究揭示了一种不同寻常的双峰分布(如下图所示),在Z值约等于1.96的位置出现了一个高峰(对应的P值为0.05,即常用的显著性水平)。同时,在Z值位于1.65到1.95的范围内(对应于P值在0.10到0.05之间),可以观察到显著的下降趋势。这可能因为研究人员或多或少对显著结果进行了处理,使其达到可发表的显著性水平。


Figure 1. Distributions of z-Statistics


为深入剖析这一现象,作者建立了一个研究框架,将选择偏倚(期刊偏好显著性结果)与研究人员的操纵行为(调整模型以获得显著性)分离开来。结果显示,单靠选择偏倚不足以解释这一分布,而操纵行为则扮演了重要角色。根据作者的估算,在P值略低于0.05的实证结果中,约10%至20%的结果可能是P值操纵产物。


此外,作者发现P值操纵现象在以下情境下更为明显:


  • 缺乏坚实理论模型支撑的论文;


  • 使用非实验性数据的研究;


  • 由年轻、未获得终身教职的研究人员撰写的论文。


这些发现与直觉相符:理论基础薄弱的研究更依赖显著性吸引关注,而年轻研究者则因发表压力更倾向于“膨胀”其结果。


Table 1. Caliper Test, Author Heterogeneity in Initial Submissions


03

主要结果


P值操纵和发表偏倚并非新问题。 已有研究指出,这些现象在心理学、医学以及经济学等多个领域均广泛存在。 然而,现有文献多集中于已发表论文的分析,忽视了从投稿到发表的全过程。


Brodeur等人发表在AER的Unpacking p-Hacking and Publication Bias填补了这一空白。他们的研究不仅关注已发表论文,还分析了初稿、编辑直接拒稿、审稿人建议修改以及最终接受的稿件,为深入理解显著性结果在不同阶段的重要性提供了独特视角。

研究团队收集了2013年至2018年间提交至顶尖经济学期刊《人力资源杂志》(Journal of Human Resources, JHR)的约700篇手稿,涵盖超过20,000个检验统计量。这些统计量主要来自主结果表格,排除了总结统计、附录和稳健性检验的数据。与前文相同,作者为确保数据准确性,将报告的系数和标准误转换为Z统计量和P值。与前文相同,z统计量同样出现了明显的双峰分布。


Figure 2 . Distributions of z-statistics and p-values for Initial Submissions versus z-statistics from Brodeur, Cook, and Heyes (2020)


Brodeur等人采用了多种统计工具来分析数据集,重点评估显著性阈值附近的异常分布。他们发现:


(1)在初始提交的论文中,存在明显的P值操纵现象。研究发现,在统计显著性临界值附近出现了P值的集中分布,这可能是因为作者在提交前可能对P值进行了调整。


(2)被直接拒稿的论文更容易集中在10%的显著性水平附近。那些被直接拒绝的论文在10%显著性水平附近集中更为明显,这可能意味着质量较低的论文更容易被拒绝。


(3)审稿人推荐与统计显著性呈正相关。数据显示,统计显著性越高的论文更容易获得审稿人的积极推荐。由于编辑通常依赖审稿人的建议来决定接受哪些论文,因此初稿和终稿之间的统计分布变化不大。


(4)同行评审对统计显著性分布的影响有限。从初始提交到最终接受的论文中,其统计显著性分布变化不大,这表明同行评审过程并没有加剧或缓解P值操纵的问题。


(5)作者是造成P值操纵的主要原因。虽然确实存在发表偏见,但其影响有限。本文研究表明,许多作者在研究过程中存在选择性报告结果等行为,这是P值操纵的主要因素。


怎么办?

04


P值操纵对学术研究的影响是巨大的。如果大量已发表研究结果源自操控行为,整个学术领域的知识体系将变得不可靠。这不仅危害到研究人员之间的信任,也可能误导基于这些研究制定政策的政府和组织,甚至影响普通公众的福祉。


更为严重的是,这种现象可能形成恶性循环。在显著性结果继续被优待的情况下,研究者被迫采取更复杂的操控方式,以满足期刊要求。结果是,一个与真实世界脱节的学术文献逐渐形成,最终对学术进步形成阻碍。


为应对这一问题,作者建议通过以下措施增强研究透明度:


(1)数据和代码共享。强制要求作者提交数据和代码。


(2)对研究进行“预注册”。推广研究设计的预注册和预分析计划,减少选择性报告。


(3)避免过度依赖星号。采用置信区间等更全面的指标替代显著性标识。


(4)鼓励编辑评估研究的潜在贡献,而非过度依赖统计显著性。鼓励发表“无显著性结果”的研究,减少发表偏倚。







请到「今天看啥」查看全文