在许多学科里,研究结果的显著性是由P值进行判断的。P值被用来证明或证伪某个“零假设”。零假设一般假定被研究的效应并不存在。某批结果统计出来的P值越小,它们是随机因素造成的可能性就越低。当P值小于0.05时可以认为结果是“统计显著的”。
但是许多科学家担心,0.05的阈值在文献中造成了太多假阳性。而P值操纵
(P hacking)
的存在使情况变得雪上加霜。许多研究者在没有理论假设的情况下搜集数据,然后再寻找结果中具有统计显著性的数据模式,这就是P值操纵。
在7月22日发表在预印本网站PsyArXiv上的一篇文稿引起了轰动。该论文的作者提出,
社会科学和生物医学的P值阈值应当被调低至0.005。
该论文的终稿发表在了《自然-人类行为》
(
Nature Human Behaviour
)
上。
该论文的第一作者之一、南加州大学经济学家Daniel Benjamin 表示:“研究者们并没有意识到,当P值等于0.05时他们的证据有多么弱。”他认为P值在0.05和0.005之间的结果应该被视为“提示性的证据”,而不是确凿的事实。
这篇论文的作者名单里有两位可重复性领域响当当的人物:斯坦福大学专攻科学证据可靠度的John Ioannidis,以及开放科学中心
(Center for Open Science)
的执行总监Brian Nosek。