👇 连享会 · 推文导航 |
www.lianxh.cn
作者
:章青慈 (中央财经大学)
邮箱
:[email protected]
编者按
:本文主要摘译自下文,特此致谢!
Source
:Pérignon C, Akmansoy O, Hurlin C, et al. Reproducibility of Empirical Results: Evidence from 1,000 Tests in Finance[J]. Available at SSRN, 2022.
-PDF-
温馨提示:
文中链接在微信中无法生效。请点击底部
「阅读原文」
。或直接长按/扫描如下二维码,直达原文:
目录
1. 文章简介
2. 数据和实验设计
2.1 数据来源
2.2 研究团队工作
2.3 量化实证结果的再现性
2.4 识别再现性的影响因素
3. 主要结论
3.1 确定再现性的影响因素
3.2 预期的再现性和挑战
4. 总结
5. 相关推文
1. 文章简介
再现性 (Reproducibility) 是科研成果的重要要求,但几乎所有计算科学领域都面临再现论文实证结果的难题。这一问题通常是由数据或代码不可得造成的,然而即使所有资源都能够使用,我们也可能无法完全再现研究成果。
本文旨在探究何种因素影响实证结果的再现性。不同于以往研究再现性的工作 (尝试再现发表论文的研究成果),本文通过分析 168 个国际研究团队针对 6 个相同的金融问题提供的 1000+ 实证答案计算了再现性,研究发现:
第一,无论是研究人员的资历,还是研究论文的质量似乎都与实证结果的再现性无关;
第二,研究人员对于自身研究的再现性过度乐观,倾向于低估同行复制其结果的困难;
第三,对于编程技能较强、在重现方面花费较多心思的研究者,研究结果的再现性更强;对于技术要求较高、实现代码较复杂的问题,研究结果的可再现性较差。
2. 数据和实验设计
2.1 数据来源
本文使用的数据由 Deutsche Börse 数据库提供,数据集包含 2002-2018 年间欧洲斯托克 50 指数的 7.2 亿条交易记录。
2.2 研究团队工作
基于上述数据,168 个研究团队对以下 6 个问题开展研究工作:
对于每个研究问题,团队要计算并报告效应量 (effect size) 和标准误的估计值,并提交结果实现的软件代码,概述再现研究结果的操作步骤。
2.3 量化实证结果的再现性
对于每个研究团队的 6 个研究问题,都要进行再现性水平打分。作者以通用数据集为基础,按照研究团队提供的操作步骤运行计算机代码,并计算 6 个研究问题的效果量和标准误。对于每一个参数,原始结果和再生结果之间的差异若小于原始结果的 10%,可以认为差异很小,大于原始结果的 10% 则认为是差异很大。最后,对于每个研究问题,可重复性得分分布在 0-100 之间,如下表所示。每个研究团队的再现性得分由 6 个问题的得分进行平均得到。
如下图所示,所有研究团队的可重复性得分均值为 63.0,中位数为 83.3。
2.4 识别再现性的影响因素
为了识别再现性的影响因素,本文构建了一个指标集,涵盖了学术研究的六大方面:
下表为前定变量 (pre-determined covariates) 描述性统计,其中 a 标注表示数据记录在研究团队层面,b 标注表示由同行评估所得,* 标注表示该指标为 0-1 二元变量。
下表为共同确定变量 (co-determined covariates) 描述性统计。
3. 主要结论
3.1 确定再现性的影响因素
本文分别对前定变量和共同确定变量进行再现性的逻辑回归:
其中,
表示实证结果再现性的取值 (可完全再现=1,不可完全再现=0),
是前定变量 (共同确定变量) 的指标矩阵,
是要估计的系数向量。由于再现性的影响因素涉及多个维度,作者对每一类的细分指标进行主成分分析,使用最大的主成分和细分指标分别进行回归。
对于前定变量集的回归 (见下表) 可以发现:在模型 (1) 中,所有变量的联合瓦尔德检验在统计意义上显著,表明这一组前定变量对再现性得分具有一定解释作用。在研究团队的学术水平方面,没有证据表明这一因素对完全再现性有显著的影响。这一结果是令人惊讶的,因为人们通常期望经验丰富且更成功的研究人员能产生更易于重现的结果。
在编程技能方面,相关变量的第一大主成分显著增加了成果再现的可能性;在模型 (2) 中单个系数估计表明,是否使用循环对于再现性的影响较大。在研究问题方面,技术要求较低的 RQ3 和 RQ5 的成果再现性较强,概念抽象且技术要求高的 RQ1 的成果再现性较差。
对于共同确定变量集的回归 (见下表) 可以发现:所有变量的联合瓦尔德检验在统计意义上显著,表明这一组共同确定变量对再现性得分具有一定解释作用,而模型 (4) 的联合瓦尔德检验是不显著的。在论文质量方面,没有证据表明这一因素对完全再现性有显著的影响,这一结果同样是令人惊讶的。
此外,代码复杂程度和计算机文件质量的主成分回归结果均显著,而单个因素则不显著,出现这一情况的可能原因是:主成分占横截面变异性的份额较小。作者认为代码复杂性和文档质量的主成分不能合理地提取到单个维度,这个主成分缺乏现实意义。对单个因素的估计更为合理,缺乏统计证据来拒绝零假设,即代码复杂性和文档质量与计算再现性的可能性无关。
3.2 预期的再现性和挑战
研究团队需要回答关于自身研究结果再现性的两个问题:
第一,您认为有可能根据原始数据和计算机代码再现研究您的结果吗?
研究团队的预期和实际再现结果的比较如下图所示:
预期层面:70.5% 的研究团队认为他们的结果是完全可重现的,仅有 29.5% 的团队认为结果会存在差异。94.6% 的研究团队认为再现他们的结果很容易,剩余 5.4% 认为存在一定挑战,没有一个团队认为再现他们的成果是非常困难的。
现实层面:只有 28.3% 的研究结果是完全可重现的,大部分再现结果与原始结果存在差异。仅 62% 团队的研究结果是容易再现的,剩余 38% 团队的研究结果是存在一定挑战、甚至非常困难的。
可见,许多研究人员没有意识到,他们的成果是难以重现的。
4. 总结
本文通过分析 168 个国际研究团队对 6 个研究问题提供的 1000 多个答案,计算了研究结果的再现性。研究发现,可再现性与资历、学术地位、软件、性别或团队结构无关,实际产生影响的是使用循环进行编程、建立主文件夹或准备电子自述文件等。
研究结果的含义:一方面,缺乏再现性是普遍存在的,不仅限于某一类研究人员;另一方面,任何研究人员都可以采取行动,确保其研究实际上是可再现的。换句话说,再现性取决于你做的工作,而不是你的身份。一些提高再现性的简单措施:
5. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 重现 复现 再现, m