专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

学术期刊尝试众包同行评审，初期成效显著

DeepTech深科技 · 公众号 · 科技媒体 · 2017-06-13 15:30

正文

同行评审的作用理论上相当于科学界的卫生检查。由一些经验丰富的科学家对提交的论文进行审核，如果论文能够经得住他们客观公正的反复推敲，就能获得发表。不过，同行评审环节中的一些问题也不容忽视。

近日，德国学者、同时也是学术期刊编辑的本杰明·李斯特（Benjamin List）和他的研究生助教丹尼斯·霍夫勒（Denis Höfler）共同想出了一个办法，来提升同行评审的效率。他们称其为“ 优选众包同行评审 ”。

图 | Cecilia Gudín

同行评审的弊端

从期刊编辑的角度来看，一个略显刻薄却又不失准确的看法是这样的：一些有权提前阅读论文的老人家，根据他们审稿时的情绪状态、吃药情况以及记忆力的好坏， 论文评审结果会是以下三种情况之一 ：

一种情况是，这些老人家把论文的事忘了个干净，徒留作者等到海枯石烂——要知道， 学术成果的多寡可是和已刊发的论文数量挂钩的 ，论文被延期就意味着该阶段科研成果为零。
还有一种情况就是，尽管这些老人家记得论文这回事， 但他们并不重视 ，只留下一堆疑似随机写就的空洞且毫无帮助的评论。
最有（糟）趣（心）的情况莫过于，某些评审发现， 作者的研究成果恰好是自己想做的， 那么他哪怕一辈子只做评审，也绝不会让论文发表。

同行评审过程中极大的不确定性会使人抓狂。论文延期会让编辑抓狂，同时相关的评审负担也会加重。即便人人都尽自己最大的努力，但上述三类评审能够对论文全盘否定，导致编辑不得不重新审视自己的决策——但是，没有一个编辑会愿意这么做。

一项新的改进举措

笔者想要表达的核心观点是， 同行评审工作负担太重，而且有时候几乎毫无意义。

那么，有什么改进方法吗？

主流的思路是去 调整评审的流程 。对此很多学术期刊都进行过尝试，尽管都收效甚微。出版后同行评审（即先发表论文，然后再由科学家去审议）不失为一种替代办法，但这很大程度上依赖“群体参与度”。

况且，万一某人的论文干巴巴的，发表后评论区长草的话，出版前同行评审将会是该论文唯一确定被人读过的时机。

鉴于此，李斯特（化学期刊 Synlett 的编辑）和霍夫勒召集了100位学者参与一项审稿试验。他们搭建了一个论坛式的评论系统，评审人可以对提交的论文进行匿名评论，还能就彼此的评论加以讨论。

作为对照，这些提交到论坛的论文同时也在用传统方式进行同行评审。论文作者和期刊编辑共同对两种方法的孰优孰劣作出客观评价。结果是： 百人组胜出。

尽管编辑认为，将论坛上的评论进行整合写入报告比较麻烦，但就总体而言依旧十分高效，论文作者对此更是深表满意。尤其是百人组只要几天就能完成的评审，传统组则通常需要4～6周。

更为重要的一点是，相较于传统的两至四人组而言， 百人组的评论明显更有分量，且更为实用。 虽说到目前为止李斯特团队还没有正式发表试验的结果，但即便如此，Synlett 期刊已经开始对所有投稿的论文启用了这项新的评审机制。

为什么众包评审更有效？

现在回到和编辑相关的话题上来。这里不妨用将传统的同行评审比作模拟信号中的“噪音”。模拟信号中的噪音可不仅仅是底噪，还包括信号产生过程中不可避免的噪音。区别之处在于 噪音量和信号量的大小对比 。

在极低频信号中，监测到的都是噪音，但在非常高频的信号中，噪音几乎可以忽略不计，即便在总量上这里的噪音要高于极低频信号当中的噪音。

诸位令人尊敬的同行们， 他们有时并不严谨的评论也被当作客观的对待 ，借由上文中并不贴切的噪音的比喻，在一个四人同行评审小组中，有两位发出的是噪音；相比之下，百人团队里可能只有十个人发出噪音。从总体上来说，10个人的数字大于两个人；但是在百人的大环境下，论文的优劣会更一目了然。

上文中不是刚提到说，审稿人已经过劳了吗？这样一来，会不会加重他们的负担呢？其实并没有。经由这一方式进行评审的论文会发表在 Synlett 期刊上，且 稿件延误的时间从数周降至数日，同时论文作者也纷纷表示评论走心。

由于论坛是开放式的，因此每一个评审都能看到评论区盖的楼（之前评审留下的评论）；而且因为评论区迟早要关闭，因此评审只有两个选择，要么现在就写评论，要么永远不要写，没可能把编辑晾个三礼拜再来通知：“哎呀，我没时间呢”。

笔者认为，众包评审（之所以能成功） 还有一个心理学上的原因 。当评审是两至四人小组的一员时，他内心深知，有百分之七十五的评论是在扯淡（显然是另外几位在扯淡而不是自己），因此他必须“慢慢来”、“谨慎行事”。

时间陷阱

评审工作的耗时体现在以下几个方面：首先，论文中所涉及的知识很难全部落在评审人的知识框架内。因此，评审人熟悉的内容会审核得飞快，只需稍作考量，便可给出一针见血的评论。可一旦碰到不熟悉的内容，审稿的速度就不得不慢下来，一点一点去弄清楚。

因此， 审核的结果通常是洞见中夹杂着胡乱猜想的混合体 。

举个简单的例子。

论文作者在引言里写下一段陈述，并就该陈述引用一个出自早些时候的论文作为论据。倘若评审对该内容了如指掌，那么对于被引用的内容便不会陌生，做到速战速决。

倘若该陈述所涉及的内容恰好是在评审人知识体系的边缘呢？这时，评审人不得不作出选择：