专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
虎嗅APP  ·  开网店不烧钱,也能稳稳成长? ·  昨天  
安徽高院  ·  天平上的玫瑰 ·  昨天  
科技每日推送  ·  邀请码炒到10万元!全球首款“主动干活”AI ... ·  2 天前  
极客公园  ·  AI Agent 的「GPT ... ·  3 天前  
51好读  ›  专栏  ›  DeepTech深科技

学术期刊尝试众包同行评审,初期成效显著

DeepTech深科技  · 公众号  · 科技媒体  · 2017-06-13 15:30

正文


同行评审的作用理论上相当于科学界的卫生检查。由一些经验丰富的科学家对提交的论文进行审核,如果论文能够经得住他们客观公正的反复推敲,就能获得发表。不过,同行评审环节中的一些问题也不容忽视。


近日,德国学者、同时也是学术期刊编辑的本杰明·李斯特(Benjamin List)和他的研究生助教丹尼斯·霍夫勒(Denis Höfler)共同想出了一个办法,来提升同行评审的效率。他们称其为“ 优选众包同行评审 ”。


图 | Cecilia Gudín


同行评审的弊端


从期刊编辑的角度来看,一个略显刻薄却又不失准确的看法是这样的:一些有权提前阅读论文的老人家,根据他们审稿时的情绪状态、吃药情况以及记忆力的好坏, 论文评审结果会是以下三种情况之一


  • 一种情况是,这些老人家把论文的事忘了个干净,徒留作者等到海枯石烂——要知道, 学术成果的多寡可是和已刊发的论文数量挂钩的 ,论文被延期就意味着该阶段科研成果为零。

  • 还有一种情况就是,尽管 这些老人家 记得论文这回事, 但他们并不重视 ,只留下一堆疑似随机写就的空洞且毫无帮助的评论。


  • 最有(糟)趣(心)的情况莫过于,某些评审发现, 作者的研究成果恰好是自己想做的, 那么他哪怕一辈子只做评审,也绝不会让论文发表。


同行评审过程中极大的不确定性会使人抓狂。论文延期会让编辑抓狂,同时相关的评审负担也会加重。即便人人都尽自己最大的努力,但上述三类评审能够对论文全盘否定,导致编辑不得不重新审视自己的决策——但是,没有一个编辑会愿意这么做。


一项新的改进举措


笔者想要表达的核心观点是, 同行评审工作负担太重,而且有时候几乎毫无意义。


那么,有什么改进方法吗?


主流的思路是去 调整评审的流程 。对此很多学术期刊都进行过尝试,尽管都收效甚微。出版后同行评审(即先发表论文,然后再由科学家去审议)不失为一种替代办法,但这很大程度上依赖“群体参与度”。


况且,万一某人的论文干巴巴的,发表后评论区长草的话,出版前同行评审将会是该论文唯一确定被人读过的时机。


鉴于此,李斯特(化学期刊 Synlett 的编辑)和霍夫勒召集了100位学者参与一项审稿试验。他们搭建了一个论坛式的评论系统,评审人可以对提交的论文进行匿名评论,还能就彼此的评论加以讨论。


作为对照,这些提交到论坛的论文同时也在用传统方式进行同行评审。论文作者和期刊编辑共同对两种方法的孰优孰劣作出客观评价。结果是: 百人组胜出。


尽管编辑认为,将论坛上的评论进行整合写入报告比较麻烦,但就总体而言依旧十分高效,论文作者对此更是深表满意。尤其是百人组只要几天就能完成的评审,传统组则通常需要4~6周。


更为重要的一点是,相较于传统的两至四人组而言, 百人组的评论明显更有分量,且更为实用。 虽说到目前为止李斯特团队还没有正式发表试验的结果,但即便如此,Synlett 期刊已经开始对所有投稿的论文启用了这项新的评审机制。


为什么众包评审更有效?


现在回到和编辑相关的话题上来。这里不妨用将传统的同行评审比作模拟信号中的“噪音”。模拟信号中的噪音可不仅仅是底噪,还包括信号产生过程中不可避免的噪音。区别之处在于 噪音量和信号量的大小对比


在极低频信号中,监测到的都是噪音,但在非常高频的信号中,噪音几乎可以忽略不计,即便在总量上这里的噪音要高于极低频信号当中的噪音。


诸位令人尊敬的同行们, 他们有时并不严谨的评论也被当作客观的对待 ,借由上文中并不贴切的噪音的比喻,在一个四人同行评审小组中,有两位发出的是噪音;相比之下,百人团队里可能只有十个人发出噪音。从总体上来说,10个人的数字大于两个人;但是在百人的大环境下,论文的优劣会更一目了然。


上文中不是刚提到说,审稿人已经过劳了吗?这样一来,会不会加重他们的负担呢?其实并没有。经由这一方式进行评审的论文会发表在 Synlett 期刊上,且 稿件延误的时间从数周降至数日,同时论文作者也纷纷表示评论走心。


由于论坛是开放式的,因此每一个评审都能看到评论区盖的楼(之前评审留下的评论);而且因为评论区迟早要关闭,因此评审只有两个选择,要么现在就写评论,要么永远不要写,没可能把编辑晾个三礼拜再来通知:“哎呀,我没时间呢”。


笔者认为,众包评审(之所以能成功) 还有一个心理学上的原因 。当评审是两至四人小组的一员时,他内心深知,有百分之七十五的评论是在扯淡(显然是另外几位在扯淡而不是自己),因此他必须“慢慢来”、“谨慎行事”。


时间陷阱


评审工作的耗时体现在以下几个方面: 首先,论文中所涉及的知识很难全部落在评审人的知识框架内。因此,评审人熟悉的内容会审核得飞快,只需稍作考量,便可给出一针见血的评论。可一旦碰到不熟悉的内容,审稿的速度就不得不慢下来,一点一点去弄清楚。


因此, 审核的结果通常是洞见中夹杂着胡乱猜想的混合体


举个简单的例子。


论文作者在引言里写下一段陈述,并就该陈述引用一个出自早些时候的论文作为论据。倘若评审对该内容了如指掌,那么对于被引用的内容便不会陌生,做到速战速决。


倘若该陈述所涉及的内容恰好是在评审人知识体系的边缘呢?这时,评审人不得不作出选择:







请到「今天看啥」查看全文