撤稿观察(Retraction Watch)网站的特约编辑,以及法国研究机构的两名专门研究伪造出版物检测的计算机科学家,花了六个月对论文工厂展开了调查。他们发现,失衡的学术评价体系,以及对利益的贪婪追逐催生了论文工厂,激增的垃圾论文正在赶走科学家,杀死所有人。
来源:Pixabay
编译 菡萏
美国韦恩州立大学
(Wayne State University)
的肿瘤学家
史蒂文·泽尔斯基
(Steven Zielske)
发现自己遇到了麻烦。
他和同事正在研究一项课题,想要搞清楚细胞中的一类特定化学反应是否有希望成为治疗前列腺癌的药物靶点。好消息是,他们发现了一篇 2018 年发表于《美国癌症研究杂志》
(American Journal of Cancer Research)
上的论文,证明一种名为 SNHG1 的分子可能会与正在探索的化学反应相互作用。坏消息是,他与同事开展了 N 项延续性实验,没有一个能复现出这篇论文的结果。
泽尔斯基对这篇论文产生了怀疑。他注意到,研究中使用不同细胞系得出的两张数据图表完全相同,这巧合得过于离谱,就像“闭着眼睛把水倒进两个杯子里,两边高度还完全一样”。文章中的其他图表里也莫名其妙地包含着重复数据。
显然,泽尔斯基遇到了学术造假。他把这篇论文曝光在了 PubPeer 上,不久,期刊就以“数据捏造”的理由撤下了这篇论文。然而,困扰泽尔斯基的问题并没有解决。他检索了所有研究 SNHG1 分子与癌症关系的论文(大约 150 篇),发现它们的作者几乎全都来自中国医院,并且“大多数”文章看上去都是假的——很多研究中使用的引物牛头不对马嘴,甚至是胡编出来的。更糟糕的是,SNHG1 分子确实在前列腺癌中发挥作用,但这些
同行们产出的“学术垃圾”极大地扰乱了人们的研究视野,以至于泽尔斯基在提交 SNHG1 主题的基金申请时惨遭拒绝——一个评审专家认为“这个赛道已经很拥挤了”,没必要继续资助
。
如果泽尔斯基的遭遇可以被称作不幸,那么澳大利亚悉尼大学
(University of Sydney)
教授詹妮弗·伯恩
(Jennifer Byrne)
的经历就堪称悲壮了。这名癌症专家发现,自己职业生涯前期发现的一个与乳腺癌有关的孤儿基因,多年后突然被“同行”扎堆“挖坟”——新出现的 40 多篇论文很多都共享同一组数据或同一个存在缺陷的基因序列,使用类似的 RNA 修饰技术,甚至连图注的字体都是一样的。
在向期刊发出质疑后,伯恩
得到回复称,
“挖坟”论文的作者承认数据是从一家商业生物技术公司处获得的,但并没有透露对方的名称。尽管部分问题论文已被撤稿,但
伯恩无法忍受自己的研究心血被论文工厂用来造假。愤怒的她关闭了自己的实验室,转换了工作方向,自此投身癌症领域的学术打假和诚信研究
。
道高一尺,魔高一丈
论文工厂问题是学术界的毒瘤——这已经成为了不争的事实。一项基于撤稿观察数据库的最新统计显示,2023 年全球论文撤稿数量较上一年激增 3.5 倍,超过 1.4 万篇,论文工厂难辞其咎。更糟糕的是,未来我们可能会被更多的“工厂文”淹没。一家位于拉脱维亚的论文工厂骄傲地在其网站写道,自 2012 年来这条生产线“已经将至少 1.2 万篇论文送上学术期刊”,而这只是这个黑色产业中的沧海一粟。
2023 年全球论文撤稿数量较上一年激增 3.5 倍,超过 1.4 万篇,论文工厂难辞其咎
在学术界庞大的“反诈”需求下,近年来一批初创技术公司如雨后春笋般涌现,帮助出版商、学者和研究机构监测潜在的造假行为。这类服务大多根据论文工厂“产品”中常见的怪异词汇和语言特点来识别“工厂文”。英国数据服务公司“晴空”
(Clear Skies)
开发了多种基于数据的造假检测技术和软件,2022 年推出的
“论文工厂预警”
(Papermill Alarm)
就是其中一种。这种软件通过深度学习算法,将论文标题和摘要的语言与来自论文工厂的文章进行比对,从而识别出与之相似的论文——这可以在论文投稿早期被用作手稿筛查。还有一家美国公司在 2024 年推出了一个名为 Scitility 的查询平台,能帮助学者调查合作对象是否存在撤稿或学术不端的“黑历史”。
检测工具能够根据特定的“怪异词汇”定位可疑论文
然而,层出不穷的检测工具没能吓退论文工厂。一项针对 6 家出版商的 5.3 万篇投稿的分析发现,部分期刊收到的可疑论文的比例高达 46%。出版巨头威立
(Wiley)
则明确表示,在投稿检测工具投入使用后,
期刊每收到的 7 篇投稿中就会有 1 篇被警告存在“论文工厂”嫌疑
。另一家大型出版商泰勒和弗朗西斯出版集团
(Taylor & Francis)
则表示,
2023 年该公司处理的近 4000 个研究诚信案例中,一半都与论文工厂有关
。
讽刺的是,“论文工厂预警”软件的开发者亚当·戴伊
(Adam Day)
说,该软件推出后
第一个来咨询的用户竟然是一个论文工厂的“厂长”
。显然,对方希望提前获得使用权限,这样就能够在“产品出货”之前确保它不会被期刊编辑识破。
疯狂的评价体系
没有人知道第一家论文工厂什么时候在哪里诞生,但从人们将“绩效评估”这一方法引入学术界开始,就种下了这类不光彩手段的种子。科学论文不再是推动人类认知边界的“知识单位”,而是变成了用于评估和奖励科学生产力的“计量单位”。
同行之间的数字竞赛这不仅将影响因子和 h 指数
(h-index)
捧上神坛,还带来了论文的“通货膨胀”。现在,每篇新论文所代表的知识增量越来越小,价值越来越低。为了更好的职业前景,卷发表成为了学者换取更好职业前景的必经之路。科研界的疯狂内卷自此拉开帷幕。
一些学者为了构建自己的职业竞争力,选择主动内卷。《自然》新闻
(
Nature
News)
2023 年的一项报道显示,
在过去 10 年内,每年发表超过 60 篇论文的研究人员数量增加了 4 倍
,其中大部分作者来自临床医学,这个领域正是近年来撤稿频发的重灾区。此外,有 1266 名非物理学作者几乎每 5 天(包括周末)就能发表一篇论文,比如来自西班牙的化学家拉斐尔·卢克
(Rafael Luque)
在 2023 年
每 37 小时就能发表一项研究
;还有一位瑞士地球科学家在招聘博士后时收到了
一位来自中国的博士简历,这位 31 岁的候选人手握 160 篇 Scopus 索引论文,在他获得博士学位的那一年,就发表了 62 篇
。
不过卷王毕竟是少数,顶着职业压力拼产出才是更普遍的常态。为了追赶顶尖研究大国,很多发展中国家将晋升与奖金直接与发表挂钩。以埃及为例,该国最高大学委员会规定,要获得正教授职称,候选人必须在 2 年内至少发表5篇论文。在 Scopus 或 Web of Science 索引期刊上发表的研究不仅会获得额外加分,而且能帮助申请人进入评估后免于进一步审查。发表刊物的影响因子越高,得分也就越多。
变形的晋升与奖励机制,加上直白的利益驱动,那些选择“铤而走险”的人,被系统塞进了论文工厂的客户池。
是论文工厂,也是审稿工厂
一本期刊的同行评审制度,是前者取信于学界的核心。实际上,为了加快自己的论文发表速度,一些不道德的学者会组成审稿小圈子,踩在自己积累下的学术资源上进行利益交换。另一方面,一些出版商在利益驱使下,会有意挑选那些更有可能不拒稿的审稿人,因为拒绝一篇投稿就意味着期刊将失去数千美元的收入。
在这条原本就存在漏洞的链条上,论文工厂以一种更直接的方式开始摧毁同行评审的含金量。为了确保“货品如期交付”,论文工厂不仅会模仿真实的科学家,捏造出一个假的同行评审专家,还会贿赂编辑,或者在期刊编委会中安插“内线”。最近两年,进步飞速的人工智能大语言模型令这种情况雪上加霜:
一项 2024 年的调查发现,越来越多的审稿意见来自 ChatGPT 和类似的 AI 工具
。
来自西班牙塞维利亚大学
(University of Seville)
的教授玛丽亚·德·洛斯·安赫莱斯·奥维耶多-加西亚
(María de los Ángeles Oviedo-García)
,利用自己的业余时间在各个科学领域中寻找可疑的同行评审,在 PubPeer 上标记了数百条有问题的审稿意见。其中一些短得像朋友圈,还有一些直接要求作者引用自己毫无关联的研究,甚至还有许多评审意见出现在了其他完全不同研究的审稿报告里——在她看来,
这全都是“审稿工厂”的证据
。
奥维耶多-加西亚找到的审稿工厂证据
回到故事的开头,被论文工厂的“垃圾产品”干扰而痛失研究资助的泽尔斯基重整旗鼓,在第二年申请时专门向评审专家说明了这条赛道看起来很拥挤的原因——大部分论文都是捏造的,最终获得了资助。
转而从事学术打假和学术诚信的伯恩在改行的那一年当选了《自然》评选的年度十大人物。2022 年,她向美国国会提交了一份报告,里面记载着她带领团队筛选了 1.2 万篇癌症论文后获得的论文工厂证据。
泽尔斯基和伯恩都清楚,自己身边环绕着大量的虚假论文,在这种情况下做研究就像“在垃圾堆里游泳”。如果放任不管,它们终将杀死所有人。
原文链接:
https://theconversation.com/fake-papers-are-contaminating-the-worlds-scientific-literature-fueling-a-corrupt-industry-and-slowing-legitimate-lifesaving-medical-research-246224
本文来自微信公众号“环球科学科研圈”。如需转载,请在后台回复“转载”,或通过公众号菜单与我们取得联系。相关内容禁止用于营销宣传。