2023年11月6日,
Nature
公布了一项
未发表
的关于论文造假的数据分析,数据显示,
在过去的20年里,已经发表了40多万篇与“论文工厂”的文章在文本上很相似的研究,仅仅在2022年,就有7万篇
。
分析估计,2022年发表的所有科学论文中,
有1.5-2%与“论文工厂”的文章非常相似,生物医学是重灾区,在生物医学领域,这一比例上升到3%
。
为了应对“论文工厂”,伦敦学术数据服务公司的研究人员开发了一款名为Papermill Alarm的机器学习软件,分析显示,“论文工厂”文章的比例是一个合理的保守估计。
9月,一项名为STM Integrity Hub的跨出版商倡议,旨在帮助出版商打击科学造假,授权了Papermill Alarm软件,以检测潜在的造假文章。
伦敦学术数据服务公司的研究人员表示,
“文本相似性”
是目前我们所拥有的最好的方法,但也可能存在误判,因此,他通过对照已知是真的或造假的论文来验证结果,从而将误判率接近零。
研究人员还表示,
“论文工厂”的文章并不是均匀分布在期刊上,而是集中在特定的期刊上,但他们不会公开透露是哪些特定的期刊
。
2022年6月,一份报告显示,对于大多数期刊来说,2%的提交论文可能来自“论文工厂”,但对一些期刊来说,这一数字可能高于40%。
STM Integrity Hub诚信总监表示,过去几年,出版商加大了打击“论文工厂”的力度,他们现在有70多种方法来筛查“论文工厂”的文章。
①遵循通用的模板
②与论文作者不对应的可疑电子邮件地址
③来自中国医院的电子邮件地址(因为这个问题在中国非常普遍)
④声称代表不同实验的相同图表
⑤表明努力避免抄袭检测的明显的措辞
⑥引用其他“论文工厂”的研究
⑦跨期刊重复提交
全球最大的撤稿数据库Retraction Watch网站记录了44000篇撤稿,其中与“论文工厂”相关的不到3000篇,该网站的创始人表示,这个数字被低估了,因为数据库维护人员仍在输入数千个撤稿信息,并且一些出版商在撤稿通知中避免使用“论文工厂”这个术语。
总之,无论如何,“论文工厂”已经让出版商的系统不堪重负,论文造假很严重,生物医学领域是重灾区。
论文链接:
https://doi.org/10.1038/d41586-023-03464-x