ICLR被曝巨大黑幕, 评审和作者竟私下勾结? 49.9%论文疑有AI审稿

轻松参会 · 公众号 · · 2024-05-10 11:24

正文

新智元报道

编辑：好困乔杨

【新智元导读】正在召开的ICLR 2024会议上，成为关注热点的不仅有耀眼的成果和学术明星，关于论文的审稿程序也掀起了一波讨论。大会官方对网上热议的「串通」行为做出了回应，学界关心的「AI辅助审稿」问题也在ICLR 2024的背景下有了相关的研究进展。

由于规格高、论文多，顶会论文审稿过程的公平性和透明度，向来是业界关注和争议的焦点。

本届ICLR在放榜后就有人在Reddit上发帖，质疑委员会接收了违反匿名政策的论文，且没有在评审过程中遵守双盲原则。

而且这种情况绝不是个例。ICLR官方发布的文章表示，关于审稿过程的问题已经收到了7000多封意见书。

很快，随着大会正式拉开帷幕，ICLR也亲自下场表示，目前已经针对这种「串通」行为展开了调查。

所谓Collusion（串通）就是，一些审稿人通过操纵投标系统与特定作者匹配。

不仅如此，部分领域主席（AC）可能也通过类似的方式操作系统并指派同谋的审稿人。

然后，这些审稿人就会给出极高的评价，从而提高论文被接收的可能性。

对此，ICLR表示：

- 目前已发现多起审稿人与作者之间的勾结行为，其中一些案例有直接证据。

- 这些行为均直接违反了道德守则。

- 道德委员会正审查，并评估可能的处罚。

AI辅助审稿

除此之外，关于评审委员会在审稿时能否使用AI工具的问题也一直饱受争议。

相比其他顶会，ICLR审稿较为独特的一点在于，无论是否被接受，每篇论文的评分和评审意见都会被公开发布。

于是，来自洛桑联邦理工学院的研究人员，就利用ICLR 2024的相关公开数据，研究了用AI进行辅助评审的情况。

这篇论文不仅揭示了评审过程中可能存在的大范围使用AI辅助工具的情况，也采用对比分析的方法研究了这种行为对评审结果可能存在的影响。

论文地址：https://arxiv.org/abs/2405.02150

论文作者首先采用了一个商用的LLM检测器GPTZero来评估所有的文字评审意见。GPTZero可以将给定文本分为「完全由人类生成」，「完全由AI生成」和「混合生成」三类，并给出相应的置信度。

这篇研究中，如果GPTZero认为「完全由人类生成」的置信度低于0.5，则被认定为使用了AI辅助。结果显示，AI辅助评审比想象中的更广泛。

2024年评委们给出的28028条评审意见中至少有15.8%是由AI辅助生成的，全部接收文章中的49.9%收到了至少一条由GPTZero判定为AI辅助的评审意见。

基于GPTZero的检测结果，论文继续研究AI辅助生成的评论是否会对论文的评分和接受率产生影响。

文章包括三部分，第一部分分析AI参与审稿的范围，第二、三部分研究AI辅助可能产生的影响

对于每篇既有AI辅助评审意见又有人类评审意见的论文，作者收集了这些等级制评分的结果（包含5个等级：1分、3分、5分、6分、8分），并使用了比例赔率模型（proportional odds model）拟合估计AI辅助评审会打出更高分数的可能性。

总体上，AI给论文的评分会高于人类。对于一篇给定的论文，AI评分有53.4%的可能性高于人类评分。

无论在哪个分数区间，AI辅助评审打出的分数相比人类都会更高

为了研究AI辅助的评审意见会如何影响论文入选结果，作者从全部论文中挑选了内容相似的文章匹配成对，其中一篇全部被判定为由人类评审，另一篇则只含有一条AI辅助评审，且除去AI的给分后，审稿委员会为它们打出了完全相同的分数。

通过以上标准筛选出5132个论文样本后，作者对比了它们的接收情况从而分析AI辅助评分的影响。

总体而言，一条AI辅助的评分让论文有3.1%的更高可能入选，而且对于评分徘徊在接收分数线边缘的论文，这个数字还会提升到4.9%。

评分在5～6分、处于接收线边缘时，AI评分会对论文入选有正面影响

近年来大语言模型的快速发展，尤其是ChatGPT诞生后，学术界就涌现出了对AI参与审稿过程的质疑，自己工作都在「996」的教授们面对审稿的重担很有可能让大语言模型帮自己撰写评审意见。

这篇论文探究了当今顶会的审稿现状，通过控制变量的方法追踪并量化了因果关系，进而揭示了AI辅助评审对论文接收结果可能产生的影响。

ICLR被曝巨大黑幕, 评审和作者竟私下勾结? 49.9%论文疑有AI审稿

正文

(adsbygoogle = window.adsbygoogle || []).push({});

新智元报道

请到「今天看啥」查看全文