近年来,以ICLR、NeurIPS、ICML等为代表的机器学习会议投稿量爆炸式增长。在短短6年间,ICML的投稿量翻了四倍。
这给现有的同行评审(Peer Review)制度带来巨大压力。每位审稿人被要求在短时间内阅读大量文章并给出审稿意见,做出「生死判决」。随着ChatGPT的出现,大量审稿意见甚至直接由AI生成。
这导致了同行评审质量的严重下降。最优秀的论文被拒,而较差的论文反而被接收。对于众多机器学习和人工智能领域的从业者来说,这种现象已经司空见惯。
审稿质量太差已经逐渐成为每次顶级会议后必谈的主题。这是因为一个有经验的审稿人往往需要多年的培养。在面对大量投稿时,优质审稿人早已成为「稀缺资源」。
由于增加优质审稿人或给每位分配更多的论文是不现实的,我们或许可以要求投稿作者提供信息来协助会议决策。
在此背景下,宾夕法尼亚大学统计系和计算机系的苏炜杰教授团队提出了一种创新的审稿方法:「我审我自己」。
论文链接:https://arxiv.org/abs/2408.13430
该方法的核心理念是让作者对自己的论文进行排序,从而为同行评审提供一个新的参考维度。团队同时提出保序机制(Isotonic Mechanism)对审稿人的打分作出调整,赋予每篇文章一个校准后的评分(Isotonic Score),以满足作者提供的排序。
该团队与OpenReview在ICML 2023会议期间进行了一项实验,邀请作者们对自己提交的论文进行排名,以此来测试校准后的评分是否更好地体现了文章的质量。
团队的实验在社交媒体上获得了广泛讨论。
实验结果发现,相比于原始评分(会议审稿人给出的平均分),校准后的评分能更准确地反映论文质量。
校准后,评分与理论上的真实评分(Ground Truth)之间的均方误差(Mean Squared Error)和绝对误差(Mean Absolute Error)显著减少。
此外,团队提出了几种将该机制应用于评审过程的低风险方法,以确保实际使用中有益无害。
这些方法包括:
1. 辅助Senior Area Chair的决策;
2. 优化论文奖项评选流程;
3. 在审稿质量不佳时引入紧急审稿人。
保序机制简介
假设投稿人提交了n篇论文,保序机制要求投稿人提供对这n篇论文质量的排序π,然后结合审稿人给出的原始平均评分y = (y1, y2, …, yn),通过解出一个凸优化问题得出校准后的评分——可以理解为对原始评分的调整,使其符合排序π。
数学上,这个凸优化问题表示为:
实验流程
团队建立了官方网站(https://openrank.cc)并与OpenReview合作,完成了该实验。在ICML截止日期1月26号当天,所有ICML作者都收到了一封邀请他们参加实验的邮件。
以下是ICML 2023实验中投稿人所看到的界面示例。可以发现,界面中并没有让作者提供实际文字评价的部分,只要求作者对投稿文章进行排序。
摘要性统计量(Summery Statistics)
在这次实验中,共有5634位作者完成了问卷调查,占总作者数的30.4%。其中,有1342位作者提交了多篇论文并进行了排名。共有2592篇论文至少被一位作者排名,占总提交量的39.6%。
此外,单个作者最多排名了17篇论文。
在实验中,59.8%的作者对他们的排名非常自信。相反,多数作者对原始评分的信心严重不足:近半数作者认为自排最差论文的实际评分超过最好论文的概率超过40%。
在评估校准后评分表现时,主要的难点在于提交论文的真实评分未知。一篇论文通常获得多个评分,所以我们假设y^avg和y'是同一论文的两个独立评分,并且都被视为真实评分的无偏估计(unbiased estimator)。
我们使用y^iso来表示基于y^avg的校准后评分。我们使用欧几里得距离(L2 distance)
和
, 来衡量y^iso与y^avg的表现。
这称之为校准后评分和原始评分的代理均方误差(Proxy MSE)。数学上,我们可以证明
是真实均方误差的无偏估计。
因此,如果要y^iso在均方误差方面优于y^avg,那么y^iso 的代理均方误差也会比 y^avg 小,反之亦然。
另外,将L2 distance换为L1 distance,
和
,即得到了校准后评分和原始评分的代理绝对误差(Proxy MAE)。
实验结果表明,该团队提出的三种不同的保序机制普遍能够降低20%的代理均方误差和10%的代理绝对误差。
此外,在95%置信水平(confidence level)上,校准后评分的真实均方误差比原始评分低0.4以上。这表明在评估论文质量时,校准后评分具有更高的准确性。
从直方图中可以明显看出,相比原始评分的误差(蓝色部分),校准后评分的误差(红色部分)显著偏向y轴。
作者还发现,随着提交数量的增多,保序机制在估计准确性上有显著提升。这意味着,如果更多的作者提供他们的排名,通过保序机制可以实现更显著的误差降低。
在提交数量为2~10篇之间时,均方误差(MSE)平均降低25%,绝对误差(MAE)平均降低14%;在提交数量大于11篇时,均方误差(MSE)平均降低41%,绝对误差(MAE)平均降低22%。
综上所述,校准后评分比原始评分更准确反映真实评分。此外,作者还提出了以下三种温和且谨慎的应用,确保在应用中有益无害。
审查Area Chairs的建议
背景问题:
在获得原始评分后,Area Chairs会对每篇文章进行初步判断(初步接受/拒绝建议),然后由Senior Area Chairs审查这些建议,并做出最终决定。但由于时间有限,Senior Area Chairs无法逐个审查。
解决思路:
保序机制可用于标记需要Senior Area Chairs仔细审查的投稿。在此应用场景中,校准后评分仅显示给Senior Area Chairs 或 Program Chairs,以便他们更有效地监督Area Chairs的建议。
具体措施:
如果论文的校准后评分与Area Chairs的建议之间存在显著差异,Senior Area Chairs可以要求Area Chairs进一步审查该投稿,而不必说明原因。
Best Paper评选
背景问题:
在传统的奖项评选机制中,平均分高或被Area Chairs提名的论文会组成候选名单,由委员会进一步审查以确定获奖者。然而这些决策常常引发争议,甚至不恰当的论文被评为最佳论文奖(Best Paper Award)。一些获奖论文遭到领域内专家的一致反对。
作为隐私领域的领军人物之一,Vitaly Feldman专门写文章指出了获奖论文中的错误。