专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

AgentReview: 利用 LLM Agents 探究同行评审机制

AI TIME 论道 · 公众号 · · 2024-11-02 18:00

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击 阅读原文 观看作者讲解回放！

在学术界，同行评审制度（peer review）对论文质量和科学研究公平性至关重要。然而，随着投稿数量激增，以及评审过程更加复杂，传统的评审模式正面临诸多挑战。如评审中的偏见(bias )及评审质量不稳定等。当前很多工作致力于分析并解决这些问题。传统分析方法基于对真实数据的统计，不能很好地分析单个变量对评审结果的影响。另外，调研真实世界的审稿数据也意味着可能有隐私泄露等问题，如审稿人身份。我们提出了 AgentReview，这是首个基于大型语言模型（LLM）的同行评审模拟框架，有效解决了上述问题。通过AgentReview，我们能够在不使用真实评审数据的情况下，通过控制变量的对比实验，模拟同行评审过程，分析其中多种隐性因素及其对评审结果的影响。这不仅解决了数据隐私的问题，也为同行评审机制的设计提供了新的见解。同时，我们发现了很多有趣的现象，如评审者偏见的影响。这些现象同很多社会学理论相关，如altruistic fatigue（利他主义疲劳）和authority bias（权威偏见）等。文章已被EMNLP 2024 main track录用，评分为444。

标题：AgentReview: Exploring Peer Review Dynamics with LLM Agents
arXiv： https:// arxiv.org/abs/2406.1270 8
网站：https://AgentReview.github.io

引言

同行评审（Peer Review）是学术出版的重要环节。许多研究 peer review 的工作基于真实评审数据，面临多个挑战：

多变量性质（Multivariate Nature）：真实世界的评审结果受多个因素影响，如reviewer专业知识、area chair做决定的方式以及评审机制等多种因素影响，难以区分单一变量的作用；
潜在变量（Latent Variables）：很多变量，如审稿人的偏见和意图，是难以量化的，却可能显著影响评审结果；
隐私顾虑（Privacy Concerns）：评审数据敏感，可能泄露审稿人身份，调查这些数据可能导致伦理问题或影响审稿人未来参与意愿。

图1: 我们提出了AgentReview，它可以灵活配置审稿流程各个部分，以进行受控实验。通过分离同行评审中的多个变量，从而深入研究这些变量对评审结果的影响。我们的研究结果与既有的社会学理论一致。

本研究引入了 AgentReview 框架，可根据需要灵活定制不同特征的审稿人（reviewer）、作者（author）、领域主席（area chair），以及评审机制（review mechanism），有助于系统地分析同行评审中各参与方的作用与影响。

【实验】我们使用了四届 ICLR 会议（ICLR2020 -- ICLR 2023）的真实文章作为输入，根据超过500篇paper生成了超过 53,800 份评审文档，包括review、metareview、author rebuttal、reviewer-AC discussions 等。由于评审的参与者均为LLM Agents，AgentReview无需使用真实评审数据即可获得统计显著性见解，保护了审稿人隐私。

我们的研究发现如下：

社会影响（Social Influence）：审稿人在讨论阶段后往往会调整其评分以与其他审稿人保持一致，这是由于从众心理的压力所致。
利他疲劳与同伴效应（Altruism Fatigue and Peer Effects）：一位审稿人在撰写审稿意见时不够投入，便可导致所有审稿人在讨论阶段（Phase III. ）的投入度显著下降。这表明少数审稿人的消极态度会间接影响其他参与者。
群体思维与回音室效应（Groupthink and Echo Chamber Effects）：恶意审稿人通过互动会放大彼此的负面意见。这可能导致有这些审稿人的评分下降，并产生溢出效应（Spillover Effects），影响到正常审稿人的判断，使其评分下降。
权威偏见与光环效应（Authority Bias and Halo Effects）：审稿人倾向于认为知名作者的稿件更加准确，这在当前arXiv提交成为常态的情况下尤为重要。当所有审稿人知晓论文的作者身份时，决策有概率会发生显著的变化。
锚定偏见（Anchoring Bias）：尽管 Phase II. Reviewer-Author Discussion（Rebuttal）阶段旨在回应审稿人担忧和关切，但它对最终结果的影响相比其他因素（如审稿人意图、责任心和专业知识）较小。这可能是由于审稿人过度依赖于对论文的最初印象所导致的锚定偏见。

我们的贡献体现在三个方面：

多功能框架：AgentReview是首个利用大型语言模型代理来模拟整个同行评审过程的框架；
全面的数据集：我们通过模拟创建了一个大规模数据集，包含超过53,800份生成的review、rebuttal、更新后的 review、metareview和最终决定；
新颖的见解：我们的研究揭示了几个重要的发现，这些发现与社会学理论相契合。

AgentReview

框架概览

AgentReview 框架提供了一个可扩展的平台，用于研究不同利益相关者和评审机制设计对评审结果的影响。框架遵循自然语言处理（NLP）和机器学习（ML）会议的常规评审流程。

审稿人 (Reviewer) 在同行评审中起核心作用，其评审质量由三个关键维度决定：投入度（Commitment）、意图（Intention）和专业性（Knowledgeability）。其中，投入度指审稿人的责任感；意图为评审动机，是否真诚帮助作者改进；专业性则衡量审稿人在论文主题领域的专业知识。基于这三个维度，我们将审稿人分为负责与不负责、善意与恶意、知识渊博与知识匮乏这几类。

作者 (Author) 提交论文，并在reviewer与area chair (AC) 讨论期间对初步评审意见提出rebuttal。尽管通常采用双盲评审制度，但作者仍可能通过预印本或社交媒体公开其作品，从而泄露身份。因此我们考虑了审稿人知悉作者身份和未知晓两种情况，以探讨匿名性对评审过程的影响。

领域主席 (Area Chair) 负责促进评审讨论、通过接收审稿人意见、作者rebuttal并结合自身意见做出最终决策。我们从领域主席的决策过程将其分为三类：

权威型：优先考虑自己的意见决定paper录用，而忽视审稿人意见；
从众型：优先考虑审稿人意见，仅通过 reviewers 的意见决定paper录用；
包容型：综合审稿人意见和自己的专业知识决定paper录用。

评审流程

AgentReview采用结构化的五阶段流程模拟同行评审：

Phase I. Reviewer Assessment ：三位审稿人独立撰写论文审稿意见；
Phase II. Author-Reviewer Discussion ：作者针对评审意见提出rebuttal；
Phase III. Reviewer-AC Discussion ：领域主席 (AC) 组织审稿人重新评估并更新意见；
Phase IV. Meta-Review Compilation ：领域主席 (AC) 整合前三阶段的讨论写metareview；
Phase V. Paper Decision ：领域主席 (AC) 根据 metareview 决定论文的接收或拒稿。我们固定接受率为32%，和真实世界保持一致。每位AC负责一批10篇论文，接受3至4篇。

图2: 本文采用的五阶段审稿流程。实心黑箭头 -> 表示作者关系，蓝色虚线箭头 --> 表示可见性关系。

数据选择

我们选择了ICLR 2020年至2023年的论文数据集，该数据集包括523篇论文（350篇拒稿、125篇poster 、29篇spotlight和19篇oral)，涵盖了不同质量层次的论文，以全面反映真实会议的投稿质量。

Baseline

我们将没有任何特定角色设计的agent的数据作为baseline，这允许我们探究单变量对结果的影响。

实验结果

审稿人

结果概述

我们观察每个阶段审稿人给出的评分，表1展示了我们设定的三位审稿人起始评分和最后的评分的平均分和标准差。可以看到在所有的设定下，审稿人给出的评分逐渐变得接近，特别是在负责和知识渊博的审稿人设定中尤为明显。这符合社会影响这一经典社会学理论。

表1：我们给出了审稿人与作者讨论前后的评审分数（图2中的Phase III）。Initial 和 Final分别表示审稿人在Phase I和Phase III的评分。

同时，我们注意到负责、善意、知识渊博的审稿人给出的评分通常要比不负责、恶意、知识匮乏的审稿人给出的分数要高；最终的分数普遍要比最初的分数有所提高。这说明了交流和讨论是非常重要的。

审稿人投入度

评审投入不足和从众心理会导致评审质量下降，表现为讨论后评审字数减少和评分降低，影响学术审查的可靠性。这两种现象和利他疲惫，群体思考心理学效应保持一致。

评审字数减少：将一位正常审稿人替换为不负责的审稿人后讨论阶段的评审字数从平均195.5词降至159词，减少了18.7%
评分降低：如表三所示，将两位正常审稿人替换为不负责的审稿人后，平均审稿分从5.256减少到5.005，产生了0.25的显著降幅。

表3：正常审稿人被不负责任的审稿人逐步替换时的平均评分变化情况。‘#’表示各类评审人的数量。表的左侧显示正常审稿人的平均评分，右侧显示不负责任的审稿人的平均评分。+/− 表示rebuttal后平均评分的变化。

审稿人意图

恶意审稿人会导致评分显著下降和放大论文缺陷，这两种现象符合社会冲突理论和回音室效应。另外在内容上，恶意审稿人更倾向于批评论文缺乏新颖性，表述不清晰这些缺陷。