这个月ICML、ACL、KDD等会议陆续开奖,许多群友表示审稿意见并不能令其信服。在此转载一篇新智元之前发布的旧闻。
本文
转载自新智元公众号
一篇ICLR 2020的论文在拿到完美的满分评价(8-8-8)后,额外的两位审稿人连续给了2个1分评价。你怎么看?
帖子中说的这篇“满分论文”题为
Recurrent Hierarchical Topic-Guided Neural Language Models
,论文提出一种新颖的更大上下文(larger-context)的语言模型来同时捕获语法和语义,并声称该模型能够生成高度可解释的句子和段落。
ICLR 2020采用Open Review 进行评审,每篇论文一般分配3名审稿人,分数区间为1-8分。不过实际上审稿人能给的分数只有4个档次:
1(reject),3(weak reject),6(weak accept),8(accept)
因此,这篇论文最终评分
(8-8-8-1-1)
的结果,令不少人感到吃惊和不解。
让我们先还原一下故事线:
首先,我们来看一下这篇论文的简要内容,以及5位审稿人的评审意见。
论文地址:
https://openreview.net/forum?id=Byl1W1rtvH
标题:Recurrent Hierarchical Topic-Guided Neural Language Models
一句话总结:我们提出一种新颖的更大上下文(larger-context)的语言模型来同时捕获语法和语义,使它能够生成高度可解释的句子和段落
摘要:
为了从文本语料库中同时捕获语法和语义,我们提出了一个新的larger-context 语言模型,该模型通过动态的深度主题模型来提取递归的分层语义结构,以指导自然语言的生成。该模型超越了传统的忽略长程词依赖关系和句子顺序的语言模型,不仅捕捉了句子内的单词依赖,而且捕捉了句子间的时间转换和主题依赖。为了进行推理,我们将随机梯度MCMC和递归自编码变分贝叶斯相结合。在大量真实文本语料库上的实验结果表明,该模型不仅优于最先进的larger-context 语言模型,而且能够学习可解释的递归多层主题,生成语法正确、语义连贯的各种句子和段落。
关键词:
贝叶斯深度学习,recurrent gamma belief net,更大上下文的语言模型,变分推理,句子生成,段落生成
评审4:
经验评估:我阅读过该领域的大量论文。
评分:1:拒绝
审稿人4对这篇论文给出了最低分“1”,他评价道:本文提出了一种将文档级主题模型信息集成到语言模型的技术,虽然其基本思想很有趣,但他认为最大的问题是论文一开始的误导性断言。在第一节的第二段,论文声称基于RNN的LMs经常在句子之间做出独立的假设,因此他们开发了一个主题建模方法来对文档级信息建模。他一一列举了论文中关于这一断言的存在的问题。
评审5:
经验评估:我在这个领域已经多年发表论文。
评分:1:拒绝
审稿人5认为这篇论文的模型描述很混乱,许多陈述没有适当或足够的理由。他仔细列举了论据,最后评论道,虽然论文有一些有趣的结果,并且与其他模型相比PPLx最低,但他不认为这篇论文可以接收。
评审1:
经验评估:我阅读过该领域的大量论文。
评分:8:接收
审稿人1对这篇论文给出了最高分:8分,评审意见总结道:这是一篇写得很好的论文,表达清晰,有一定的新意。该方法具有良好的数学表达和实验评估。结果看起来很有趣,特别是对于捕获长期依赖关系,如BLEU分数所示。一个建议是,与基线方法相比,作者没有对所提出方法的复杂性进行计算分析。
评审2:
经验评估:我阅读过该领域的大量论文。
评分:8:接收
审稿人2同样对这篇论文给了8分满分。尽管提出了几点改进的建议,但审稿人2总结说:我认为这是一篇写得清晰的论文,有很好的动机,模型也很有趣。有很好的结果,以及大量的后续分析。我认为这是可以接受发表的可靠文章。
评审3:
经验评估:我阅读过该领域的大量论文。
评分:8:接收
最后,审稿人3也对这篇论文赞誉有加,给出了8分。评审意见认为,虽然模型的新颖性有限,但所提出的模型的学习和推理是非凡的。此外,与SOTA方法相比,论文还展示了该方法在语言建模方面的性能改进,说明了该方法的重要性。
从一举拿下3个8分,到连续2个1分遭遇滑铁卢,如此戏剧性的结果在Reddit论坛上引起了热议。网友的关注点主要在于:
①另外两名审稿人为什么这样做?
②AC(领域主席)的行为是否有误导性?
③作者对评审意见的回应是否可疑?
④这样的审稿机制存在明显缺陷
给两个1分,是真的不希望这篇论文被接收?
Reddit用户yusuf-bengio说:“到目前为止,审稿过程都是有效的。我唯一关心的是这两位额外的审稿人,他们是‘随机’分配的吗?”
他认为,
接受一篇糟糕的论文比拒绝一篇好论文后果更严重
。拒绝一篇好论文会伤害作者,但接受一篇糟糕的论文会伤害整个研究社区的诚信。
他不是特指这篇论文糟糕,但从结果来看,(8,8,8,1,1)的评分是荒谬的。科学,特别是机器学习的研究是建立在同行评审过程的信任基础上的。当我们看到一篇被ICLR/ICML/NeurIPS接受的论文时,我们通常相信审稿人对该论文的评价是正确的。
-
正确(包括论文没有忘记引用相关工作)
-
对研究界来说意义重大
当我们开始接受“糟糕”的论文时,就破坏了这些会议的可信度。
有人认为:“
这两位审稿人可能是想让这个分数得到高级AC的注意,他们真的认为这篇论文不应该被接受。
”
有人怀疑地说:“事情发展的时间线、还有两名额外的审稿人都太奇怪了…这篇论文可能真的很差……但在最后一刻增加审稿人似乎动机不纯。openreview里面很多论文的评审意见都很糟糕(评分也很低),但是AC几乎从来不会为那些论文增加审稿人,而这里的情况,AC一致决定分配两个额外的审稿人……”
也有读者对两名额外审稿人的做法表示赞同,用户akarazniewicz说:我只是简要阅读了这篇论文。在我看来,从审稿质量来看,新的两位审稿人实际上花了更多时间,分析并试图理解论文。这些评论没有任何问题,实际上可以帮助作者进行下一步的工作。
AC的
态度扼杀了创新和进步