知乎原问题:
如何看待 ICLR2021 的拒稿被评为 ACL2021 的 Best Paper?
问题描述:
ICLR2021的得分是4,4,3,3,作者直接放弃rebuttal:
openreview.net/forum?id=1fLunL_hDj_
2021.aclweb.org/program/accept/
以下回答版权归属原作者,侵删
知乎用户“
周浩
”
我是这个
paper
的作者之一,刚刚在公司的群里有同事把这个问题链接发给我,我震惊于居然有人这么关注我们的
paper
,手速这么快,非常感谢,代码还在整理中,整理完之后欢迎大家使用,希望大家都能尝试一下
VOLT
,肯定还是有很多不足的,也欢迎给我们多提意见。
首先祝贺一作
@
许晶晶,非常不容易!!!
其次回答这个问题:关于从
ICLR
到
ACL
的转投,当时情况是这样的,我们在投
ICLR
的时候,花了太多时间在实验上,在
writing
上花的时间很不够,整个
paper
显地平铺直叙,
Intuition
没有说出来,且有部分重要的实验没有补充。结果大家也看到了,我觉得这是一个重要的
lesson
,也欢迎大家对比我们两个版本的论文。。。
Take Away
:但行好事,莫问前程。还是应该好好地把手上工作
360
度全方位地做好,做扎实,而不是找到一个合适的
ddl
就去
submit
,现在
arxiv
这么方便,做到自己满意挂
arxiv
即可。
PS
:为什么撤稿
ICLR
这个问题问地不准确,我们当时其实是做了
rebuttal
的,
ICLR
的
reviewer
给了非常好的建议,我们很尊重也都吸收了。当时
ACL
有政策
ICLR
不在规定时间内撤稿不能投
ACL
,因为
open review
也违反
ACL
的规则。我们当时特地写信问了
PC
确认过,就撤稿了。不过后来
ACL
非常人性化地做了政策上的调整,这是后话了。
PSS
:欢迎大家关注我们另外一篇被
ICLR
拒稿,然后也被
ACL
高分录用的
paper
:
GLAT
:
Glancing Transformer for Non-Autoregressive Neural Machine
Translation
。当时
ICLR submission
在此:
Non-iterative Parallel Text Generation via Glancing Transformer
GLAT
这个
paper
也是很自信,也是有点
RUSH
,导致写地不好。实际上效果非常好,
GLAT
在我们字节跳动
内部火山翻译已经上线了,
Tiktok
上的部分翻译流量就是
GLAT serve
的。数据越大,
GLAT
的效果越好,我们用
GLAT
参加了今年
WMT
翻译评测,大语种德语
->
英语(受限),以及英语
->
德语(非受限)的比赛中,
GLAT
在两个方向都拿了
BLEU score
的第一,充分说明并行(非自回归)生成模型未必比自回归模型差,甚至有可能更好,欢迎大家关注后续!
=======================
一眨眼就
5
个回答后的补充:我个人非常不同意上面的匿名回答
”
说明无论什么工作
peer review
就是摸彩票
“
,两次审稿的
review
质量都非常高,说
review
就是摸彩票的回答一看就是没有读过论文和
review
,有点不负责任且误导大众,使得一些
junior
的同学对投稿有错误的认知!希望稍微读一下论文。
知乎用户“
许晶晶
”
感谢大家对此工作的关注,我是本工作的作者之一许晶晶,也是一名普通的自然语言处理圈内吃瓜人士,只是没想到这次吃到了自己的瓜
orz
。这里想跟大家简单分享以下我对这个问题的回答以及在这次投稿中我学到的经验和教训。
第一,我学到的最重要教训是一定要把东西写清楚。
**
尽管写作不是最重要的,但是写清楚是让评审评价工作的前提
**
。其实
ICLR
的评审和
ACL
的评委都对我们的
Idea
做了肯定,新颖性和有趣性都是被承认的,我们给出的基于最大边际效应的解释,和把词表学习建模成一个最优运输问题都是全新的一套想法。
ICLR
对
idea
没有太多问题,问题主要是在写作上,后来我们把写作改进之后,能拿到高分虽然意料之外,倒也在情理之中。有一说一,我们
ICLR
那篇工作确实写的不好。评审的反馈主要在以下几个方面:实验做的不够充分,方法介绍的不够清楚,动机也缺乏直接证据。后来的这几点,我们在
ACL
版本都做了大量的改进。我们补充了很多后续实验,写作也推倒重来,一遍遍推敲逻辑是否合理,实验是不是严谨和充分等等,整个过程是很痛苦的。所以后来我们得到
ACL
匿名评审的满分认可的时候非常激动,毕竟投入了很多心血的工作终于得到了回报。
第二,投稿不要太匆忙。我们当时工作做完之后,觉得还挺有趣的,为了赶上
ICLR
的截止日期,写的比较匆忙,存在各种问题,结果就被
ICLR
的审稿人教做人了。这次投稿之后我学到的一点是准备充分再投,不然会给评审带来不必要的压力以及被评审分分钟教做人。
第三,负面意见不是否定,而是进步的重要来源。其实有很多高分论文之前被拒的先例,比如最佳论文
Lottery Ticket
假说,
pre-training
鼻祖
ELMO
,
LayerNorm
,
KD
等等。我这里举这些例子不是想说我们的工作可以和他们比肩(当然我们也想作出能够真正有用的工作,这些工作一直是我们的榜样),而是想让大家可以客观的看待这个问题。可能很多人会认为负面意见是对工作的否定,其实换个角度,负面意见也是让我们进步的重要力量~虽然这次被大家谈论压力很大,但是我们也很开心可以让大家思考负面意见这个问题。当大家的论文被拒的时候,想一想
Hinton
的论文都被拒过稿,是不是会变得更加自信一些
!
第四:
NLP
会议的论文不一定比
ML
的会议论文差。有很多优秀的论文在
NLP
的会议上也拿到了很高的收益,比如
BERT
,
ELMO
等等。
ML
的会议上也有一些被遗忘的工作。最近确实各大会议的论文数量变得越来越多,有一些很拉垮的论文被录用,但是另一方面来看,好的
paper
也变的更多了。
NLP
的会议对
NLP
更关注,
ML
的会议对算法更关注。我们当时做的是词表问题研究,可能对于
ML
的人是个小问题,但是对于
NLP
领域来说,确实个每天都在用的东西,可能也会对我们工作更认可一些。我看下面也有些知友讨论应用领域的会议和
ML
会议谁更好的问题。我的看法是只要这个会议大部分人都还认可它是顶会,碰上哪个就投哪个,毕竟最后大家看的还是工作本身~优秀的工作发表在
arxiv
上也会发光发亮!
最后,打个小小的广告,我们这个工作研究了词表学习的问题,也发现了一些有意思的结论,我们打算近期把代码整理开源出来,欢迎大家到时候试用~某大佬说过研究是一个长周期的事情,无论短期拿到多少荣誉,重要的是做的东西能不能留下来。我们也非常希望可以做出这种工作~
这次很荣幸能够听到大家的反馈,虽然是自己的瓜,但也吃的津津有味
zzzzz
。不过针对一些阴谋论的想法,这里还是有必要回复一下
orz
,以免给别人带来不必要的麻烦。不管未来这个工作是籍籍无名还是会被很多人用进
benchmark
,至少这次评审对我们的认可度还是不错的。我们这次拿了两个满分,一个接近满分,希望阴谋论不攻自破吧。
最后,如果大家有任何对该工作的问题和建议,或者对修改论文上的困惑,也欢迎加我微信号一起聊聊:
xujingjingpku
最后辟谣一下另一篇关于
NAS
的问题,我们当时
NAS
的工作最早投了
NeurIPS
,投稿时间是
2020
年
5
月
27
号,没中后来投了
ICLR
,最近被接受。
without training
那篇放在
arxiv
的时间是
2020
年
6
月
8
号,所以严格意义上来说是同期工作哈~
知乎用户“
匿名用户
”
在相关圈子混了比较久且得过
best paper
,匿名说些浅(
zhen
)见(
hua
)。
首先这个问题扯到了
AI
不同社群之间的鄙视链。说明白就是
NLP
最近比较火,出了几篇出圈的论文,一时风头无两,有人(也许是纯
ML
的)可能对此不太爽,正好找到一个建立鄙视链的机会。自古文人相轻,不同学科间、学科内不同领域
/
社群间互相鄙视由来已久,顶端大佬有时都难以自外。离科学近的鄙视偏工程技术的,数学多的鄙视数学少的,热门的鄙视冷门的。
ML
社群更侧重学习理论和算法,
NLP
等社群更侧重问题研究本身,
ML
也只是其中一种方法而已。君不见
CV
领域在
AlexNet
之前也是百花齐放的,手工设计滤波器的都有,现在
ML
一统江湖反而单调了。
NLP
更是如此,自然语言本身就是一种科学(各个大学都有语言学系吧),
ACL
社群有很多资深前辈恐怕到今天仍然对
ML/
深度学习方法嗤之以鼻(所以才有
EMNLP
么)。即使现在
ML
大行其道就能说偏语言学的人就都错么?毕竟很多
NLP
问题连定义评估都难,看看用
ML
做文本生成的多少
“
好论文
”
都是
BLEU
之类准则优化到底的,可
BLEU
高跟文本质量好有多相关恐怕就只有语言学家会关心了。对这种不做人工评估都没法评价的问题,完全当成
ML
的子问题看真合适么?
再说说用数学多少的问题。
ML
的会无疑是整个
AI
大类中数学工具用的最多的,很多时候
idea
中有通用价值的巧思也比较多。不过这些数学恐怕到了数学家眼里又该被鄙视了吧?毕竟在数学大神眼里不做纯数做应用的都是
xx……
另外对语言相关应用,
NLP
专业社群对实验设置的规模、设置细节的专业性要求等等肯定要高的多。在这些设置下很多的
“
巧思
”
到底还
work
不
work
就很难说了,而且有些
idea
不是专业的
NLPer
可能就理解不了真正的价值。今天的
AI
说到底很像早期的炼金术,暂时还不存在可以预测指导一切实践的理论,这时候实践和
insight
就很重要。所以在
AI
里搞数学鄙视链没什么意思,很多炫技过头的东西现在不都是被统称为
“
不能落地
”
么?
最后说下论文审稿、引用和
best paper
的看法。首先审稿是个很主观的过程,现在的会议论文投稿太多,保证每个论文被分到的审稿人都能大概比较懂其实是件很难的事,稳定投
/
审论文的人大概对此都深有感触吧?即使保证分到的审稿人都是资深专家,每个人对一个工作的观点往往也差别很大,甚至同一个人上周和这周的想法可能就不一样。
best paper
一般的评选会合理一些,至少技术委员会一般会过一遍所有候选论文并仔细讨论,有一定的专业性和一致性。不过选出的
best paper
可能只能代表质量好,并不意味着是会被高引的论文。论文质量好
!=
价值高
!=
影响力大
!=
高引用(否则也不要破四维了,数引用不就行了)。不过这篇
ACL best paper
这次这么出名,相信引用方面一定会受益的。
知乎用户“
知乎用户AAQetv
”
看了两个版本的文章。非
nlp
人,内容本身就不班门弄斧了。简单分享个人感受:
1.idea
本身很有趣,借用某种数学工具(本文的信息论,其他像傅里叶分析等
StableNet
)对某个问题建模求解,
ml
的顶会喜欢这种,尤其这几年魔改拼积木的
empirical study
不要太多。
2.
再次说明了
writing
的重要性。就
abstract
部分,
acl
版本直接客观的说明了,什么问题,怎么解决。
iclr
版本中和
BPE
的对比,以及一些主观形容词的选择,其实给自己树敌(所以我猜
reviewer1
给了个
“overselling”
?)。定量,客观和直接,个人觉得是保险系数最高的
style
,
acl
版本的
abstract
仿佛看到了改了八遍长文的我自己。。。
3.
还有一个建议供大家讨论,就是
table
的风格。
acl
版本的
table1
清楚了很多,但还有提升空间,比如粗线的使用
(\toprule, \midrule, \bottomrule)
。转载一个
CMU
教授分享的
table
指导:
small guide to making nice tables
https://people.inf.ethz.ch/markusp/teaching/guides/guide-tables.pdf
4.
撇开阴谋论那一套,
best
评价的
metric
不只是
working
的显著程度。问题本身,方法,效果都有考量。五六年一评也没必要,那个
ijcai
有一个时间检验奖(如果我没记错),条件随机场
CRF
就是时间检验奖得主。
5.
感谢两位作者下场分享经验,这种开放包容的气度是大格局,没必要搞得那么戾气。
恭喜几位斩获桂冠顺便沾沾洪荒之力祝我下半年会议开挂啊啊啊啊啊
~~~~
知乎用户“
Shaohua Yang