本文作者讲述了自己在关注AI领域论文过程中的所见所闻,包括一篇在ICLR会议中获得8分评价的论文。作者对该论文的内容、评价及引发的讨论进行了描述,并对当前AI领域的媒体环境提出了期望。
作者描述了一篇在ICLR会议中获得8分评价的论文,该论文进行了简单的消融实验,将LSTM和GRU中的某种结构去除,并与transformer进行了对比试验。此论文引起了sonta小姐姐的锐评,她指出该工作和其他研究存在撞车之处。
作者提到当前AI领域的工作数量爆炸式增长,而一些媒体为了吸引读者,可能会宣传一些质量不高的工作,如本科作业级别的工作。这对中文NLP圈子来说是一种负担。作者希望中文的NLP媒体环境能够变得更好。
作者:
难赋
——以前看见个评论说ai的十分制会议中的10分指的是“如何这篇文章没有中,我将断绝与该会议的一切联系”,要是今天讲的这篇论文中了iclr的话,没准这句话对于iclr来说可以改成对8分的评价了。
平时搜索论文时习惯先去顶会看看,即使是在数据库中检索论文也是先看看是不是顶会的,再去下载。即使这样,也会觉得读到的文章大部分质量都很差,甚至很水。
平时也就脑海里埋怨一下,便去接着做自己的事情了。结果这两天在知乎上刷到一个帖子,怒斥了openreview上的一篇投递ICLR的paper。一看标题,是
Were RNNs All We Needed
?。
呵,这不是我吐槽是本科生课程大作业那篇文章嘛,居然被ICLR会议的审稿人给了8的评分。
这篇文章的内容很简单:把LSTM和GRU里的某种结构去了,然后和transformer做了对比试验(选择性复制任务和莎士比亚文学集建模),证明了魔改RNN的推理效率和loss还可以。然后就没了。
这个工作量只能算是其他paper里的消融实验部分,我一般把这种工作量称为本科生课程大作业级别的任务量。
这篇paper被投到openreview并
取得了某个审稿人给予的8分评价
后在知乎引起了sonta小姐姐的锐评。
sonta是mit的phd,可以算是对这篇文章实名开大了。
(有一说一,在这个圈子里公开质疑一篇有大佬级别人物背书的人还是需要一定勇气的。nlp的圈子说大也大说小也小,除非自己有一定的实力,要不这么做还真挺冒风险的。)
openreview一共给这篇文章分配了四位审稿人,其中一位是做linear rnn相关工作的,在审稿阶段指出了这篇工作和GILR的撞车之处:
sonta也在review界面开了一个公共评论,指出,这种把rnn里某个结构去掉的做法实际上在linear rnn里已经被几乎玩烂了,18年至今已经在这方面有了相当多的工作。至于论文里的这个方式和她自己以及之前的工作均有撞车之处:Parallelizing Linear Recurrent Neural Nets Over Sequence Length、Hierarchically Gated Recurrent Neural Network for Sequence Modeling。
论文作者均未对这些评论做出合理的反应,反而是进行偷换概念:说他们只是想简化现有的rnn 结构。
对于为什么只在很小的语料上进行预训练对比实验,作者的回应居然是“我们太穷啦,没有显卡资源啊”。
不是,哥们。2024年了,还在莎士比亚上和nanoGPT做对比试验呢?
而且你这写的训练了400~步(step),看完文章我也没搞明白这个step对应的是哪个步骤。可以说是实验做得少,实验步骤描述也很有歧义吧。
截止到目前(2024年11月29日),这篇工作还是处于投递ICRL2025的状态,sonta是在11.26发表的评论,作者在11.29早上的评论仍看不出改进的迹象:
iclr2025已经截止收稿了,相信不久之后这件事情应该就会有结果了吧,让我们期待一下会议官方的comment吧。
写在后面的话
这篇文章最初是十月份在某公众号那边看见的,一般来说对自己比较信任的公众号推送的文章,我起码都会点进去看看的。但这篇文章当时看完后着实令我大跌眼镜。后面一段时间内发现几乎我关注的每个公众号都推送了介绍这篇paper的推文,我就感觉纳闷了:一个大学生作业至于这么吹嘛。后面再刷到一篇才知道是挂了bengio的名。