热心网友在ICLR openreview主持正义, 质疑8分论文开领域倒车!

轻松参会 · 公众号 · · 2024-12-01 12:33

正文

本文转载自知乎用户“sonta”的专栏文章，侵删

https://zhuanlan.zhihu.com/p/9300089039

TL;DR: 实在受不了傻13工作还有眼瞎reviewer给8分，并且作者在rebuttal阶段全程嘴硬，遂直接在Openreview

贴脸开大，正义制裁： https://openreview.net/forum?id=GrmFFxGnOR¬eId=2QR0ZJjvCm

Were RNNs all we needed? 受到了毫无相关技术背景的小编们的无脑吹捧和热议

机器之心：图灵奖得主Yoshua Bengio新作：Were RNNs All We Needed?

量子位：Bengio精简了传统RNN，性能可与Transformer媲美

新智元：RNN回归！Bengio新作大道至简与Transformer一较高下

这篇文章核心思路就是把hidden to hidden state之间的nonlinear dependency全部扔掉，然后RNN就变成了一个Linear RNN，可以用associative scan的思路来并行训练

然而这个idea早就在linear RNN领域里玩烂了。其中ICLR '18最经典也最被低估的一篇工作 Parallelizing Linear Recurrent Neural Nets Over Sequence Length 里提到的Gated Impluse Linear Recurrent (GILR) layer几乎完全等价于minGRU.

我在之前也早有blog来理清这一系列的工作的发展

sonta：RNN最简单有效的形式是什么？

https://zhuanlan.zhihu.com/p/616357772

并且我NeurIPS '23 Spotlight的一个工作，HGRN，正是基于这个思路来进行的

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

arxiv.org/abs/2311.04823

其中有一个审稿人锐评道：

https://openreview.net/forum?id=GrmFFxGnOR¬eId=ZLKbCUEU7B 同时也是所有审稿人里唯一很懂领域的人

作者的狡辩是：

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states.

这是十足的偷换概念：我们可以在上面的recurrent形式可以看到，GILR完全等价于minGRU。作者在用另外一个extension GILR-LSTM来混淆视听，狡辩道

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states. In contrast, our work takes a different approach by simplifying traditional RNN architectures

rather than augmenting them

这种被审稿人按着捶还不认错，反过来混淆视听的做法真是一点b脸都不要了。此外，这篇文章的完成度低的令人发指，几乎没有稍微大一点的实验。对此，某图灵奖得主挂名的团队给的解释是：

我们穷的只能用P100辣。然而据我mila朋友的反应，mila内部有不少计算集群资源，并且这个一作的权限还不低。

而我们发表在一年前的HGRN就已经做了Billion level的language modeling的实验了。看不下去的我直接openreview发了个public comment:

提到了我们HGRN和之后一系列的work，并且重新提了minGRU和GILR的关系。作者依然用上面糊弄审稿人的做法来糊弄我，

并且解释道这篇的motivation是为了simplify existing architecture

变得新手友好，老少皆宜。

我哭笑不得，首先勒令他们解释跟GILR的区别，

并且痛批他们开倒车，把整个领域这一年的发展直接清零，梦回一年半前

同时作者团队还在解释，不是他们博人眼球特意宣传，是大家自发进行的：

（内心OS：对对对，你们有这么大一个图灵奖得主挂名，标题起的这么大，可不得是一堆自干五来做宣传吗）

我的使命到此结束，等待AC和其他审稿人的正义制裁

结言

肉眼可见，ICLR ‘25 是一届特别糟糕的会议。主办方大聪明觉得把审稿人的池子放水，引入了一堆本来没有资格审稿的人加入审稿大军，那么每个审稿人的workload不就小了吗？这一大放水的结果可想而知，这么离谱的一篇工作，还有两个reviewer给出了8分和6分的高分，并且8分reviewer直呼novel，气的我反手一个public comment:

热心网友在ICLR openreview主持正义, 质疑8分论文开领域倒车!

正文

结言

请到「今天看啥」查看全文