本文转载自知乎用户“sonta”的专栏文章,侵删
https://zhuanlan.zhihu.com/p/9300089039
TL;DR: 实在受不了傻13工作还有眼瞎reviewer给8分,并且作者在rebuttal阶段全程嘴硬,遂直接在Openreview
贴脸开大,正义制裁:
https://openreview.net/forum?id=GrmFFxGnOR¬eId=2QR0ZJjvCm
如果ICLR变成了一个bad会议,那么你就去建设它 ——sonta
Were RNNs all we needed? 受到了毫无相关技术背景的小编们的无脑吹捧和热议
机器之心:图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
量子位:Bengio精简了传统RNN,性能可与Transformer媲美
新智元:RNN回归!Bengio新作大道至简与Transformer一较高下
这篇文章核心思路就是把hidden to hidden state之间的nonlinear dependency全部扔掉,然后RNN就变成了一个Linear RNN,可以用associative scan的思路来并行训练
然而这个idea早就在linear RNN领域里玩烂了。其中ICLR '18最经典也最被低估的一篇工作 Parallelizing Linear Recurrent Neural Nets Over Sequence Length 里提到的Gated Impluse Linear Recurrent (GILR) layer几乎完全等价于minGRU.
我在之前也早有blog来理清这一系列的工作的发展
sonta:RNN最简单有效的形式是什么?
https://zhuanlan.zhihu.com/p/616357772
并且我NeurIPS '23 Spotlight的一个工作,HGRN,正是基于这个思路来进行的
Hierarchically Gated Recurrent Neural Network for Sequence Modeling
arxiv.org/abs/2311.04823
其中有一个审稿人锐评道:
https://openreview.net/forum?id=GrmFFxGnOR¬eId=ZLKbCUEU7B 同时也是所有审稿人里唯一很懂领域的人
作者的狡辩是:
Martin
& Cundy (2018) focus on parallelizing linear RNNs and propose the
GILR (Generalized Linear RNN) architecture. GILR is used as a linear
surrogate for the hidden state dependencies of traditional LSTMs,
allowing for parallelization. The resulting architecture GILR-LSTM
retains much of the complexity of LSTMs but with parallelizability,
resulting in a larger memory footprint due to the use of surrogate
states.
这是十足的偷换概念:我们可以在上面的recurrent形式可以看到,GILR完全等价于minGRU。作者在用另外一个extension GILR-LSTM来混淆视听,狡辩道
Martin & Cundy (2018) focus on parallelizing linear RNNs and
propose the GILR (Generalized Linear RNN) architecture. GILR is used as a
linear surrogate for the hidden state dependencies of traditional
LSTMs, allowing for parallelization. The resulting architecture
GILR-LSTM retains much of the complexity of LSTMs but with
parallelizability, resulting in a larger memory footprint due to the use
of surrogate states.
In contrast, our work takes a different approach by simplifying traditional RNN architectures
rather than augmenting them
这种被审稿人按着捶还不认错,反过来混淆视听的做法真是一点b脸都不要了。此外,这篇文章的完成度低的令人发指,几乎没有稍微大一点的实验。对此,某图灵奖得主挂名的团队给的解释是:
我们穷的只能用P100辣。然而据我mila朋友的反应,mila内部有不少计算集群资源,并且这个一作的权限还不低。
而我们发表在一年前的HGRN就已经做了Billion level的language modeling的实验了。看不下去的我直接openreview发了个public comment:
提到了我们HGRN和之后一系列的work,并且重新提了minGRU和GILR的关系。作者依然用上面糊弄审稿人的做法来糊弄我,
并且解释道这篇的motivation是为了simplify existing architecture
变得新手友好,老少皆宜。
我哭笑不得,首先勒令他们解释跟GILR的区别,
你说的好,但是GILR=minGRU
并且痛批他们开倒车,把整个领域这一年的发展直接清零,梦回一年半前
大家辛辛苦苦发展了一年的领域,你直接倒回去了?
同时作者团队还在解释,不是他们博人眼球特意宣传,是大家自发进行的:
(内心OS:对对对,你们有这么大一个图灵奖得主挂名,标题起的这么大,可不得是一堆自干五来做宣传吗)
我的使命到此结束,等待AC和其他审稿人的正义制裁