专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

热心网友在ICLR openreview主持正义, 质疑8分论文开领域倒车!

3DCV · 公众号 · · 2024-12-02 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

编辑：轻松参会

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

本文转载自知乎用户“sonta”的专栏文章，侵删

https://zhuanlan.zhihu.com/p/9300089039

TL;DR: 实在受不了傻13工作还有眼瞎reviewer给8分，并且作者在rebuttal阶段全程嘴硬，遂直接在Openreview

贴脸开大，正义制裁： https://openreview.net/forum?id=GrmFFxGnOR¬eId=2QR0ZJjvCm

Were RNNs all we needed? 受到了毫无相关技术背景的小编们的无脑吹捧和热议

机器之心：图灵奖得主Yoshua Bengio新作：Were RNNs All We Needed?

量子位：Bengio精简了传统RNN，性能可与Transformer媲美

新智元：RNN回归！Bengio新作大道至简与Transformer一较高下

这篇文章核心思路就是把hidden to hidden state之间的nonlinear dependency全部扔掉，然后RNN就变成了一个Linear RNN，可以用associative scan的思路来并行训练

然而这个idea早就在linear RNN领域里玩烂了。其中ICLR '18最经典也最被低估的一篇工作 Parallelizing Linear Recurrent Neural Nets Over Sequence Length 里提到的Gated Impluse Linear Recurrent (GILR) layer几乎完全等价于minGRU.

我在之前也早有blog来理清这一系列的工作的发展

sonta：RNN最简单有效的形式是什么？

https://zhuanlan.zhihu.com/p/616357772

并且我NeurIPS '23 Spotlight的一个工作，HGRN，正是基于这个思路来进行的

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

arxiv.org/abs/2311.04823

其中有一个审稿人锐评道：

作者的狡辩是：

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states.

这是十足的偷换概念：我们可以在上面的recurrent形式可以看到，GILR完全等价于minGRU。作者在用另外一个extension GILR-LSTM来混淆视听，狡辩道

rather than augmenting them

这种被审稿人按着捶还不认错，反过来混淆视听的做法真是一点b脸都不要了。此外，这篇文章的完成度低的令人发指，几乎没有稍微大一点的实验。对此，某图灵奖得主挂名的团队给的解释是：

而我们发表在一年前的HGRN就已经做了Billion level的language modeling的实验了。看不下去的我直接openreview发了个public comment:

提到了我们HGRN和之后一系列的work，并且重新提了minGRU和GILR的关系。作者依然用上面糊弄审稿人的做法来糊弄我，

并且解释道这篇的motivation是为了simplify existing architecture

变得新手友好，老少皆宜。

我哭笑不得，首先勒令他们解释跟GILR的区别，

并且痛批他们开倒车，把整个领域这一年的发展直接清零，梦回一年半前

同时作者团队还在解释，不是他们博人眼球特意宣传，是大家自发进行的：

（内心OS：对对对，你们有这么大一个图灵奖得主挂名，标题起的这么大，可不得是一堆自干五来做宣传吗）

我的使命到此结束，等待AC和其他审稿人的正义制裁

结言

肉眼可见，ICLR ‘25 是一届特别糟糕的会议。主办方大聪明觉得把审稿人的池子放水，引入了一堆本来没有资格审稿的人加入审稿大军，那么每个审稿人的workload不就小了吗？这一大放水的结果可想而知，这么离谱的一篇工作，还有两个reviewer给出了8分和6分的高分，并且8分reviewer直呼novel，气的我反手一个public comment:

审稿workload变低了，但审稿质量离谱了，大家又得花更多的时间去处理不称职审稿人的意见，导致本届会议的discussion氛围感人，主办方直接延期rebuttal一周，让大家感受三周rebuttal的快乐，真是不戳呢（

同时，我发现审稿人对linear RNN的进展的了解真是少的令人发指，我一个一年前的starting point工作，被人重新包装了一遍还能受到一些好评。感觉提高自己工作的曝光度是一件非常重要的事情，教育community也是（不多说了，赶紧去写blog来系统的介绍自己这两年的工作了）

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、

热心网友在ICLR openreview主持正义, 质疑8分论文开领域倒车!

正文

结言

3D视觉工坊知识星球

请到「今天看啥」查看全文