专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
格上财富  ·  一文讲透关于DeepSeek的7个核心问题 ·  2 天前  
格上财富  ·  广东成立新机构,信号强烈 ·  2 天前  
简七读财  ·  过去100年,这类资产更赚钱 ·  2 天前  
曾星智中线投资  ·  只赚不亏:长线投资成功的关键 ·  3 天前  
曾星智中线投资  ·  只赚不亏:长线投资成功的关键 ·  3 天前  
格上财富  ·  全面拆解!梁文锋和王兴兴的底牌 ·  3 天前  
51好读  ›  专栏  ›  3DCV

热心网友在ICLR openreview主持正义, 质疑8分论文开领域倒车!

3DCV  · 公众号  ·  · 2024-12-02 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

编辑:轻松参会

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

本文转载自知乎用户“sonta”的专栏文章,侵删
https://zhuanlan.zhihu.com/p/9300089039

TL;DR:  实在受不了傻13工作还有眼瞎reviewer给8分,并且作者在rebuttal阶段全程嘴硬,遂直接在Openreview
贴脸开大,正义制裁: https://openreview.net/forum?id=GrmFFxGnOR¬eId=2QR0ZJjvCm
如果ICLR变成了一个bad会议,那么你就去建设它 ——sonta

Were RNNs all we needed? 受到了毫无相关技术背景的小编们的无脑吹捧和热议
机器之心:图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
量子位:Bengio精简了传统RNN,性能可与Transformer媲美
新智元:RNN回归!Bengio新作大道至简与Transformer一较高下
这篇文章核心思路就是把hidden to hidden state之间的nonlinear dependency全部扔掉,然后RNN就变成了一个Linear RNN,可以用associative scan的思路来并行训练
然而这个idea早就在linear RNN领域里玩烂了。其中ICLR '18最经典也最被低估的一篇工作 Parallelizing Linear Recurrent Neural Nets Over Sequence Length 里提到的Gated Impluse Linear Recurrent (GILR) layer几乎完全等价于minGRU.
我在之前也早有blog来理清这一系列的工作的发展
sonta:RNN最简单有效的形式是什么?
https://zhuanlan.zhihu.com/p/616357772
并且我NeurIPS '23 Spotlight的一个工作,HGRN,正是基于这个思路来进行的
Hierarchically Gated Recurrent Neural Network for Sequence Modeling
arxiv.org/abs/2311.04823
其中有一个审稿人锐评道:
https://openreview.net/forum?id=GrmFFxGnOR¬eId=ZLKbCUEU7B 同时也是所有审稿人里唯一很懂领域的人
作者的狡辩是:
Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states.
这是十足的偷换概念:我们可以在上面的recurrent形式可以看到,GILR完全等价于minGRU。作者在用另外一个extension GILR-LSTM来混淆视听,狡辩道
Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states. In contrast, our work takes a different approach by simplifying traditional RNN architectures
rather than augmenting them
这种被审稿人按着捶还不认错,反过来混淆视听的做法真是一点b脸都不要了。此外,这篇文章的完成度低的令人发指,几乎没有稍微大一点的实验。对此,某图灵奖得主挂名的团队给的解释是:
我们穷的只能用P100辣。然而据我mila朋友的反应,mila内部有不少计算集群资源,并且这个一作的权限还不低。
而我们发表在一年前的HGRN就已经做了Billion level的language modeling的实验了。看不下去的我直接openreview发了个public comment:
提到了我们HGRN和之后一系列的work,并且重新提了minGRU和GILR的关系。作者依然用上面糊弄审稿人的做法来糊弄我,
并且解释道这篇的motivation是为了simplify existing architecture
变得新手友好,老少皆宜。
我哭笑不得,首先勒令他们解释跟GILR的区别,
你说的好,但是GILR=minGRU
并且痛批他们开倒车,把整个领域这一年的发展直接清零,梦回一年半前
大家辛辛苦苦发展了一年的领域,你直接倒回去了?
同时作者团队还在解释,不是他们博人眼球特意宣传,是大家自发进行的:
(内心OS:对对对,你们有这么大一个图灵奖得主挂名,标题起的这么大,可不得是一堆自干五来做宣传吗)
我的使命到此结束,等待AC和其他审稿人的正义制裁

结言

肉眼可见,ICLR ‘25 是一届特别糟糕的会议。主办方大聪明觉得把审稿人的池子放水,引入了一堆本来没有资格审稿的人加入审稿大军,那么每个审稿人的workload不就小了吗?这一大放水的结果可想而知,这么离谱的一篇工作,还有两个reviewer给出了8分和6分的高分,并且8分reviewer直呼novel,气的我反手一个public comment:
审稿workload变低了,但审稿质量离谱了,大家又得花更多的时间去处理不称职审稿人的意见,导致本届会议的discussion氛围感人,主办方直接延期rebuttal一周,让大家感受三周rebuttal的快乐,真是不戳呢(
同时,我发现审稿人对linear RNN的进展的了解真是少的令人发指,我一个一年前的starting point工作,被人重新包装了一遍还能受到一些好评。感觉提高自己工作的曝光度是一件非常重要的事情,教育community也是(不多说了,赶紧去写blog来系统的介绍自己这两年的工作了)

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结 最新顶会论文&代码







请到「今天看啥」查看全文