专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

3D视觉工坊 · 公众号 · · 2024-12-05 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：Jack Cui

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

万万没想到，字节大瓜还有后续的后续。

田某某在字节商业化技术部门实习期间与团队合作发表的论文，获得了 NeurIPS 2024的最佳论文奖 ，这篇论文还是NeurIPS 2024第六高分的论文（7,8,8,8）！

不过，今年NeurIPS还没开奖！

据悉大会的注册者可以看到，审稿人给出的得分是[7, 8, 8, 8]。

openreview链接:

https://openreview.net/forum?id=gojL67CfS8

昨晚看到这个消息的时候，我看了都不相信，太drama了，电视剧都不敢这么演。

根据网友的说法，田某某的这篇论文也是国内第二篇NeurIPS Best Paper，含金量很高。在此之前，他就已经有多篇论文中稿顶会。比如被引次数最多的「Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling」，就是ICLR 2023的Spotlight。此外还有，NeurIPS 2021和2020的Poster，ECCV 2020的Poster。

当时整个事件的过程，包括田某某是如何利用load ckpt函数漏洞的，字节官方实锤提起诉讼，文章都有梳理，感兴趣的小伙伴可以看下：

https://mp.weixin.qq.com/s/0wOcY0NEenunFqcv-1Q_iQ

简而言之，田某某篡改代码的代价相当惨重。北京市海淀区人民法院已正式受理字节跳动对前实习生田某某的起诉。字节的诉求是：法院判令田某某赔偿侵权损失 800万元 及合理支出2万元，同时要求其公开赔礼道歉。

以下内容，转自：新智元

被字节起诉，而现在戏剧性的是，他在字节商业化技术部门实习期间与团队合作发表的论文，获得了 NeurIPS 2024的最佳论文奖 。

这项研究中，他们提出了一种全新范式——视觉自回归建模（Visual Autoregressive Modeling，VAR）。

与传统的光栅扫描「下一个token预测」方法有所不同，它重新定义了图像上的自回归学习，采用粗到细的「下一个尺度预测」或「下一个分辨率预测」。

这种简单直观的方法使得自回归（AR）Transformer能够快速学习视觉分布，并且具有较好的泛化能力：VAR首次使得类似GPT的AR模型在图像生成中超越了扩散Transformer。

当前，自回归模型（AR）主要用于语言模型从左到右、逐字顺序生成文本token。同时，也用于图像生成中，即以光栅扫描的顺序从左到右，从上到下顺序生成图像token。

不过，这些AR模型的scaling law未得到充分的探索，而且性能远远落后于扩散模型，如下图3所示。与语言模型所取得成就相比，计算机视觉中的自回归模型的强大能力却被「禁锢」了起来。

而自回归建模需要定义数据的顺序，北大字节团队研究中重新考虑了如何「排序」图像：人类通常以分层方式感知或创建图像，首先捕获全局结构，然后捕获局部细节。

这种多尺度、由从粗到细的本质，为图像提供了一种「秩序」。

同样，受到广泛使用的多尺度设计的启发，研究人员将图像的自回归学习定义为图2(c)中的「下一个尺度预测」，不同于传统图2(b)中的「下一个token的预测」。

VAR方法首先将图像编码为多尺度的token映射，然后，自回归过程从1×1token映射开始，并逐步扩展分辨率。

在每一步中，Transformer会基于之前所有的token映射去预测下一个更高分辨率的token映射。由此，研究人员将此称为视觉自回归建模（VAR）。

VAR包括两个独立的训练阶段：在图像上训练多尺度VQVAE，在token上训练VAR Transformer。

第一阶段，多尺度VQ自动编码器将图像编码为K个token映射R=(r_1,r_2,…,r_K)，并通过复合损失函数进行训练。第二阶段，通过下一尺度预测对VAR Transformer进行训练：它以低分辨率token映射 ([s],r_1,r_2,…,r_K−1)作为输入，预测更高分辨率的token映射 (r_1,r_2,r_3,…,r_K)。训练过程中，使用注意力掩码确保每个r_k仅能关注 r_≤k。训练目标采用标准的交叉熵损失函数，用于优化预测精度。

不知道这个事情的后续会如何，真是越来越“有趣”了。

相关来源：

https://mp.weixin.qq.com/s/JkAxEW7pPfg5_sf6ToN31g

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

正文

以下内容，转自：新智元

3D视觉工坊知识星球

请到「今天看啥」查看全文