专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
新疆949交通广播  ·  紧急声明!“安装”教程销量上千……商家回应亮了 ·  14 小时前  
新疆949交通广播  ·  新疆各地大中小学开学时间来了! ·  昨天  
新疆是个好地方  ·  新疆,全国前五! ·  2 天前  
新疆是个好地方  ·  新疆,全国前五! ·  2 天前  
桂林晚报  ·  连续地震!最大5.0级!网友:直接被晃醒 ·  3 天前  
中国能建  ·  家乡的腔调,安排! ·  4 天前  
51好读  ›  专栏  ›  3D视觉工坊

ViT被颠覆?LSTM一作重磅开源ViL:计算机视觉通用Backbone!(ICLR'25)

3D视觉工坊  · 公众号  ·  · 2025-02-01 08:41

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Vision-LSTM: xLSTM as Generic Vision Backbone

作者:Benedikt Alkin, Maximilian Beck, Korbinian Pöppel, Sepp Hochreiter, Johannes Brandstetter

机构:Institute for Machine Learning、NXAI Lab

原文链接:https://arxiv.org/abs/2406.04303

代码链接:https://github.com/NX-AI/vision-lstm

1. 导读

尽管最初是为自然语言处理而引入的,但变压器被广泛用作计算机视觉中的通用主干。最近,长短期记忆(LSTM)已经扩展到可扩展和高性能的架构-XL STM-它通过指数门控和可并行化的矩阵存储结构克服了长期存在的LSTM限制。在本报告中,我们将介绍视觉LSTM (ViL),它是xLSTM构建模块对计算机视觉的一种改编。ViL包括xLSTM块的堆栈,其中奇数块从上到下处理补丁令牌序列,而偶数块从下到上处理。实验表明,ViL有希望作为计算机视觉体系结构的新的通用主干进一步部署。

2. 效果展示

lmageNet-1K预训练模型与预训练模型之间的性能概览。ViL在分类和语义分割任务中表现出强劲的性能。

表1将参数计数和FLOPS与在ImageNet-1K上进行预训练后的分类准确性相关联。ViL在微型和小型规模上优于经过大量优化的ViT协议和其他骨干网络。虽然ViL在基本规模上并不优于所有其他模型,但下游任务的评估(如表2中所示)表明ViL-B仍然学习强大的特征。此外,训练ViL-B400个周期大约需要600个A100GPU小时或32个A100GPU的19小时。因此,超参数配置很可能不是最优的,因为我们无法为这种规模进行广泛的超参数优化。请注意,培训ViL仍然非常昂贵,因为目前还不存在优化硬件实现,而其他模型如ViT或Vim确实存在优化硬件。尽管如此,VIL高效的交替块设计使得它已经比Vim快了(如附录B.1所示高达69%),而只使用torch.compile,这是PyTorch的一个通用速度优化框架。

3. 引言

语言建模架构--比如Transformers或者最近的状态空间模型,比如Mamba,通常适用于计算机视觉领域,以利用其强大的建模能力。然而,在自然语言处理中,输入句子通常被编码为表示单词或常见子词的符号。通过离散词汇。将图像编码为一组令牌,Vision Transformer (ViT)建议将输入图像分组为不重叠的片段(例如:16x16像素),将它们线性投射到所谓的补丁标记序列中,并向这些标记添加位置信息。然后,这个序列可以由语言建模架构处理。

扩展长短期记忆(xLSTM)家族最近被引入,作为一种新的语言建模架构。它展示了LSTM在LLM时代的复苏,在Transformers和StateSpaceModels(SSM)等软件上表现出色。模拟现有的Transformers或状态空间模型的视觉版本,例如ViT或视觉曼巴,在各种计算机视觉任务中产生了巨大的成果,我们介绍了视觉LSTM(ViL)-一个通用的计算机视觉骨干,使用xLSTM块作为其核心组件。为了调整xLSTM(一个自回归模型)到计算机视觉(一个经常是非自回归域)我们采用了交替mLSTM块的堆栈其中奇数块按行顺序处理补丁,从左上到右下,焦数块从右下到左上。这种简单的交替设计允许ViL高效地处理非序列输入,例如图像,而无需引入额外的计算。 推荐课程: 聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等

类似于SSMs的视觉适应,ViL在序列长度上表现出线性的计算和内存复杂度,这使得它在受益于高分辨率图像的任务中很有吸引力,如医学成像,分割,或物理模拟。相比之下,ViT的计算复杂度由于自注意力机制而呈二次方增长,这使得它们在应用于高分辨率任务时成本高昂。

4. 方法

Vision-LSTM(ViL)的示意图。在ViT之后,首先,将输入图像分割成小块并线性投影。然后,在每个位置向小块添加可学习的向量,产生一系列小块标记。然后,过交替的mLSTM块处理该序列,其中偶数块在mLSTM层前后翻转序列。对于分类,VilL使用第一和最后一个小块作为输入,并将其拼接到一个线性分类头中。

5. 总结 & 未来工作

受到xLSTM在语言建模方面成功的激励,我们引入了ViL,这是xLSTM架构在视觉任务上的一个适应版本。ViL以交替方式处理一系列补丁标记。奇数块从左上角到右下角逐行处理图像补丁,偶数块从右下角到左上角。我们的新架构在lmageNet-1K分类、VTAB-1K迁移分类和ADE20K语义分割方面优干基干SSM的视觉架构,并优化了ViT模型。值得注意的是,ViL能够优干ViT训练管道,后者是多年超参数调优和Transformer改进的结果。

在未来,我们看到了在高分辨率图像需要最佳性能时应用ViL的潜力,例如语义分割或医学成像。在这些设置中,由于自注意力的二次复杂性,变换器受到高计算成本的困扰,而ViL可以使用分块形式在并行形式(二次复杂性)和递归形式(线性复杂性)之间进行权衡。此外,改进预训练方案(例如通过自监督学习)、探索更好的超参数设置或研究分层架构是有望进一步提高ViL的未来方向。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接







请到「今天看啥」查看全文