专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
爱可可-爱生活  ·  【AI-Powered Podcast ... ·  22 小时前  
国际金融报  ·  马斯克寻求收购OpenAI,奥尔特曼回应 ·  昨天  
金融早实习  ·  平安资管2025社会招聘 ·  2 天前  
51好读  ›  专栏  ›  深度之眼

性能超Transformer!Mamba系列论文整理分享

深度之眼  · 公众号  ·  · 2024-05-09 18:53

正文

Mamba

0 1

Mamba作为一种新型的选择性 状态空间模型 方法,在语言建模方面可以媲美Transformer,并且目前已经有了很多结合 Mamba 的研究成果。


那么,今天我就整理了 Mamba经典论文+Mamba大模型/遥感/医学/综述 等论文合集。 论文合集获取方式如下:

添加课程回复 "Mamba"

01.Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Transformer 模型中自 注意力机制 的计算量会随着上下文长度的增加呈平方级增长 ,计算效率非常低。在这篇论文中,研究者提出了一种新架构—「选择性状态空间模型」。


02.MoE-Mamba: Effcient Selective State Space Models with Mixture of Experts

状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现 线性时间 的推理、并行化训练和强大的性能。本文的研究成果是 MoE-Mamba,是将 Mamba 和混合专家层组合起来的模型。MoE-Mamba 能同时提升 SSM 和 MoE 的效率。而且该团队还发现,当专家的数量发生变化时,MoE-Mamba 的行为是可预测的。


03.Mamba前世今生:MODELING SEQUENCES WITH STRUCTURED STATE SPACES


文中 提出一个用于对连续信号进行增量建模的新颖数学框架,该框架可与状态空间模型相结合,为其赋予原则性的状态表示,并提高其对长程依赖关系的建模能力。


04.Vision Mamba: Effcient Visual Representation Learning with Bidirectiona State Space Model


本文提出Vision Mamba,在 ImageNet 分类任务、COCO 对象检测任务上,与 DeiT等成熟的视觉 Transformers 相比,Vim 实现了更高性能,还显著提高了计算和内存效率。

Vim 能够克服对高分辨率图像执行 Transformer 式理解时的计算和内存限制,并且具有成为视觉基础模型的下一代骨干的巨大潜力。


Mamba经典论文+Mamba大模型/遥感/医学/综述 等论文合集。 论文合集获取方式如下:

添加课程回复 "Mamba"



05:VMamba:Visual State Space Model


卷积神经网络(CNN)和视觉Transformer(ViT)是视觉表示学习的两种最流行的基础模型。虽然ViT 的拟合能力超过了CNN,但其复杂性却是二次方。

受 Mamba 模型的启发,研究者设计出一种在线性复杂度下同时具有这两种优秀性质的模型,即 Visual State Space Model(VMamba)。大量的实验证明,VMamba 在各种视觉任务中表现卓越。如下图所示,VMamba-S 在 ImageNet-1K 上达到 83.5% 的正确率,比 Vim-S 高 3.2%,比 Swin-S 高 0.5%。


06:SSM + Transformer:Block-State lransformers


SSM 最初是为连续信号而设计的,现已在视觉和音频等众多任务中表现出卓越的性能。然而,SSM 在语言建模任务中的性能仍然落后于 Transformer。

为此,本文作者提出了一个名为块状态Transformer(BST)的混合层,它在内部结合了用于远程上下文化的 SSM 子层和用于序列短期表示的块变换器子层。

07:







请到「今天看啥」查看全文