深度图学习与大模型LLM(小编):
大家好,今天向大家介绍一篇最近发布的研究论文(April 24, 2024)。这篇论文全面综述了最近的一大研究热点Mamaba, 或者称之为State Space Models (SSMs)。文章总结了SSMs在这些领域的最新进展,并将其分为Gating architectures、Structural architectures和Recurrent architectures三大范式。此外,论文还整合了SSMs在Long Range Arena (LRA)、WikiText、Glue、Pile和ImageNet等基准数据集上的表现。推荐对长序列建模感兴趣的同学阅读。
做研究应该追热点还是在某个领域深入挖掘呢?不同的人有不同的看法?但小编认为两者并不冲突
1. 基本信息
论文题目:Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges
作者:Badri Narayana Patro, Vijay Srinivas Agneeswaran
作者研究单位:Microsoft
主页:
https://github.com/badripatro/mamba360
2. 研究背景
循环神经网络(RNNs)和长短期记忆网络(LSTMs)长期以来在机器翻译、命名实体识别等序列建模任务中占据主导地位。但是,Transformers的出现改变了这一格局。不过,Transformers
的注意力复杂度,以及在处理归纳偏置方面的在序列建模有很大的问题。
为解决这些问题,最近研究提出了使用频谱网络或卷积的变体,并在一系列任务上取得了良好表现。但是,它们在处理长序列时还不行。
在此背景下,State Space Models(SSMs)成为长序列建模的佼佼者,特别是随着S4及其变体(如S4nd、Hippo、Hyena、Diagonal State Spaces (DSS)、Gated State Spaces (GSS)、Linear Recurrent Unit (LRU)、Liquid-S4、Mamba等)的出现。
这篇综述论文关注了下面的问题:
综述SSMs的基础知识,解释其内部工作原理和数学基础。
对SSMs进行系统分类,阐明该领域的最新进展。通过梳理SSMs,可深入了解它们的特点和潜在应用。
探讨SSMs在自然语言处理、医学诊断等各领域的应用。
评估SSMs的性能,并与Transformers进行比较。这种比较分析为我们提供了每种方法在特定领域和任务中优缺点的信息。
3. 方法
本文将SSMs分为Structural architectures、Recurrent architectures和Gated architectures三大类。
3.1 Structural State Space Models
Structured State Space Models (SSMs)包括多种创新方法,如S4、HiPPO、H3和Liquid-S4。这些模型利用复杂机制(如多项式投影算子、多输入多输出系统和卷积核)来有效捕获长程依赖关系。它们在不同基准测试中展现出色表现,体现了处理序列数据的效率和有效性。
其中一个代表性模型是S4,引入了三个重要机制:
Higher-Order Polynomial Project Operator (HiPPO):HiPPO对状态和输入转移矩阵进行操作,以有效记忆信号历史,使模型能够捕获长期依赖关系。
对角加低秩参数化:S4使用低秩校正来调节SSM矩阵(A),以稳定它,确保可对角化和稳定性。
高效(卷积)核计算:S4利用FFT和iFFT高效计算转移矩阵,将整体复杂度降低到
。
S4是首个在Path-X任务上解决LRA基准测试的SSM,并将计算复杂度降低到
。S4在各种基准测试中表现出色。在没有数据增强或辅助损失的情况下,它在顺序CIFAR-10上实现了91%的准确率。
S4缩小了与transformer在图像和语言建模任务上的差距,同时速度更快。
3.2 Recurrent SSMs