本文提出一种树状结构状态空间模型GrootVL,用于视觉和语言任务。该模型突破序列约束,实现更强表示能力,并在多个任务上取得显著性能提升。文章介绍了GrootVL的设计原理、实现步骤、实验发现和结论。
GrootVL通过动态生成树状拓扑结构,实现更强的表示能力,并在多个视觉和语言任务上取得显著性能提升。
GrootVL包括用于视觉任务的GrootV和用于语言任务的GrootL两个子网络。其核心是树状状态空间模型,实现步骤包括树状拓扑生成、状态传播、动态规划算法和输出特征生成。
在图像分类、目标检测、语义分割等视觉任务,以及多个语言理解任务上,GrootVL取得了显著的性能提升。实验还发现,GrootVL能够更好地保留详细的结构信息,捕捉长程依赖关系。
这篇论文提出了一种
树状结构状态空间模型GrootVL
,用于视觉和语言任务。该模型通过动态生成树状拓扑结构,
突破了序列约束,实现了更强的表示能力
。这篇论文它在多个视觉和语言任务上都取得了显著的性能提升,为状态空间模型在多模态任务中的应用提供了新的思路。
1. 基本信息
-
论文题目:GrootVL: Tree Topology is All You Need in State Space Model
-
作者:Yicheng Xiao, Lin Song, Shaoli Huang, Jiangshan Wang, Siyu Song, Yixiao Ge, Xiu Li, Ying Shan
-
-
Tsinghua Shenzhen International Graduate School, Tsinghua University
-
-
-
South China Normal University
-
代码链接:https://github.com/EasonXiao-888/GrootVL
2. 研究背景
状态空间模型(SSMs)通过递归传播特征,展现出与Transformer模型相当的表示能力和更高的效率。但是,受限于序列的内在几何约束,
SSMs在建模长程依赖关系方面还有不足
。为解决这个问题,本文提出了GrootVL网络。
传统SSMs在处理视觉任务时,
通常采用固定的扫描策略(如光栅扫描、局部扫描等)将2D图像特征映射为1D序列。这些方法无法有效捕捉空间关系,也不能根据输入动态调整拓扑结构
。因此,本文探索了一种新的视角:在状态空间模型中引入输入感知的拓扑网络进行特征传播。
对于语言任务,传统的递归神经网络依赖固定的记忆来保存过去的信息,这在处理长上下文时存在局限性。
虽然Mamba等方法引入了选择机制来增强上下文感知能力,但其固定的记忆大小仍然无法随时间扩展,导致在长序列处理中的外推能力下降。
3. 方法
本文提出的GrootVL框架包括两个子网络:用于视觉任务的GrootV和用于语言任务的GrootL。这两个子网络的核心是树状状态空间模型,其实现步骤如下:
-
-
视觉任务:
先构建四连通平面图,再利用相邻特征间的不相似度构建最小生成树
。
-
语言任务:
基于token特征间的不相似度构建树状拓扑
。
-
-
在生成的树状拓扑上进行特征传播。对每个顶点,将其视为根节点,从其他顶点聚合特征。
-
状态聚合过程表示为:
其中,
是树中所有顶点的索引集,
是从第j个顶点到第i个顶点的路径权重,
是这条路径上所有顶点的索引集。
-
为降低计算复杂度,本文提出了一种动态规划算法,将复杂度从
降至
,其中
是序列长度或输入像素数。
-
算法包括两次遍历:从叶到根的聚合过程和从根到叶的传播过程。