一种树状结构状态空间模型GrootVL: 突破序列约束，实现了更强的表示能力

深度学习与图网络 · 公众号 · · 2024-08-04 21:54

主要观点总结

本文提出一种树状结构状态空间模型GrootVL，用于视觉和语言任务。该模型突破序列约束，实现更强表示能力，并在多个任务上取得显著性能提升。文章介绍了GrootVL的设计原理、实现步骤、实验发现和结论。

GrootVL通过动态生成树状拓扑结构，实现更强的表示能力，并在多个视觉和语言任务上取得显著性能提升。

GrootVL包括用于视觉任务的GrootV和用于语言任务的GrootL两个子网络。其核心是树状状态空间模型，实现步骤包括树状拓扑生成、状态传播、动态规划算法和输出特征生成。

在图像分类、目标检测、语义分割等视觉任务，以及多个语言理解任务上，GrootVL取得了显著的性能提升。实验还发现，GrootVL能够更好地保留详细的结构信息，捕捉长程依赖关系。

这篇论文提出了一种 树状结构状态空间模型GrootVL ，用于视觉和语言任务。该模型通过动态生成树状拓扑结构， 突破了序列约束，实现了更强的表示能力 。这篇论文它在多个视觉和语言任务上都取得了显著的性能提升，为状态空间模型在多模态任务中的应用提供了新的思路。

论文题目：GrootVL: Tree Topology is All You Need in State Space Model
作者：Yicheng Xiao, Lin Song, Shaoli Huang, Jiangshan Wang, Siyu Song, Yixiao Ge, Xiu Li, Ying Shan
作者研究单位：

状态空间模型(SSMs)通过递归传播特征，展现出与Transformer模型相当的表示能力和更高的效率。但是，受限于序列的内在几何约束， SSMs在建模长程依赖关系方面还有不足 。为解决这个问题，本文提出了GrootVL网络。

传统SSMs在处理视觉任务时， 通常采用固定的扫描策略（如光栅扫描、局部扫描等）将2D图像特征映射为1D序列。这些方法无法有效捕捉空间关系，也不能根据输入动态调整拓扑结构 。因此，本文探索了一种新的视角：在状态空间模型中引入输入感知的拓扑网络进行特征传播。

对于语言任务，传统的递归神经网络依赖固定的记忆来保存过去的信息，这在处理长上下文时存在局限性。 虽然Mamba等方法引入了选择机制来增强上下文感知能力，但其固定的记忆大小仍然无法随时间扩展，导致在长序列处理中的外推能力下降。

本文提出的GrootVL框架包括两个子网络：用于视觉任务的GrootV和用于语言任务的GrootL。这两个子网络的核心是树状状态空间模型，其实现步骤如下：

动态规划算法：

输出特征生成：