专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
勤于奋  ·  月入98美刀的网站 ·  19 小时前  
勤于奋  ·  月入98美刀的网站 ·  19 小时前  
51好读  ›  专栏  ›  深度学习与图网络

一种树状结构状态空间模型GrootVL: 突破序列约束,实现了更强的表示能力

深度学习与图网络  · 公众号  ·  · 2024-08-04 21:54

主要观点总结

本文提出一种树状结构状态空间模型GrootVL,用于视觉和语言任务。该模型突破序列约束,实现更强表示能力,并在多个任务上取得显著性能提升。文章介绍了GrootVL的设计原理、实现步骤、实验发现和结论。

关键观点总结

关键观点1: 提出树状结构状态空间模型GrootVL,适用于视觉和语言任务。

GrootVL通过动态生成树状拓扑结构,实现更强的表示能力,并在多个视觉和语言任务上取得显著性能提升。

关键观点2: GrootVL的设计原理和实现步骤。

GrootVL包括用于视觉任务的GrootV和用于语言任务的GrootL两个子网络。其核心是树状状态空间模型,实现步骤包括树状拓扑生成、状态传播、动态规划算法和输出特征生成。

关键观点3: 广泛的实验结果验证了GrootVL的有效性。

在图像分类、目标检测、语义分割等视觉任务,以及多个语言理解任务上,GrootVL取得了显著的性能提升。实验还发现,GrootVL能够更好地保留详细的结构信息,捕捉长程依赖关系。


正文

这篇论文提出了一种 树状结构状态空间模型GrootVL ,用于视觉和语言任务。该模型通过动态生成树状拓扑结构, 突破了序列约束,实现了更强的表示能力 。这篇论文它在多个视觉和语言任务上都取得了显著的性能提升,为状态空间模型在多模态任务中的应用提供了新的思路。

1. 基本信息

  • 论文题目:GrootVL: Tree Topology is All You Need in State Space Model
  • 作者:Yicheng Xiao, Lin Song, Shaoli Huang, Jiangshan Wang, Siyu Song, Yixiao Ge, Xiu Li, Ying Shan
  • 作者研究单位:
    • Tsinghua Shenzhen International Graduate School, Tsinghua University
    • ARC Lab, Tencent PCG
    • Tencent AI Lab
    • South China Normal University
  • 代码链接:https://github.com/EasonXiao-888/GrootVL

2. 研究背景

状态空间模型(SSMs)通过递归传播特征,展现出与Transformer模型相当的表示能力和更高的效率。但是,受限于序列的内在几何约束, SSMs在建模长程依赖关系方面还有不足 。为解决这个问题,本文提出了GrootVL网络。

传统SSMs在处理视觉任务时, 通常采用固定的扫描策略(如光栅扫描、局部扫描等)将2D图像特征映射为1D序列。这些方法无法有效捕捉空间关系,也不能根据输入动态调整拓扑结构 。因此,本文探索了一种新的视角:在状态空间模型中引入输入感知的拓扑网络进行特征传播。

对于语言任务,传统的递归神经网络依赖固定的记忆来保存过去的信息,这在处理长上下文时存在局限性。 虽然Mamba等方法引入了选择机制来增强上下文感知能力,但其固定的记忆大小仍然无法随时间扩展,导致在长序列处理中的外推能力下降。

3. 方法

本文提出的GrootVL框架包括两个子网络:用于视觉任务的GrootV和用于语言任务的GrootL。这两个子网络的核心是树状状态空间模型,其实现步骤如下:

  1. 树状拓扑生成:
  • 视觉任务: 先构建四连通平面图,再利用相邻特征间的不相似度构建最小生成树
  • 语言任务: 基于token特征间的不相似度构建树状拓扑
  1. 状态传播:

  • 在生成的树状拓扑上进行特征传播。对每个顶点,将其视为根节点,从其他顶点聚合特征。

  • 状态聚合过程表示为:

    其中, 是树中所有顶点的索引集, 是从第j个顶点到第i个顶点的路径权重, 是这条路径上所有顶点的索引集。

  • 动态规划算法:

    • 为降低计算复杂度,本文提出了一种动态规划算法,将复杂度从 降至 ,其中 是序列长度或输入像素数。
    • 算法包括两次遍历:从叶到根的聚合过程和从根到叶的传播过程。
  • 输出特征生成:

    • 最终的输出特征Y表示为:

      其中,







    请到「今天看啥」查看全文