【深度学习】Mamba-YOLO-World: 将 YOLO-World 与 Mamba 结合用于开放词汇检测

机器学习初学者 · 公众号 · · 2024-11-28 12:00

正文

论文信息

题目：Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

Mamba-YOLO-World: 将 YOLO-World 与 Mamba 结合用于开放词汇检测

作者：Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang

论文创新点

Mamba-YOLO-World模型 ：作者提出了一个新颖的基于YOLO的开放词汇检测(OVD)模型，名为 Mamba-YOLO-World 。该模型采用了作者提出的**MambaFusion Path Aggregation Network (MambaFusion-PAN)**作为其颈部架构，这是对传统YOLO系列在OVD领域应用的一个重要扩展。
基于状态空间模型的特征融合机制 ：作者引入了一个创新的基于状态空间模型的特征融合机制，包括 并行引导选择性扫描算法 和 串行引导选择性扫描算法 。这一机制具有 线性复杂度 和 全局引导的接受域 ，能够有效地利用多模态输入序列和mamba隐藏状态来指导选择性扫描过程，从而提高了模型在开放词汇检测任务中的表现。

摘要

开放词汇检测（OVD）旨在检测超出预定义类别集的对象。作为将 YOLO 系列纳入 OVD 的先驱模型，YOLO-World 非常适合优先考虑速度和效率的场景。然而，其性能受到其颈部特征融合机制的限制，这导致了二次复杂度和有限的引导接受域。为了解决这些限制，我们提出了 Mamba-YOLO-World，这是一个新颖的基于 YOLO 的 OVD 模型，采用了我们提出的 MambaFusion Path Aggregation Network（MambaFusion-PAN）作为其颈部架构。具体来说，我们引入了一个创新的基于状态空间模型的特征融合机制，包括一个并行引导选择性扫描算法和一个串行引导选择性扫描算法，具有线性复杂度和全局引导的接受域。它利用多模态输入序列和 mamba 隐藏状态来指导选择性扫描过程。实验表明，我们的模型在 COCO 和 LVIS 基准测试中的零样本和微调设置下均优于原始的 YOLO-World，同时保持了可比的参数和 FLOPs。此外，它以更少的参数和 FLOPs 超越了现有的最先进的 OVD 方法。关键词—目标检测，开放词汇，Mamba

关键词

目标检测、开放词汇、Mamba

方法

Mamba-YOLO-World 主要基于 YOLOv8[30] 开发，包括一个 Darknet 背骨[3]和一个 CLIP[31] 文本编码器作为模型的背骨，我们的 MambaFusion-PAN 作为模型的颈部，以及一个文本对比分类头和一个边界框回归头作为模型的头部，如图 2 所示。

Mamba 预备知识

对于连续输入信号，SSM[32] 将其映射到连续输出信号通过一个隐藏状态。 (1) (2) 其中 E 是 SSM 状态扩展因子，是状态转移矩阵，和分别是输入和输出映射矩阵。在 SSM 的基础上，Mamba[21] 引入了选择性扫描算法，使 A、B 和 C 成为输入序列的函数。

MambaFusion-PAN

MambaFusion-PAN 是作者提出的用于替换 YOLO 中路径聚合特征金字塔网络的特征融合网络。如图 2(a) 所示，MambaFusion-PAN 利用作者提出的基于 SSM 的并行和串行特征融合机制来聚合多尺度图像特征，并通过视觉和语言分支之间的三阶段特征融合流程同时增强文本特征：文本到图像、图像到文本，最后是文本到图像。具体组件在本节的以下部分详细说明。

Mamba 隐藏状态

目前，基于 Transformer 和基于 Mamba 的 VLMs 简单地串联多模态特征[18]、[19]、[27]-[29]、[33]、[34]，导致随着文本序列长度和图像分辨率的增长，复杂度不可避免地增加。尽管 YOLO-World 中的 VL-PAN 采用了单向融合而没有特征串联，但它仍然导致了 O(N^2) 复杂度。这是由于文本到图像融合流程中的视觉通道注意力机制和图像到文本融合流程中的多头交叉注意力机制。为了解决这些问题，我们提出通过 mamba 隐藏状态作为不同模态之间特征融合的中介，其中 D 是输入序列的维度，E 是 SSM 状态扩展因子[21]、[26]。由于 D 和 E 都是常数且不受序列长度的影响，我们的特征融合机制的复杂度为 O(N + 1)，其中 N 来自一个模态的输入序列，1 来自另一个模态的 mamba 隐藏状态。

TextMambaBlock

TextMambaBlock 由堆叠的 Mamba 层组成。给定从 CLIP 文本编码器输出的文本嵌入，我们采用图 2(b) 中描述的 TextMambaBlock 不仅提取输出文本特征，还提取文本隐藏状态 THS ，这将用于后续的文本到图像特征融合。

MF-CSPLayer

如图 2(c) 所示，我们通过 MambaFusion CSPLayer（MF-CSPLayer）将 THS 与多尺度图像特征集成在一起。MF-CSPLayer 将提出的并行引导选择性扫描算法并入 YOLO CSPLayer 风格的网络中。通过 MFCSPLayer 处理后我们不仅可以获得输出图像特征，还可以获得图像隐藏状态 IHS