本篇分享 NeurIPS 2024 论文
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model
,北大联合阿里提出 MaVEn:面向多模态大模型多图理解的连续/离散视觉混合编码策略。
论文地址:https://arxiv.org/pdf/2408.12321
代码地址:https://github.com/orgs/X-PLUG/repositories
研究动机与背景
近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理复杂的视觉-语言任务上表现出巨大潜力。通过结合自然语言处理和计算机视觉技术,这些模型在单图像描述生成、视觉问答等任务中取得了突破。然而,随着实际应用需求的不断增长,当前的MLLMs在
多图像推理任务
上仍然面临重大挑战。这些挑战主要表现在以下几个方面:
视觉信息冗余与序列长度问题
多图像任务(如多视角事件推理、多图像关系分析)通常涉及多张图像输入。这会导致视觉特征序列过长,不仅增加了模型的计算开销,还可能引入大量冗余信息,削弱模型对关键语义的捕获能力。例如,传统视觉编码方式常将图像的每一局部特征以连续序列的形式输入到模型中,当输入图像数量增加时,序列长度呈指数级增长,极大地限制了推理效率。
语义抽象能力不足
当前的MLLMs在处理视觉信息时,大多依赖连续特征(如卷积神经网络或视觉Transformer生成的特征向量)。虽然这种方式能够捕获图像的细节信息,但在语义层次上的抽象能力较弱,尤其是在多图像场景中,难以精准地建模图像间的高层语义关联。此外,这种特征表示容易受到无关细节的干扰,限制了模型在语义推理任务中的表现。
多模态对齐与跨图像推理的困难
多图像任务要求模型不仅能够提取单张图像的语义,还需要综合多张图像的语义信息,进行逻辑推理和关系建模。这种跨图像的语义关联需要更强大的多粒度信息融合能力,而现有模型在这方面存在明显不足。例如,多图像任务中的图像间关系可能涉及时间序列、空间分布或抽象事件的因果关联,单一粒度的视觉表征很难全面捕捉这些复杂关系。
基于上述挑战,作者提出了一种名为
MaVEn(Multi-granularity Hybrid Visual Encoding Framework
的混合视觉编码框架。该框架旨在通过整合离散和连续的视觉表征方式,以多粒度的语义建模来提升MLLMs在多图像任务中的推理能力,并通过动态序列压缩机制解决计算效率问题。
图1:多图像场景下的模型性能比较
图1. 我们对比了经典的单图像任务训练的多模态大语言模型 LLaVA1.5和Mavenn在三种多图像场景(多图像推理、基于知识的视觉问答和视觉关系推断)中的性能表现。LLaVA1.5 在多图像场景下表现出显著的局限性
方法(Method)
本文提出了一种基于多粒度视觉特征的多模态大语言模型(MLLM)架构,如图2所示,该架构能够有效增强多图像理解能力。图像输入被编码为
离散符号序列
和
连续高维向量序列
两种形式。
离散视觉符号序列提取了图像中粗粒度的核心视觉概念,而连续向量序列则保留了图像的细粒度信息。此外,为了减少多图像场景中连续视觉序列的冗余信息和无关表示,并缩短输入上下文长度,框架还引入了一种基于文本语义引导的动态视觉特征缩减策略。以下为该方法的具体模块和机制。
图2:多粒度混合视觉编码框架结构
图2. 子图(a)展示了多粒度混合视觉编码框架的结构示意图;子图(b)展示了在离散视觉信息指导下的连续视觉特征缩减机制
1.多粒度混合编码(Multi-Granularity Hybrid Encoding)
如图2 所示,假设输入为
,其中
表示
张图像的集合,
为对应的文本内容。对于每张图像
(
),分别采用离散视觉编码器
(
)
和连续视觉编码器
(
)
进行编码。
1.1 离散视觉编码(Visual Discrete Encoding)
图像
通过离散视觉标记器
,例如
(
)
被离散化为一组视觉符号序列:
其中,
,
是视觉离散编码词汇表的大小。
将视觉离散词汇与文本词汇合并形成统一的多模态词汇。假设语言模型的词汇表大小为
,视觉词汇表大小为
,则多模态词汇表大小为
。
视觉离散序列
被重新对齐到多模态词汇表的索引中,最终离散编码形式为:
其中,
。
同时,语言模型嵌入层的权重矩阵
从
扩展到
,从而能够同时嵌入视觉和文本离散符号。
将连续视觉特征与离散视觉特征进行序列拼接,形成输入到 LLM 的最终视觉表示:
1.2连续视觉编码(Visual Continuous Encoding)
使用视觉变换器(Vision Transformer, ViT)对输入图像
进行编码。假设图像尺寸为
,首先将其划分为大小为
的图像块(patch),生成
个图像块。
这些图像块通过 ViT 编码器被编码为连续视觉特征序列:
其中,
,
是维度为
的连续向量。
使用基于文本语义的补丁(patch)缩减模块,对
中与输入文本内容
无关的特征进行动态裁剪。
最后,使用类似于 LLaVA 1.5 的多层感知机(MLP)投影器将
投影到与语言模型(LLM)嵌入层一致的语义空间中。
2.连续视觉特征缩减机制(Continuous Visual Tokens Reduction Mechanism)
动机
:
连续视觉特征序列
中存在较多冗余或重复语义信息。为了避免这些信息影响模型的推理效率,本文提出了一种在离散视觉信息指导下的连续特征缩减机制,以实现语义协同。