专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

MMEvol：赋能多模态大型语言模型的 Evol-Instruct

FightingCV · 公众号 · · 2024-10-20 09:00

正文

摘要

多模态大型语言模型 (MLLMs) 的发展在各个领域（例如多模态代理、具身智能）的日益增长的需求推动下取得了重大进展。尽管模型驱动的方法试图通过不同的架构来增强 MLLMs 的能力，但其收益已变得越来越微不足道。相反，数据驱动的方法通过扩展图像文本指令数据来提升效率，但面临着数据多样性和复杂性有限的挑战。高质量数据的缺乏构成了 MLLMs 发展的一大障碍。为了解决数据质量瓶颈，我们提出了 MMEvol ，一个新颖的多模态指令数据演化框架。该框架通过细粒度感知、认知推理和交互演化的精细组合迭代地提高数据质量，生成更复杂和多样化的图像文本指令数据集，从而赋予 MLLMs 更强的能力。从一组初始指令 SEED-163K 开始，我们利用 MMEvol 有条不紊地扩展指令类型的多样性，延长视觉推理步骤以提高认知推理能力，并深入探索图像中的细粒度信息以增强视觉理解和鲁棒性。为了全面评估我们方法的有效性，我们在 13 个视觉语言任务中进行了广泛的定性分析和定量实验。与使用初始种子数据训练的基线模型相比，结果表明我们的方法平均精度提高了 3.1 个百分点。此外，与最先进的模型相比，我们的方法在九项任务中使用明显更少的数据实现了最先进 (SOTA) 的性能。项目页面可从 https://mmevol.github.io/ 访问。

1 引言

“真正的知识获取在于掌握最细微的细节。”

亚里士多德，公元前 4 世纪

多模态大型语言模型 (MLLMs) (Liu et al., 2024b; a; Li et al., 2023b; Dong et al., 2023; Sun et al., 2023b; Dai et al., 2024; Luo et al., 2024; Qi et al., 2024) 在过去两年中发展迅速，已成为各种视觉语言任务的首选方法 (Kembhavi et al., 2016; Fu et al., 2024; Zhang et al., 2024a; Qian et al., 2024) 。通过将视觉编码器 (Radford et al., 2021; Zhai et al., 2023; Sun et al., 2023a) 与 LLMs (Touvron et al., 2023; Bai et al., 2023; Lu et al., 2024; Young et al., 2024; Tao et al., 2024) 对齐，并采用大规模粗粒度图像文本预训练 (Zhu et al., 2024; Schuhmann et al., 2022; 2021) ，然后进行小规模指令调优 (Chen et al., 2024a; Liu et al., 2024b) ，MLLMs 在众多视觉语言任务中展现出令人印象深刻的能力，并在许多领域（例如多模态代理、具身智能）得到广泛应用。模型驱动的方法 (Luo et al., 2024; Liu et al., 2024a; Tong et al., 2024; Zhang et al., 2024b) 旨在通过设计不同的网络架构来提高 MLLMs 的性能，从而更有效地整合来自图像和文本的知识。然而，由于缺乏高质量数据，它们的有效性正在下降，而冗余的模型设计难以发挥其潜力并推动模型智能的边界。相反，数据驱动方法 (Liu 等人，2024b；Chen 等人，2024a；Yu 等人，2023；Liu 等人，2024c；Fang 等人，2024；Chen 等人，2023) 虽然更有效，但通常会产生多样性和复杂性有限的数据。缺乏高质量数据仍然是多模态大语言模型 (MLLMs) 开发中一个重大障碍。因此，迫切需要开发能够以相对低成本生成更具挑战性和多样化的指令数据的自动化方法，以增强MLLMs的能力。

图 1: MMEvol 概述。指令演化和指令消除通过多轮协同合作，以增强指令数据的多样性和复杂性。

对现有的用于生成图像-文本指令数据的基于数据的分析方法的分析揭示了三个常见的局限性：1) 指令多样性有限。手动标注的指令受限于标注者的认知能力，而模型生成的指令受限于模板预设，难以满足现实世界中各种任务需求。这限制了MLLMs的指令遵循能力。 2) 指令复杂度有限。手动标注通常会导致简单或中等复杂度的指令，而自动生成的指令往往简短且缺乏视觉推理步骤，这限制了模型处理复杂任务的能力。 3) 对齐粒度不足。手动和模型生成的指令都主要关注常见物体，而忽略了稀有或小物体，导致图像-文本对齐的粒度有限。这会影响模型的视觉感知鲁棒性和对幻觉的抵抗力。

为了解决这些限制，我们提出了 MMEvol ，这是一种利用先进的MLLMs进行迭代演化的全新方法。该方法自动生成各种类型的开放域指令，并涵盖不同的难度级别，以提高MLLMs的性能。鉴于视觉语言指令数据受视觉内容的限制，通过Evol-Instruct (Xu 等人，2023；Luo 等人，2023a；b) 多次迭代生成的数据往往包含简单的复述和与视觉内容无关的数据，使得深度和广泛的演化具有挑战性。因此，我们对演化提示过程进行了若干调整，最终开发出一种图像-文本指令演化范式。这些调整包括一个更精细的图像-文本指令数据范式，以及定义了三个演化方向：细粒度感知演化、认知推理演化和交互演化。 MMEvol 机制总结在图 1 中，每个演化周期包含两个主要步骤：指令演化和指令消除。指令演化随机选择细粒度感知演化、认知推理演化或交互演化之一，将简单的指令升级为更复杂或更多样化的指令。具体而言，细粒度感知演化旨在利用图像中的视觉信息来生成包含更详细信息的數據；认知推理演化延长了指令的视觉操作推理步骤以增加其复杂性；交互演化旨在通过提供更多样化的指令形式来增强指令多样性。为了解决演化指令中偶尔出现的错误，我们使用指令消除来过滤掉失败的演化。 MMEvol 重复指令演化和消除过程多次，以获得包含各种指令形式的复杂指令数据集。

为了验证 MMEvol 的有效性，我们对 163K 个种子数据进行了三轮演化迭代，产生了 447K 个演化样本。我们使用这些演化数据微调了开源的 LLaVA-NeXT (Liu et al., 2024a) 模型，并在 13 个视觉语言基准测试中与其他先进方法进行了比较。我们的方法取得了最先进 (SOTA) 的性能，证明了 MMEvol 的有效性和效率。此外，我们进行了详细的定性分析和消融实验，以展示我们方法中每个组件的贡献。我们希望发布的演化数据和代码将帮助社区理解，使用少量高质量的图像-文本指令数据比使用大规模低质量的图像-文本指令数据训练 MLLM 重要得多。

我们的主要贡献可以总结如下：

•

设计了一个图像文本指令进化框架， MMEvol ，以利用先进的 MLLM，自动生成跨不同难度级别的开放域图像文本指令数据，以增强现有数据集的多样性和复杂性。
•

通过利用指令进化数据，构建了一个高质量的数据配方，并且进化后的数据将被发布，以进一步提升其他开源 MLLM 的能力。
•

我们使用这种高质量的数据配方训练了一个 MLLM，与其他完全开源的方法相比，在各种下游视觉语言任务中取得了优异的性能。
•

通过大量的定性和定量分析验证了所提出方法的有效性和效率。

图 3: MMEvol 的前缀提示。顶部的块展示了上下文，例如标题和视觉对象位置，中间的块展示了以视觉/语言为中心的原子命题和演化目标（稍后描述）。此外，我们通过伪函数调用赋予视觉能力，以增强进化过程中的视觉推理。最后，底部块进一步阐明了组织好的种子样本，这些样本随后被发送到 MLLM 进行重写。

2 方法

在本节中，我们首先介绍种子指令数据的整理，然后详细说明 MMEvol 的方法论细节。由于篇幅限制，我们简化了种子数据整理过程和提示模板。更多详细信息可以在附录 D 中找到。

2.1 种子数据整理

种子指令数据是从 LLaVA-Instruct (Liu et al., 2024b) 和 ShareGPT4V (Chen et al., 2023) 数据集中整理而来，并补充了从 Cambrain-1 (Tong et al., 2024) 中抽取的额外科学和图表数据。此过程涉及仔细选择和优化，以确保指令的质量和多样性。对于只有标题的指令，我们使用 OpenAI GPT-4o mini API 来生成种子指令数据。最终，在合并和过滤后，我们获得了包含 163K 个具有独特图像的指令样本的综合数据集，它为我们后续的 Evol-Instruct 奠定了基础。种子数据混合在图 2 中显示。请参阅附录 A 了解更多详情。

2.2 方法论细节

图 4：精细感知进化提示和数据示例。精细感知进化可以生成包含更详细视觉信息的样本，增强数据多样性，这些样本以不同的颜色标记以更好地可视化。

图 5：认知推理进化提示模板和示例。认知推理进化可以使指令数据拥有更长的视觉推理链，从而增加数据的复杂性。我们使用不同的颜色突出显示更改以更好地可视化。

图像文本指令数据的演化受视觉信息的约束，要求演化的指令数据与图像内容相关，以避免幻觉。这使得图像文本指令的多样性演化特别具有挑战性。此外，图像文本指令数据的复杂性演化过程通常会导致浅层推理现象，MLLM 难以提供复杂的答案。如图 1 所示，为了解决这些问题并提高进化的成功率，我们纳入了精心设计的领域，如视觉对象、原子能力、视觉操作和指令格式，以标准化每种指令数据格式。视觉对象领域包括指令数据中涉及的图像中的视觉对象，隐式约束演化数据并减少视觉幻觉。我们还总结了图像文本指令数据中涉及的九种原子能力类型，以填充原子能力领域，旨在增强数据多样性。具体来说，这包括五种以视觉为中心的的能力：定位、引用、计算、光学字符识别 (OCR) 和存在判断，以及四种以语言为中心的的能力：关系描述、场景理解、行为预测和世界知识关联。视觉操作领域包括用于解决问题的视觉操作链，其中视觉操作的每个步骤都基于以视觉为中心的原子能力，明确定义了视觉推理过程，以缓解浅层推理。指令格式域指定了指令数据的交互类型。这些调整增强了图像-文本指令数据的多样性和复杂性，提高了进化的成功率。

精细感知进化。精细感知进化的目标是最大限度地从图像中提取可用的视觉信息，尤其是被忽视的非主要视觉对象。我们观察到，大多数指令数据倾向于构建涉及图像中主要对象的问题，而忽略了不太常见的非主要对象。这导致缺乏与长尾分布对象相关的指令。使用此类数据进行训练会导致视觉幻觉以及泛化能力和鲁棒性差。精细感知进化会生成涉及新视觉对象的问题，揭示可用的且经常被忽视的视觉信息。演化提示模板和过程如图 4 所示。

图 6: 交互式演化提示模板和示例。交互式演化可以自动生成各种类型的非预定义指令格式，显著提高数据的多样性。使用不同的颜色突出显示差异，以更好地可视化。

图 7：指令消除提示模板。指令消除用于计算指令数据的演化增益和复杂度水平。我们根据演化增益过滤掉无法演化的有害数据。

认知推理演化. 推理能力是多模态大型语言模型的关键能力之一。然而，大多数现有的指令数据，例如 LLaVA-Instruct (Liu 等人，2024b) ，由简单的问答对组成，缺乏详细的推理过程，使得训练后的模型难以完成需要推理能力的复杂任务，例如多模态代理和视觉推理。我们引入了视觉操作链的概念，将四种以视觉为中心的推理能力抽象成四种用文本描述的视觉操作函数。通过生成解决问题所需的视觉推理步骤，我们定义了指令数据的复杂性。在认知推理演化过程中，我们通过增加数据中的视觉推理步骤来演化新的指令数据，以获得更复杂的数据。演化提示模板和过程如图 5 所示。

交互式演化. 现有模型以很少的形式生成指令数据。例如，LLaVA-Instruct 仅提供基于对话的问答、复杂推理和全局描述任务。人工制作的指令数据，例如 ALLaVA (Chen 等人，2024a) ，受标注者经验的限制，使得设计各种任务形式变得具有挑战性。使用此类数据训练的模型通常难以遵循复杂且多样的用户指定指令或目标，限制了它们在现实场景中的实用性和适用性。为了演化具有丰富任务形式的指令数据并提供良好的交互体验，我们设计了交互式演化，以自动生成具有不同任务形式的指令数据。演化提示模板和过程在图 6 中展示。

指令消除。在每一轮演化之后，我们对演化的指令数据在多个维度进行评分，以评估演化的成功程度。我们保留具有演化增益的指令数据，并丢弃那些演化失败的指令数据。演化淘汰提示模板和过程如图 7 所示。

3 实验

3.1 基准测试

为了全面评估进化方法的有效性，我们选择了 13 个基准，它们的数据源和测试技能在表 1 中展示。 MIA (Qian 等人，2024) 是一个开放域指令遵循基准测试，它使用广泛的指令数据全面测试模型的指令遵循能力。 MM-Self-Instruct (Zhang 等人，2024a) 是一个新颖的视觉推理基准，它关注模型的视觉感知能力，并执行日常生活中遇到的常见视觉推理任务。

表 1：用于评估的基准，包括其来源和测试技能。由于空间限制，名称已缩写。 VQA ^V2 ；质量保证局； VQA ^T ：文本VQA； MME ^C ：MME-认知； MathVista ^M ：MathVista-MINI； MMMU；人工智能二维；教皇; HallusionBench：HallBench；米娅；眨; RWQA：真实世界QA； MMSInst：MM 自指导。

Skills	Sources	Skills	Sources
VQA	VQA ^v2 (Goyal et al., 2017)	General Knowledge	MME ^C (Fu et al., 2023)
Knowledge Leakage	MMStar (Chen et al., 2024b)	General Knowledge	MMMU (Yue et al., 2024)
Math Reasoning	MathVista ^M (Lu et al., 2023)	Hallucination	POPE (Li et al., 2023c)
OCR Related	AI2D (Kembhavi et al., 2016)	Hallucination	HallBench (Guan et al., 2023)
Instruction Following	MIA (Qian et al., 2024)	Visual Reasoning	GQA (Hudson & Manning, 2019)
Visual Perception	BLINK (Fu et al., 2024) , RWQA	Visual Reasoning	MMSInst (Zhang et al., 2024a)

3.2 实施细节

数据。在预训练阶段，我们使用 LLaVA-Pretrain-595K (Liu et al., 2024b) 进行图像-文本对齐训练。在消融实验设置中，我们分别使用种子数据和演化数据进行微调，以确保公平比较并验证 MMEvol 的优势。在 SOTA 设置实验中，我们使用演化指令数据与从 Cambrain-1 (Tong et al., 2024) 采样的其他公开可用数据集相结合进行微调，并将其与其他方法进行比较。培训数据配方的更多详细信息可以在附录 B 中找到。

模型。我们遵循 LLaVA-NeXT 的架构，其中多模态大型模型包含三个关键组件：用于下一个符元预测的 LLM、用于提取视觉特征的视觉编码器以及用于对齐视觉和文本模态的图像-文本投影器。我们使用 Llama3-8B-Instruct (Touvron et al., 2023) 进行消融实验。为了与其他方法进行比较，我们切换到我们之前使用 Llama3-8B-Instruct 和 Qwen2-7B-Instruct (Bai 等人，2023) 的 SOTA 设置。我们使用 CLIP-ViT-L (Radford et al., 2021) 作为视觉编码器，并使用简单的线性层来桥接图像和文本模态。

训练策略。我们按照广泛使用的两阶段设置进行 MMEvol 训练。视觉-语言预训练和视觉指令微调。语言模型和 ViT 分别进行预训练，而投影仪则随机初始化。为了最初对齐视觉和文本模态之间的特征空间，我们利用对齐数据集。最后，我们对视觉语言指令数据集上的预训练模型进行指令微调。我们的实验是在 8 × A100 GPU 上进行的，全局批次大小为 128。我们使用 AdamW 优化器 (Loshchilov，2017) ，学习率分别为 5 × 10 − 5 和 2 × 10 − 5 ，用于上述两个阶段。每个阶段都训练一个 epoch，并采用 3% 的预热策略。请参考附录 B 获取更多详细信息。

图 8： MMEvol 不断增强指令数据复杂性和多样性，超越 evol-instruct。该样本来自 SEED-163K。我们用红色标记细粒度的视觉信息，用绿色标记新的指令形式，用蓝色标记更长的推理步骤。

3.3 定性分析

我们从 SEED-163K 中采样一个样本，并在图 8 中显示其进化过程。在第 1 轮中，我们执行细粒度的感知演化，导致指令数据包含更精确的细节，包括动作和属性。在第 2 轮中，交互演化将指令形式从一般性的问答转变为创造性的诗歌生成，增加了指令格式的多样性。在第三轮中，认知推理演化在指令数据中的答案中添加了推理步骤，从而增强了其复杂性。通过多轮指令演化，我们提高了种子数据的多样性和复杂性。

图 9: (a) 中种子数据的根动词（内圈）及其顶层名词宾语（外圈）和 (b) 中演化后的数据的根动词及其顶层名词宾语。

此外，我们从种子数据中随机抽取 30K 个数据点，并在演化前后对指令数据进行定性分析。如图 10 所示，进化后的数据明显更复杂。具体来说，每个进化后的指令在图 10(a) 中涉及 0.68 个更多的原子能力，并且与进化前相比，在图 10(b) 中，其平均视觉操作链推理长度长 0.86。如图 10(c) 所示，每个演化轮次的平均难度得分呈递增趋势，这表明认知推理演化在提高指令数据复杂性方面是有效的。

我们识别生成的指令中的动词-名词结构，以研究生成的指令类型和演化数据的多样性。我们使用 Berkeley 神经解析器 (Kitaev & Klein, 2018; Kitaev et al., 2018) 解析指令，提取最靠近根的动词及其第一个直接名词宾语。图 9 绘制了数量超过 2K 的根动词及其直接宾语。我们观察到，与演化前相比，演化后的数据显着提高了指令多样性，演化后的指令具有不同的意图和文本格式。此外，我们对演化前后指令数据中的视觉对象域进行了长尾分布可视化分析，以验证细粒度感知演化的有效性。图 11