专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

如何提升多模态大模型视觉推理能力？浙大杰青团队的新型自指导方案给出答案

FightingCV · 公众号 · AI 科技媒体 · 2024-09-27 09:00

主要观点总结

文章介绍了设计一种多模态自指导策略，利用大语言模型及其代码能力合成摘要图像和推理指令，为大型多模态模型（LMM）提供高质量的训练数据。策略能够自主合成多种图表、仪表板、视觉谜题等，并生成相关的推理问题答案。合成了包含11,193条指令的基准测试，涵盖了八种场景，并用于评估LMM的视觉推理能力。结果显示，当前LMM在理解和推理抽象图像方面与人类差距显著，尤其是完成日常任务如读时钟、规划路线等。文章还探讨了提升LMM抽象图像理解能力的可能途径，包括设计更通用的视觉编码器、提高图像分辨率、整合到预训练中以及调查任务间关系。

关键观点总结

关键观点1: 多模态自指导策略

设计了一种多模态自指导策略，利用大语言模型及其代码能力合成摘要图像和推理指令，为LMM提供有价值的训练数据。

关键观点2: 合成大量抽象图像和推理指令

策略能够自主合成多种图表、仪表板、视觉谜题等，并生成相关的推理问题答案。

关键观点3: 基准测试与评估

合成了包含11,193条指令的基准测试，涵盖了八种场景，用于评估LMM的视觉推理能力。

关键观点4: 当前LMM的局限性

结果显示，当前LMM在理解和推理抽象图像方面与人类差距显著，尤其是在完成日常任务时。

关键观点5: 提升LMM能力的途径

探讨了提升LMM抽象图像理解能力的可能途径，包括设计更通用的视觉编码器、提高图像分辨率等。

正文

摘要

尽管当前大多数大型多模态模型（LMM）已经可以理解自然场景和肖像的照片，但它们对摘要图像（例如图表、地图或布局）的理解以及视觉推理能力仍然相当初级。他们经常难以完成简单的日常任务，例如从时钟上读取时间、理解流程图或使用路线图规划路线。鉴于此，我们设计了一个多模态自指令管道，利用大型语言模型及其代码能力在日常场景中合成大量抽象图像和视觉推理指令。我们的策略毫不费力地创建了一个多模式基准，其中包含针对八种视觉场景的 11,193 条指令：图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。这个基准测试由简单的线条和几何元素构建而成，暴露了最先进的 LMM（如 Claude-3.5-Sonnet 和 GPT-4o）在抽象图像理解、空间关系推理和视觉元素归纳方面的缺点。此外，为了验证合成数据的质量，我们使用 62,476 个合成图表、表格和路线图指令来构建 LMM。结果证明了图表理解和地图导航性能的提高，并且还证明了其他视觉推理任务的潜在好处。我们的代码位于：https://github.com/zwq2018/Multi-modal-Self-instruct。

图1：我们利用大语言模型和代码来合成摘要图像并自指导各种推理指令，例如图表、路线图、仪表板、视觉谜题和关系图。与自然风景和人类照片不同，这些用几何元素构建的非自然图像需要更强的感知和空间关系推理。我们的基准测试表明，当前的 LMM 距离人类水平的表现还很远。他们甚至无法完成简单的日常任务，例如读取时钟上的时间或使用地图规划路线。

1 简介

近年来，在大语言模型的突破的推动下 (Zeng 等人, 2023; Touvron 等人, 2023a; OpenAI, 2022, 2023; Touvron 等人, 2023b; Bi 等人, 2024; Jiang 等人, 2024; Anthropic, 2024; Abdin 等人, 2024) ，大型多模态模型 (LMM) 也取得了快速进展 (Liu 等人, 2024b, a; Team 等人, 2023;白等人, 2023a; 卢等人, 2024; McKinzie 等人, 2024) 。利用预先训练的大语言模型对所有模态进行编码，使 LMM 能够理解人类日常环境并执行复杂的任务（Hong 等人，2023；Zhang 等人，2023b；Hu 等人，2023；Zhang 等人，2023a ；Koh 等人，2024；Zhang 等人，2024c) 。这极大地扩展了通用人工智能助手的潜力。

尽管取得了这些成就，LMM 在应用于人类日常生活时仍然表现出显着的缺陷（Yin 等人，2023；Xie 等人，2024）。例如，在使用路线图规划路线、从时钟图像读取时间或解释流程图时，LMM 经常会失败。我们观察到，这些简单的日常活动需要 LMM 理解抽象图像，例如地图、图表和仪表板，而不是具有明确语义的自然照片或肖像。这些由简单几何元素组成的摘要图像对于 LMM 来说更具挑战性。此外，即使是许多高级 LMM 也很容易被简单的视觉级推理任务所困扰，例如几何图案归纳和视觉符号比较。

然而，如果我们在日常生活中部署 LMM 驱动的代理，这些功能，即感知摘要图像和推理视觉元素，对于 LMM 来说是必不可少的。它可以帮助我们完成数据分析、地图导航、网络搜索以及许多其他繁琐的任务。一方面，尽管一些先驱者做出了宝贵的探索（余等人，2023b；刘等人，2023b；韩等人，2023；应等人，2024；魏等人，2024），这些图像理解和视觉推理能力还没有得到充分的重视，我们需要一个专门的基准来系统地评估当前LMM在这方面的表现。另一方面，与语义相关的任务不同，收集此类具有推理上下文的摘要图像文本对是劳动密集型且耗时的。

为了填补这一空白，我们从合成数据（Wang等人，2022b；Liu等人，2024c；Han等人，2023；Du等人，2023）中汲取灵感，该数据被广泛用于补充指令跟随数据的不足。例如，从强大的大语言模型中提取高质量的对话数据（Wang 等人，2022b；Xu 等人，2023a；Yu 等人，2023a；Chen 等人，2023a；Zhao 等人，2023），或使用外部工具来提高合成数据的质量（Wei等人，2023；Lee等人，2024）。然而，为LMM合成图文数据并不容易，因为当前的大语言模型不能直接生成图像。一种直观的方法是将 LLM 与文本到图像模型结合起来，以生成 (Li 等人，2023c; Wu 等人，2023b) ，但大多数文本到图像模型无法精细控制图像的细节 (Betker 等人，2023; Esser 等人，2024) ，这可能会导致图像和文本之间的错位。

考虑到抽象图像是由线条和几何元素组成的，我们可以利用代码来准确地合成它们。有鉴于此，我们提倡以代码为中心的自指导策略，以合成大量带有推理问题和答案对的摘要图像。我们首先指导大语言模型针对日常场景自主提出一个创造性的视觉想法，然后自行提出绘制抽象图像所需的数据和代码，例如绘制关系图或房屋布局。合成图像后，我们的策略根据绘图思想和代码自指导多个推理问答对。这种以代码为中心的设计可以毫不费力地合成各种抽象图像和推理指令，涉及图表解释、空间关系推理、视觉谜题和数学几何问题，并提供准确的答案和原理。

如图 1 所示，我们的策略为日常场景合成了一个抽象图像基准，包括 11,193 个高质量指令，涵盖八个场景：仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和二维平面布局。在此基准的支持下，我们评估了几个具有代表性的 LMM，并确定了它们在摘要图像理解和视觉推理方面的重大缺陷。例如，在仪表板场景中，表现最好的 LMM（GPT-4o）仅取得了 54.7 分，远低于人类水平 85.3。我们的摘要图像基准进一步表明，当前开源模型和闭源模型之间的差距仍然很大，尽管它们在语义相关基准上的性能相当。

此外，为了验证合成数据的质量，我们合成了 62,476 个图表和路线图指令，用于微调 Llava-1.5-7B。实验结果表明，我们的合成数据可以显着提高域内性能，并且也有利于其他 Abstract 图像推理任务。

我们的贡献可总结如下：

•

我们发现，当前的 LMM 在理解和视觉推理抽象图像（例如地图、图表和布局）方面与人类相比存在显着差距。
•

利用大语言模型和代码，我们设计了一种多模态自指令策略来合成多种摘要图像和推理指令，为 LMM 提供价值数据。
•

我们合成了 11,193 张高质量摘要图像的基准，涵盖八种常见场景。即使在先进的 LMM 中，我们的基准测试也揭示了重大缺陷。此外，我们还合成了 62,476 个图表和路线图指令进行微调，验证了合成数据的有效性。

图2：我们的多模式自我指导策略首先自我提出一个视觉想法来描绘摘要图像。在此基础上，大语言模型生成模拟数据并编写代码来创建图纸。随后，指导大语言模型根据代码和思路设计多种问答，涵盖空间推理、颜色识别、数学推理等各个方面，构建了丰富的多模态指令集。

2 多模式自指导

2.1 概述

我们的多模态自我指令是一种 LLM 驱动的数据合成策略，能够为各种日常场景生成摘要图像和一致的推理指令，包括路线图、仪表板、2D 平面布局、图表、关系图、流程图和视觉谜题。

首先，我们的策略可以自动为视觉场景提出创意想法，例如使用分步流程图来演示如何参加学术会议或设计路线图 ( 部分 2.2 )。然后它生成详细的代码来可视化这个想法 ( 部分 2.3 )。在合成所需图像后，LLM 会为此视觉内容自指令多个高质量的 Q&A 对 ( 部分 2.4 )。整个过程完全由大语言模型完成，并进行了一些演示。

如图 2 所示，我们说明了图像-文本合成的整个过程，包括使用路线图进行导航、解释饼图、解决视觉谜题以及使用操作工作流程。对于每个场景，我们都会综合多个问题、带注释的答案和理由。例如，在饼图案例中，大语言模型设计了一个有关最大类别和最小类别之间差异的多步骤数学问题。

2.2 视觉创意提案

为了从头开始生成图像，我们首先指示大语言模型提出一个创新的视觉想法。这种视觉想法说明了日常生活或工作中常见的场景，例如关于特定主题的图表或路线图。此外，这个场景图像可以用代码渲染，而不是真实的肖像或自然场景。因此，我们重点关注当前数据集中很少涵盖的八种常见的摘要图像类型：

工作场景和生活场景

图表和表格：线 , 条形 , 饼图 , 复合图表 , 和单和多个表格 .

流程图 : 算法流程图和操作 0> 工作流程1> 、2> 3> 这样的4> 5> 作为6> 7> 设计8> 9> 0> 1> 幻灯片2> 3> 演示文稿4> 。5>

关系图：多个关系图具有复杂连接 .

路线图：模拟路线图带注释有交叉路口名称 .

视觉谜题： 1. 归纳推理跨越多个图像 . 2. 比较之间的差异多个图像0> 。1>

二维平面布局：楼层平面图具有不同结构和布局。

仪表仪表板 : 机械表盘，这样的如0> 1> 时钟2> ,3> 4> 里程表5> ,6> 7> 车速表8> ， 9> 0> 温度计1> 、2> 3> 气压计4> ..5>

我们为每个场景设计一些示例作为上下文演示。在他们的推动下，大语言模型被鼓励利用自然语言提出创造性且详细的绘图想法。这些视觉想法描绘了视觉信息的基本轮廓。通过结合详细的参数，视觉创意可以控制图像合成的细节，从而能够创建各种图像。此外，在构建视觉指令时，视觉想法可以为自然语言形式的指令的生成提供视觉参考。

2.3 图像合成

模拟数据

为了将所提出的想法呈现为图像，我们引导大语言模型首先为所提出的想法生成一些模拟数据。例如，对于图 2 中的饼图，LLM 需要为四种类型编造百分比数据。

代码生成

在产生模拟数据后，大语言模型生成相应的Python代码来可视化所提出的想法。我们鼓励大语言模型使用流行的可视化软件包，例如Matplotlib ¹ 或 ECharts ² ，创建所需的视觉元素，因为它显着降低了代码生成的复杂性。此外，我们指示大语言模型在代码中明确定义用于绘制图像的所有参数，例如图像样式、颜色、字体大小和图例位置。这些明确规定的参数控制合成图像的细节，可用于生成问答。

2.4 视觉教学构建

执行代码后，我们得到了预期的图像。接下来，大语言模型自主提出与该合成图像相关的多个高质量对。

问答对生成。

为了让大语言模型了解所有图像细节，我们在提示中连接提出的想法、模拟数据和生成的代码，然后引导大语言模型根据该合成图像的数据设计指令。我们的策略不仅仅是图像理解和字幕任务，还可以针对该合成图像自行提出各种非常规问题，例如比较多个图像之间的差异、面积估计和空间关系推理。此外，它甚至可以基于多个合成图像设计各种多步骤推理问题。

用基本原理注释答案。

为了提高多模式指令跟踪数据的训练有效性，我们还为每个问题提供了详细的理由。我们提示大语言模型仔细审查想法和代码，然后为给定的问题生成详细的基本原理，而不仅仅是提供答案。与思维链过程类似，Rationale 可以用来训练 LMM，增强其推理能力。

下面是我们流程的完整案例，包括创意提案、图像合成和指令构建。我们还提供了 GPT-4 和 Gemini-1.5 的结果，它们在这种情况下都失败了。

想法提案 : 绘图 a 时钟与 0> 小时1> 2> 和3> 4> 分钟5> 6> 手7> 。8>

模拟数据：时间 =’8:10’, 形状 =’ 圆形时钟 ’, 颜色 =’ 黑色 ’, 大小 =...

代码生成： ’ import pyechart ...’

指令构建

问题：刻度盘上显示的时间是几点？

答案1: 8:10

GPT-4V: 10:10 。 Gemini-1.5-pro: 2:42 。

数学问题 : 何时我左家 ,0> 1> 2> 3> 时钟4> 5> 显示6> 7> 8> 9> 时间0> 1> 指示2> 3> 中4> 5> 6> 7> 数字8> 。9> 什么时间是什么它 80> 1> 小时2> 3> 的4> 5> 工作6> ？7>

答案2: 4:10 或 16:10

基本原理 : 我参见那个 0> 时钟1> 2> 显示3> 4> 5> 6> 时间7> 8> 为9> 0> 8:10。1> 工作后工作工作八小时、 0> 1> 2> 时间3> 4> 应该5> 6> 为7> 8> 16:10。9>

GPT-4V：7:10 。时钟显示 11：10 ...

Gemini-1.5-pro：9:50 。时间为 1：50 ...

推理题 : 我练习了对于一个 0> 和1> 2> a3> 4> 一半5> 6> 小时7> 。8> 完成后，时钟显示 0> 1> 2> 时间3> 4> 为5> 6> 如图所示7> 。8> 什么数字做了什么小时指针0> 1> 点2> 3> 到4> 5> 当6> 7> 我8> 9> 开始0> 1> 我的2> 3> 锻炼4> ？5>

答案3：6或7

基本原理 : 我阅读时间 0> 来自1> 2> 3> 4> 时钟5> 6> 为7> 8> 8:10， 9> 0> 并且1> 2> 您3> 4> 有5> 6> 一直在7> 8> 锻炼9> 0> 持续1> 2> 一个3> 4> 小时5> 6> 和7> 8> 一个9> 0> 一半1> 。2> 这意味着你离开于 6:40。0> 因此 ...

GPT-4V：12。时钟显示时间为0> 1> 1:302> 3> ...4> 5> 1:30-1.56> 7> 小时8> =12:009> 0> 下午1> 2> ...3>

双子座-1.5-pro：1。时钟是 2：30 ... 一个0> 1> 小时2> 3> 和4> 5> 一个6> 7> 一半8> 9> 之前0> 1> 是2> 3> 1:004> 5> ...6>

表格1：我们的数据集的统计数据，包括来自工作和生活场景的八个任务。所有数据均使用我们的多模式自指导策略进行合成。

图3：左：不同图表类型的分布。右：每个类别的问题数量。

3 多模态自指导数据集

3.1 数据集统计

我们重点关注八种常见但尚未充分探索的场景图像，包括图表、表格、路线图、关系图、流程图、视觉拼图、仪表板和 2D 平面布局。我们最初合成了一个涉及所有 8 个场景、总共包含 3,658 张图像和 11,193 条指令的基准测试，以对几个有代表性的 LMM 进行基准测试。此外，为了评估合成数据的质量，我们还合成了图表、表格和路线图任务的三个训练集，分别包含 34,590、10,886 和 17,000 个训练指令。如表 1 所示，我们提供了有关合成数据集的详细统计数据。

图4：上：我们提供了三个具有不同路径复杂性的路线图示例。底部：我们将所有地图分为五个复杂程度。

3.2 综合细节

图表和表格

首先，我们设计一些关键词种子，例如GDP、能源消耗、就业率，然后我们促使大语言模型将这些种子关键词扩展成一个涵盖经济、科技、社会领域的庞大关键词库。在生成之前，我们首先从库中随机抽取一个关键词，然后提示大语言模型生成相应的视觉想法、代码和指令数据。我们综合了五种类型的图表：折线图、条形图、饼图、表格截图和复合图表（包含多个子图表）。对于每个图表，我们提示大语言模型自学五类问题：光学字符识别（OCR）、标题、详细感知（涉及位置、数量、布局问题）、数据提取和数学推理 . 如图 3 所示，我们分别根据图表类型和问题类型提供了统计数据。此外，我们在图 A2 中为每种图表和问题类型提供了一些详细示例。

路线图导航。

为了生成带有障碍物和路径的模拟地图，我们基于快速探索随机树算法 ³ 设计了一种路径生成策略：从初始点开始，代理在探索不足的地图中随机行走，根据预定义的行走参数（包括方向、概率和最大行走步数）对路径进行采样。当达到最大步行步数时，过程停止，并将停止位置设置为终点。大语言模型在合成地图时，首先设置地图大小，以及随机行走参数。然后它生成代码来实现我们的路径生成过程。最终，我们合成了 17 k 个训练图和 3 k 个测试图。根据路径复杂性，我们将所有地图分为五个级别。如图 4 所示，大多数地图难度中等或更高，需要至少两个交叉点和转弯才能到达终点。我们在图 A4 中提供了两个完整的案例。

其他场景综合。

我们采用类似的过程来合成其他五个场景的图像，生成 1,013 个仪表板、822 个关系图、1,451 个流程图、529 个视觉拼图和 252 个 2D 平面布局指令。