专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

LLaVA-PLUS：学习使用工具创建多模式代理

FightingCV · 公众号 · · 2025-01-27 09:00

正文

摘要

本文介绍了LLaVA-Plus（ L arge L anguage a nd V ision A ssistants that P lug and L earn to U se S kills），这是一种使用端到端方法训练的通用多模态助手，它系统地扩展了大型多模态模型（LMM）的功能。 LLaVA-Plus维护一个技能库，其中包含各种视觉和视觉语言预训练模型（工具），并且能够根据用户的多模态输入激活相关工具，即时组合它们的执行结果以完成许多现实世界的任务。为了获得使用工具的能力，LLaVA-Plus在我们精心策划的多模态指令遵循数据上进行训练。训练数据涵盖了视觉理解、生成、外部知识检索及其组合的许多工具使用示例。实证结果表明，LLaVA-Plus在现有能力方面优于LLaVA，并展现出许多新能力。与工具增强的LLM相比，LLaVA-Plus的不同之处在于图像查询直接扎根于并积极参与整个AI人机交互会话，从而显著提高了工具的使用性能并实现了新的场景。

1 引言

人工智能的长期愿望是开发通用助手，这些助理可以有效地遵循用户（多模式）说明来完成广泛的现实世界任务（Askell等人，2021; li等人，2023C，2023C ）。最近，该社区对开发具有多模式理解和发电的紧急能力的基础模型的兴趣越来越多，在开放世界任务（Gan等人，2022; li等人，2022）。虽然已经证明使用大型语言模型（LLM）（LLM），例如ChatGpt （OpenAi，2023a）为自然语言任务开发通用助手的食谱已被证明有效，但构建通用，多模态的食谱计算机视觉和视觉语言任务的助手仍有待探索。

正在进行的多模式代理开发工作可大致分为两类（Li等人，2023c） : ( i ) LLM 端到端培训，其中收集图像文本数据和多模态指令跟踪数据，以不断训练LLM以获得处理视觉信息的能力，从而产生一系列大型多模态模型（LMM）。 Flamingo （Alayrac 等人，2022）等专有模型和多模态 GPT-4 （OpenAI，2023c）以及开放模型都展现了令人印象深刻的视觉理解和推理性能。 - 来源模型，例如 LLaVA (Liu 等人, 2023a) 和 MiniGPT-4 (Zhu等人，2023）。尽管这些端到端的训练方法可以有效地帮助 LMM 获得新兴能力（例如上下文学习），但开发一个能够无缝整合各种技能的统一架构仍然具有挑战性，例如图像分割和生成，这对于现实世界的多模式应用至关重要。 ( i i ) 用llms 链接工具，其中提示精心制作以启用llms( ，例如， 通过langchain lan（2022） )调用不同的工具（例如 , 预训练的视觉模型）以执行所需的（子 - ）任务，而无需其他模型培训。一些重要的工作包括VisProg (Gupta & Kembhavi, 2022) 、ViperGPT (Surís et al., 2023) 、Visual ChatGPT (Wu et al., 2023) 、X-GPT (Zou et al., 2023a) 和MM-REACT (Yang et al., 2023b) 。这些方法的优势在于能够通过使用（新的）工具来执行广泛的视觉任务，这些工具可以以非常低的开发成本集成到 AI 智能体中。然而，提示工程既不具有适应性，也不够健壮，无法使多模态智能体始终准确地从（大型且多样化的）工具集中选择和激活合适的工具，并组合其结果以针对现实世界多模态任务即时生成最终答案。

在本文中，我们介绍了LLaVA-Plus（ L arge L anguage a nd V ision A ssistants that P lug and L earn to U se S kills），这是一种通用多模态助手，它使用端到端训练方法学习使用工具，该方法通过视觉指令调优系统地扩展了LLM的能力。据我们所知，这是首次尝试将上述端到端训练和工具链方法的优势结合起来。 LLaVA-Plus配备了一个技能库，其中包含各种视觉和视觉语言工具。该设计体现了“心智社会”方案 (Minsky, 1988) ，其中每个工具最初都是为特定技能而设计的，并且本身只对特定场景有用，但这些工具的组合会产生具有更高智能迹象的涌现能力。例如，LLaVA-Plus能够根据用户的多模态输入即时构建新的工作流程，从技能库中选择和激活相关工具，并组合其执行结果以完成在模型训练期间未见过的许多现实世界任务。

通过指令调优，可以不断改进LLaVA-Plus，从而集成新的技能或工具。考虑一下为特定场景或技能开发的新多模态工具。我们收集相关的用户指令，这些指令请求此工具及其执行结果（或遵循），以形成用于微调的指令遵循数据。指令调优后，LLaVA-Plus扩展了其能力，因为它学习使用此新工具来处理以前无法处理的任务。 LLaVA-Plus也与那些关于教LLM使用工具的现有工作不同 (例如，Yang et al., 2023a; Patil et al., 2023) ，其中只有在激活多模态工具时才使用视觉信号。相反，LLaVA-Plus在整个用户-AI交互会话中使用原始视觉信号来提高LLM的规划和推理能力。

总之，我们的论文贡献如下：

•

新的多模态指令遵循工具使用数据。我们提出了一种新的用于整理视觉-语言指令遵循数据的方法，该方法专门用于人机交互会话中的工具使用，并利用 ChatGPT 和 GPT-4 作为标注工具。
•

新的大型多模态助手。我们开发了LLaVA-Plus，这是一个通用的多模态助手，它通过整合一组庞大且多样化的外部工具来扩展LLaVA (Liu et al., 2023a) ，这些工具可以在执行任务时动态选择、组合和激活。如图 1 所示，LLaVA-Plus显著扩展了LMM的能力。我们的实证研究验证了LLaVA-Plus的有效性，在多个基准测试中取得了持续改进的结果，尤其是在Visi-Bench上，在一系列现实生活中任务中取得了新的最先进水平(SoTA)。
•

开源。我们将向公众发布以下资源：生成的多种模态指令数据、代码库、LLaVA-Plus 检查点和一个可视化聊天演示。

2 使用视觉指令调优学习使用工具

受多模态 GPT-4 的出色性能以及 LLaVA/MiniGPT-4 等开源 LMM 的启发，社区见证了 LMM 和多模态指令遵循数据开发的激增，遵循指令调优范式 (例如，Liu et al., 2023a; Peng et al., 2023a) 。在本文中，我们使用 LLaVA 作为运行示例。但请注意，所提出的方法可以轻松应用于其他 LMM。从用户的图像查询 𝐈 q 开始，现有的 LMM（例如 LLaVA）通常接受来自用户的自然语言指令输入 𝐗 q ，并输出自然语言响应 𝐗 answer 。因此，我们可以使用统一方案来表示多模态指令遵循数据：

Human : 𝐈 q < \ n > 𝐗 q Assistant : 𝐗 answer ,

(1)

其中 Human 和 Assistant 是特殊的符元角色， < \ n > 和分别是换行符元和序列结束符元。它自然涵盖任何可以表述为语言-图像输入和语言输出的多模态任务，范围从简单的视觉理解任务（例如识别、字幕生成和视觉问答 (VQA)）到复杂的视觉推理任务。由于其简单性，数据管道易于构建和扩展。通过使用自回归目标训练单个基于 Transformer 的模型，生成的 LMM 能够实现无缝的人机交互，熟练地完成许多现实世界的视觉任务。然而，它在技能扩展和人机交互参与方面的灵活性有限。

2.1 LLaVA-Plus

我们提出了一种模块化系统架构，允许 LMM 作为规划者学习大规模地使用各种技能，从而促进其能力和界面的轻松扩展。具体来说，我们构建了一个技能库，其中 LMM 可以根据需要利用各种现有的视觉和视觉语言专家模型作为其各自技能的工具，以完成各种现实世界的任务。大多数现有多模态代理中的 LMM 通常执行 用户导向的对话 ，其中 LMM 需要根据仅编码在模型权重中的知识立即响应用户指令，如公式 1 和图 2 的左半部分所示。除此之外，LLaVA-Plus 中的 LMM 还执行 技能导向的对话 ，其中 LMM 启动请求以从技能库调用合适的工具，并在应用适当的技能后随后聚合工具执行结果，如图 2 的右半部分所示。

LLaVA-Plus 的完整对话。

我们在图 2 中说明了 LLaVA-Plus 的工作原理，通过一个完整的对话会话。它分四个步骤进行： \raisebox{-0.9pt}{1}⃝ 人类提供与图像 𝐈 q 相关的任务指令 𝐗 q 。 \raisebox{-0.9pt}{2}⃝ LMM 驱动的助手分析 𝐗 q 和 𝐈 q ，并输出 𝐗 skill_use ，该输出从技能库中选择工具并编写适当的提示作为工具参数。 \raisebox{-0.9pt}{3}⃝ 通过执行工具，结果 𝐗 skill_result 将返回给助手。 \raisebox{-0.9pt}{4}⃝ 助手将 𝐗 skill_result 与 𝐗 q 和 𝐈 q 聚合，并将 𝐗 anwser 输出给人类。该交互可以表示为：

	Human : 𝐈 q < \ n > 𝐗 q Assistant : 𝐗 skill_use
	Human : 𝐗 skill_result Assistant : 𝐗 anwser		(2)

与用于训练LLaVA的公式 1 相比，LLaVA-Plus训练中唯一新引入的组件是面向技能的对话。表格 1 展示了在人机交互中调用检测和分割技能的一个序列示例。 LLaVA-Plus使用公式 2 序列的自回归目标进行训练，其中仅使用绿色子序列（或符元）来计算损失，因此模型学习预测技能使用、答案以及何时停止。

来自LLM的统一预测格式。

图 2 显示LLaVA-Plus的LLM需要执行面向用户和面向技能的对话。为此，我们使用统一的模型预测格式来表示需要和不需要调用技能库的对话。受 Yao et al. (2022) 的启发，该格式包含三个字段，如表 1 所示： ( i ) 思考是一个文本序列，表示推理过程，它决定是否需要技能库来遵循用户指令，如果需要，则决定使用哪些工具。 ( i i ) 动作是用于执行思考的工具函数调用的列表。该列表采用JSON格式，每个项目包含两个子字段： API_name 用于调用工具， API_params 用于相应的函数参数（如果适用）。当动作为空列表时，不调用任何技能。 ( i i i ) 值是LLaVA-Plus通过聚合工具执行结果和人机会话历史生成的自然语言响应。在面向用户的对话的 𝐗 skill_use 中呈现时，它是返回给人类用户的最终响应。在面向技能的对话的 𝐗 anwser 中呈现时，它是关于工具执行的自然语言描述。在服务阶段，我们发现确保良好的用户体验非常重要，我们只将 𝐗 anwser 的值字段中的内容返回给人类用户，但隐藏所有面向技能的对话，除非我们需要调试系统。

表 1： LLaVA-Plus 工作流程示例，该流程插入并学习使用对象检测和分割技能，并通过丰富的区域语言描述进行增强。灰色文本不在训练序列中。

2.2 技能库：多模态工具使用指令数据生成

LLaVA-Plus 的技能库包含具有不同技能的多模态工具。为了使 LLM 始终能够激活最合适的工具来完成任务，需要相应的工具使用多模态指令遵循数据用于 LLM 调优。我们遵循自指令方法，使用 GPT-4 作为标注器来整理数据。在不失一般性的前提下，在本研究中，我们希望 LLaVA-Plus 处理需要 LLaVA 不具备的新技能的场景， 例如， 视觉理解、生成和外部知识检索的个体技能以及这些个体技能的组合，如表 2 中所示。下面，我们将视觉理解技能视为核心技能，其他技能视为扩展技能，并描述指令数据整理的方式。

	Skills		Tools	Source	Size
个体技能	Understanding	Detection/Grounding	G-DINO (Liu et al., 2023b)	COCO	13783
		Semantic Segmentation	OpenSeeD (Zhang et al., 2023a)	COCO	5989
		Instance Segmentation	G-DINO+SAM	COCO	5228
		Caption + Grounding	BLIP2+G-DINO	COCO	4037
		Tagging + Grounding	RAM+G-DINO	COCO	4439
		Caption	BLIP2 Li et al. (2023e)	COCO	4064
		Tagging	RAM (Zhang et al., 2023d)	COCO	6045
		OCR	EasyOCR (JaidedAI, 2023)	Hiertext	6528
	External Knowledge	Retrieval	CLIP Retrieval (Radford et al., 2021)	InfoSeek	4087
	Generation	Image Generation	Stable Diffusion (Rombach et al., 2021)	JourneyDB	4694
	Generation	Image Editing	Instruct P2P (Brooks et al., 2023)	Instruct P2P	6981
	Visual Prompt	Interactive Segmentation	SAM (Kirillov et al., 2023)	COCO	5601
	Visual Prompt	Multi-granularity	Semantic SAM (Li et al., 2023d)	COCO	5601
		Example Based Segmentation	SEEM (Zou et al., 2023b)	COCO	5601
组合技能	Mix of Detection, Segmentation, Tagging, Caption		G-DINO, SAM, BLIP2, RAM	COCO	37,431
	Interactive Segmentation + Inpainting		SAM + Stable Diffusion	COCO	3063
	Semantic Segmentation + Generation		OpenSeeD + ControlNet (Zhang et al., 2023b)	COCO	5989
	Image Generation + Social Media Post		Stable Diffusion	JourneyDB	4694
	Image Editing + Social Media Post		Instruct P2P Brooks et al. (2023)	Instruct P2P	5924

表 2： LLaVA-Plus 技能库和我们为每个工具用例创建的视觉指令遵循数据的数据集统计信息。G-DINO 指的是 Grounding DINO (Liu et al., 2023b) 。HierText (Long et al., 2022; 2023) 、InfoSeek (Chen et al., 2023b) 和 JourneyDB (Pan et al., 2023) 分别是用于 OCR、外部知识和图像生成的数据集。

2.2.1 核心技能：理解

视觉理解技能使机器能够解释和理解视觉信号。现有的LLM仅具备有限的视觉理解能力子集，其受到语言输入和输出的限制。我们通过视觉输入提示和视觉输出将其扩展到更广泛的技能集，包括开集检测和定位、语义/实例/交互式分割、标记、字幕生成、OCR及其组合等等。这些理解技能可以根据是否需要附加函数参数分为两类。

仅图像的技能。不需要附加函数参数的技能包括字幕生成、标记、语义分割、字幕+定位、标记+定位和OCR。我们已经为每个工具单独整理了训练样本。为了收集给定技能的训练样本，我们使用不同的策略填写公式 2 中的四个数据变量。 ( i ) 对于 𝐗 q ，我们使用GPT-4生成一组需要使用工具才能正确回答的指令。对于每个样本，我们随机选择一个问题并对其进行改写以增强数据多样性。一个改写示例如附录中表 9 所示。 ( i i ) 对于 𝐗 skill_use ，其想法和值是通过从一些预设的响应中随机选择并进行改写生成的。动作是已知的，因此可以直接赋值。 ( i i i ) 𝐗 skill_result 是根据固定规则生成的：首先呈现工具输出，然后重复初始问题。 ( i v ) 对于 𝐗 anwser ，其想法的创建方式类似于 𝐗 skill_use 中的想法，而动作被设置为为空。 𝐗 anwser 的值是最重要的字段，因为它是对人类可见的聊天回复。我们将所有先前的信息，包括先前的问题、先前工具的输出以及图像的上下文，输入到仅使用语言的GPT-4中，然后生成回复以形成指令遵循数据。受LLaVA启发，我们将真实标注的图像标题、物体坐标和物体类别视为图像上下文。

具有附加函数参数的技能。诸如物体检测和实例分割之类的视觉技能通常需要人类提供关于感兴趣概念的非常具体的指令。他们的指令遵循数据更难创建。本研究使用两种方法。 ( i ) 第一种方法类似于仅图像技能设置中的方法，其中初始 𝐗 q 包含一个占位符 concept ，从图像中呈现的一个或多个类别被随机选择来替换此占位符，并且最终 𝐗 q 通过改写获得，如表 9 所示。 ( i i ) 为了使LLM能够学习超越类别信息的更多样化的提示，我们使用GPT-4生成问题。具体来说，我们手动创建两个遵循公式 2 中完整对话的种子样本，将它们与图像上下文一起发送给GPT-4，并要求GPT-4根据新的图像上下文生成完整的对话。附录中表 10 显示了一个示例。

2.2.2 扩展技能

LLaVA-Plus方案可以应用于任何工具以提高系统能力。我们通过引入不同类别的多模态工具来展示其多功能性。由于篇幅有限，我们在附录的 B 节描述了指令遵循数据创建过程，并总结了我们启用的扩展技能。

•

外部知识。为了使LLM能够使用超出预训练模型权重中编码的知识，我们使用CLIP搜索API从LIAON检索外部知识。
•

生成。为使LLaVA-Plus能够输出图像，我们分别使用Stable Diffusion (SD)和Instruct-Pix2Pix进行图像生成和编辑。
•

视觉提示。为更好地遵循人类意图，我们支持各种用于人机交互的视觉提示，例如用户绘制的点、草图和方框。 SAM、Semantic-SAM和SEEM用于不同的交互式分割任务。
•

技能组合。为使LLaVA-Plus能够处理现实世界中的组合任务。我们为以下场景整理数据： ( i ) 在多轮人机交互会话中需要同一图像的各种视觉理解结果的场景。我们通过应用不同的工具（包括检测、分割、标记和字幕生成）来生成指令数据。 ( i i ) 交互式分割+修复。通过结合来自用户指向的SAM分割结果和SD，我们能够进行具有视觉交互的修复。 ( i i i ) 语义分割+生成。通过结合来自OpenSeed语义分割和ControlNet的空间布局，我们能够实现指令式视觉条件生成。 ( i v ) 图像生成/编辑+社交媒体帖子。对于人类用户来说，生成包含图像和文本的帖子非常耗时。因此，我们使用SD生成图像，或使用Instruct Pix2Pix编辑图像，然后将图像与其由预训练的LLM生成的描述结合起来，创建一个多模态帖子。

2.3 模型训练和服务

训练。

为了训练LLaVA-Plus，我们将精心策划的工具使用指令数据（如表 2 所示）与LLaVA-158K数据集结合。为了将LLaVA-158K转换为第 2.1 节中描述的统一预测格式，我们将LLaVA-158K中的响应视为值，并使用模板添加想法和操作字段，如附录中表 8 中的示例所示。 LLaVA-Plus 建立在两种设置中。 ( i ) LLaVA-Plus (所有工具)，其中工具使用被视为外部知识。表 2 中除分割之外的所有视觉理解工具都用于处理输入图像，并将提取的识别结果组织为符号序列表示，以丰富训练和评估阶段的图像特征。 ( i i ) LLaVA-Plus (Fly)，其中工具是动态使用的。为了降低调用所有工具的成本，我们仅针对给定的指令提供相关工具的执行结果。在报告定量数字时，我们在81K个理解指令数据上训练模型，因为现有基准主要关注理解能力。在构建演示系统时，我们在完整数据集上训练我们的模型。

服务。

LLaVA-Plus 使用 FastChat (Vicuna, 2023) 系统提供服务，该系统由与人类交互的 Web 服务器、托管 LLM 和多个工具的模型工作器以及协调 Web 服务器和模型工作器的控制器组成。 7B LLaVA-Plus 和所有工具都可以在 80G GPU 上加载和提供服务。

3 相关工作

我们在表 3 中总结了LLaVA-Plus与现有通用多模态系统之间的联系和区别，由于篇幅限制，此处仅显示代表性方法。如下所述，它们可以大致分为两类。

Capabilities	Image Understanding			Knowledge	Image Gen.	Visual Interaction	Combined	Too Use
Input	(Text, Image)					(Point, Box)	All	Allocator	Training
Output	Text	Box	Mask	Text	Image	(Text, Image, Mask)	All	Allocator	Training
MM-REACT	✓		✓		✓			LLM
GPT4Tools	✓	✓	✓		✓			LLM	✓
LLaVA-Plus	✓	✓	✓	✓	✓	✓	✓	LMM	✓
LLaVA/GPT-V	✓
Kosmos-2	✓	✓
CM3Leon	✓		✓	✓	✓

表3：与现有多模态系统的比较。空单元格表示不适用。 “分配器”指示用于调用工具的基础模型，“训练”指示是否需要模型训练才能启用工具使用。

具有多模态工具使用的 AI 智能体。

人们越来越关注探索一种范式，即构建通用的 AI 智能体，这些智能体协同利用多个工具和大型语言模型 (LLM) 来解决复杂的开放世界问题。这个想法起源于自然语言处理 (NLP)，用于调用大型语言模型 (LLM) 缺乏技能的通用工具（ 例如， ToolFormer (Schick et al., 2023) ，ChatGPT-Plugin (OpenAI, 2023b) ），并且最近扩展到多模态领域。有两种方法可以利用多模态工具，将大型语言模型 (LLM) 作为规划器来确定要调用的工具： ( i ) 通过提示工程和上下文学习进行工具链式调用，例如 Visual ChatGPT (Wu et al., 2023) ，MM-ReAct (Yang et al., 2023b) ，以及 ( i i ) 专注于多模态工具使用的 LLM 指令调优，例如 GPT4Tools (Yang et al., 2023a) 和 Gorilla (Patil et al., 2023) 。 LLaVA-Plus 代表了利用大型语言模型 (LLM) 作为工具使用规划器的首个工作，其中在整个交互会话中都会考虑图像输入，以改善用户体验。

具有多种功能的统一多模态模型。

受大型语言模型 (LLM) 统一架构完成许多语言任务成功的启发，人工智能社区对构建具有多种多模态功能的统一模型的兴趣日益浓厚。专有模型，例如 Flamingo (Alayrac et al., 2022) 和多模态 GPT-4 (OpenAI, 2023c) （或 GPT-4V (OpenAI, 2023d) ）在零样本任务迁移方面表现出强大的多模态性能，这迅速启发了它们的开源对应物：LLaVA、MiniGPT-4、Open-Flamingo (Awadalla et al., 2023) 、Otter (Li et al., 2023a) ，仅举几例。这些大型多模态模型 (LMM) 可以处理图像文本输入和文本输出的任务。其功能已扩展到支持图像文本输出的任务，例如图像编辑和分割，如 CM3Leon (Yu & et al, 2023) 、Emu (Sun et al., 2023) 和 GILL (Koh et al., 2023) 所示。最近支持用于基础的边界框输出，如 Kosmos-2 (Peng et al., 2023b) 、Shikra (Chen et al., 2023a) 和 DetGPT (Pi et al., 2023) 所示。 GPT4ROI (Zhang等人，2023c) 允许用户使用边界框选择感兴趣区域以进行人机视觉对话。 BubaGPT (Zhao等人，2023) 和LISA (Lai等人，2023) 使用额外的参照分割模型来实现掩码预测能力。与它们相比，LLaVA-Plus实现了更广泛的多模态技能及其组合，如表 3 所示。

4 实验

4.1 学习使用技能的有效性

工具使用改进现有能力。

我们考虑两个基准测试。 LLaVA-Bench (Liu等人，2023a) 评估了LLMMs的视觉对话，包含三种类型的问题：对话、详细描述和视觉推理。它包含两个数据集：包含30张COCO图像和90个对话问题的 COCO 集，以及包含24张网络图像和60个问题的 In-the-Wild 集。使用Language GPT-4( gpt4-0314 )对生成的答案进行评分。报告了模型输出和黄金响应之间的相对分数。 SEED-Bench (Li等人，2023b) 评估了LLMMs的图像级和实例级感知和推理，包含19000个多项选择题。结果如表 4 所示。两种LLaVA-Plus变体在这两个基准测试中都优于LLaVA，这证明了在LLMM管道中添加视觉识别结果和应用新技能的有效性。 LLaVA-Plus（所有工具）显示出优于LLaVA-Plus（Fly）的性能，因为前者利用更多工具作为附加上下文。我们进一步进行了一些消融实验： ( i ) 我们尝试在LLaVA的测试阶段直接添加技能执行结果，如LLaVA（测试中的工具）行所示。与LLaVA相比，性能下降表明在训练中学习使用技能的必要性。 ( i i ) 我们移除了统一数据格式中的思维链，并观察到性能下降，这表明思维链式数据格式是有益的。 ( i i i ) GPT4Tools 训练一个用于多模态工具使用的大语言模型 (LLM)。其较低的性能表明，LLaVA-Plus 中工具使用的视觉指令调优非常重要。

	LLaVA-Bench (COCO)				LLaVA-Bench (In-the-Wild)
	Conv.	Detail	Reasoning	All	Conv.	Detail	Reasoning	All
LLaVA	82.0	69.1	92.6	81.2	42.6	51.9	68.9	57.1
LLaVA (Tools in Test)	56.2	67.9	53.3	59.1	40.7	48.1	51.2	47.5
LLaVA-Plus (All Tools)	81.6	74.5	95.7	83.9	65.5	56.8	79.1	69.5
LLaVA-Plus (Fly)	76.2	72.2	92.3	80.4	45.2	50.4	72.6	59.1
LLaVA-Plus (Fly) (no thoughts )	76.6	70.4	90.7	79.4	38.8	39.8	59.8	48.7
GPT4Tools	75.3	53.8	86.9	72.1	31.1	27.1	54.1	40.7

(a) LLaVA-Bench。

	Scene	Identity	Attribute	Location	Counting	Spatial	Interact.	Reason.	Text	Average
LLaVA	59.50	54.29	56.06	42.54	39.35	33.03	43.30	41.39	30.59	44.45
LLaVA (Tools in Test)	67.13	56.85	45.24	47.24	45.69	40.18	60.82	70.09	30.59	51.54
LLaVA-Plus (All Tools)	68.94	56.80	58.89	47.34	48.14	45.21	60.82	71.30	37.65	55.01
LLaVA-Plus (Fly)	68.43	56.47	59.69	45.40	41.68	44.14	59.79	69.49	34.12	53.25

(b) SEED-Bench。

表 4： LLaVA-Plus 变体在两个大型多模态模型 (LMM) 基准测试中改进了 LLaVA。

	Grounding	Tagging	Caption	OCR	All
LLaVA	47.1	87.1	77.0	23.6	58.7
LLaVA (Tools in Test)	41.7	48.5	72.0	31.9	48.5
LLaVA-Plus (All Tools)	89.3	94.4	96.7	48.8	82.3
LLaVA-Plus (Fly)	88.6	88.9	90.2	38.4	76.5
Bard (0730)	36.5	105.3	103.3	60.0	76.3
Bing Chat (0730)	56.0	84.0	96.0	44.8	70.2
MM-REACT	30.2	94.7	103.8	77.3	76.5
All Tools + GPT4	77.5	95.6	95.2	39.3