专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
科学网  ·  同济大学领导班子调整 ·  昨天  
51好读  ›  专栏  ›  学姐带你玩AI

NeurIPS Oral丨视觉指令调整

学姐带你玩AI  · 公众号  ·  · 2024-08-12 18:10

正文

来源:投稿  作者:橡皮
编辑:学姐

论文链接:https://arxiv.org/abs/2304.08485

项目主页:https://github.com/haotian-liu/LLaVA

unset unset 摘要: unset unset

使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力,但这个想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,我们引入了 LLaVA:大型语言和视觉助手,这是一个端到端训练的大型多模态模型,它连接视觉编码器和 LLM,用于通用视觉和语言理解。为了促进未来对视觉指令跟踪的研究,我们构建了两个具有多样化和具有挑战性的面向应用任务的评估基准。我们的实验表明,LLaVA 表现出令人印象深刻的多模态聊天能力,有时在未见过的图像/指令上表现出多模态 GPT-4 的行为,并且在合成的多模态指令跟踪数据集上与 GPT-4 相比获得了 85.1% 的相对分数。在 Science QA 上进行微调时,LLaVA 与 GPT-4 的协同作用实现了 92.53% 的最新最佳准确率。我们将 GPT-4 生成的视觉指令调整数据、我们的模型和代码公开。

unset unset 1 引言 unset unset

人类通过视觉和语言等多种渠道与世界互动,因为每种渠道在表达和传达某些概念方面都有独特的优势,从而有助于更好地理解世界。人工智能的核心愿望之一是开发一种通用助手,能够有效地遵循多模态视觉和语言指令,与人类意图保持一致,在野外完成各种现实世界的任务。

为此,社区见证了开发语言增强基础视觉模型的新兴兴趣,这种模型在开放世界视觉理解方面具有强大的能力,例如分类、检测、分割和字幕,以及视觉生成和编辑。我们请读者参阅《Computer Vision in the Wild》阅读清单,以获取最新的文献汇编。在这一系列的工作中,每个任务都由一个大型视觉模型独立解决,任务指令在模型设计中隐式考虑。此外,语言仅用于描述图像内容。虽然这使得语言在将视觉信号映射到语言语义(人类交流的常用渠道)方面发挥着重要作用,但它导致模型通常具有固定的界面,交互性和对用户指令的适应性有限。

另一方面,大型语言模型 (LLM) 表明语言可以发挥更广泛的作用:通用助手的通用接口,其中各种任务指令可以用语言明确表示,并指导端到端训练的神经助手切换到感兴趣的任务来解决它。例如,ChatGPT 和 GPT-4 的最新成功证明了对齐 LLM 在遵循人类指令方面的强大功能,并激发了人们对开发开源 LLM 的极大兴趣。其中,LLaMA 是一个与 GPT-3 性能相匹配的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各种机器生成的高质量指令遵循样本来提高 LLM 的对齐能力,与专有 LLM 相比,报告了令人印象深刻的性能。重要的是,这项工作是纯文本的。

在本文中,我们介绍了 视觉指令调整 ,这是将指令调整扩展到语言图像多模态空间的首次尝试,旨在为构建通用视觉助手铺平道路。具体来说,我们的论文做出了以下贡献:

  • 多模态指令跟踪数据。一个关键挑战是缺乏视觉语言指令跟踪数据。我们使用 ChatGPT/GPT-4 提出了一种数据重组视角和管道,将图像文本对转换为适当的指令跟踪格式。

  • 大型多模态模型。我们通过将 CLIP 的开放集视觉编码器与语言解码器 Vicuna 连接起来,并在我们生成的指令视觉语言数据上进行端到端微调,开发了一个大型多模态模型 (LMM)。我们的实证研究验证了使用生成的数据进行 LMM 指令调整的有效性,并提出了构建通用指令跟踪视觉代理的实用技巧。当与 GPT-4 结合时,我们的方法在 Science QA 多模态推理数据集上实现了 SoTA。

  • 多模态指令跟踪基准。我们为 LLaVA-Bench 提供了两个具有挑战性的基准,其中包含多种配对图像、指令和详细注释。

  • 开源。我们向公众发布以下资产:生成的多模式指令数据、代码库、模型检查点和视觉聊天演示。

unset unset 2 相关工作 unset unset

多模态指令遵循代理。 在计算机视觉领域,现有的构建指令遵循代理的工作大致可分为两类:(i)端到端训练模型,针对每个特定研究主题分别进行探索。例如,视觉语言导航任务和 Habitat 要求具身 AI 代理遵循自然语言指令并采取一系列操作来完成视觉环境中的目标。在图像编辑领域,给定一个输入图像和一个告诉代理该做什么的书面指令,InstructPix2Pix 会按照人类的指令编辑图像。(ii)通过 LangChain/LLM 协调各种模型的系统,例如 Visual ChatGPT、X-GPT、MM-REACT、VisProg 和 ViperGPT。在构建指令遵循代理方面有着共同的目标的同时,我们专注于开发用于多项任务的端到端训练的语言视觉多模态模型。

指令调整。 在自然语言处理 (NLP) 社区中,为了使 GPT-3、T5、PaLM 和 OPT 等 LLM 能够遵循自然语言指令并完成现实世界的任务,研究人员探索了 LLM 指令调整的方法,从而分别产生了 InstructGPT/ChatGPT、FLAN-T5、FLAN-PaLM 和 OPT-IML 等指令调整的对应模型。事实证明,这种简单的方法可以有效地提高 LLM 的零样本和少样本泛化能力。因此,将 NLP 中的这一想法借用到计算机视觉中是很自然的。更广泛地说,具有基础模型的师生蒸馏思想已在图像分类等其他主题中得到研究。由于 Flamingo 在零样本任务迁移和上下文学习方面表现出色,因此可以将其视为多模态领域中的 GPT-3 时刻。在图像文本对上训练的其他 LMM 包括 BLIP-2、FROMAGe 和 KOSMOS-1。PaLM-E 是具身 AI 的 LMM。OpenFlamingo 和 LLaMA-Adapter 基于最近“最佳”开源 LLM LLaMA,是使 LLaMA 能够使用图像输入的开源成果,为构建开源多模态 LLM 铺平了道路。虽然这些模型表现出良好的任务迁移泛化性能,但它们并未明确使用视觉语言指令数据进行调整,并且它们在多模态任务中的表现通常与纯语言任务相比不足。在本文中,我们旨在填补这一空白并研究其有效性。最后,请注意,视觉指令调整不同于视觉提示调整:前者旨在提高模型的指令遵循能力,而后者旨在提高模型自适应中的参数效率。

unset unset 3 GPT辅助的视觉指令数据生成 unset unset

社区见证了公共多模态数据(例如图像-文本对)数量的激增,范围从 CC 到 LAION。然而,当涉及到多模态指令跟踪数据时,可用的数据量是有限的,部分原因是创建此类数据的过程非常耗时,而且考虑到人工众包搜索时定义不太明确。受最近 GPT 模型在文本注释任务中成功的启发,我们建议利用 ChatGPT/GPT-4 进行多模态指令跟踪数据收集,基于广泛存在的图像对数据。

表 1:一个示例,用于说明指令遵循数据。顶部块显示用于提示 GPT 的上下文(例如字幕和框),底部块显示三种类型的响应。请注意,视觉图像不用于提示 GPT,我们仅在此处显示它作为参考。

社区见证了公共多模态数据(例如图像-文本对)数量的激增,范围从 CC 到 LAION。然而,当涉及到多模态指令跟踪数据时,可用的数据量是有限的,部分原因是创建此类数据的过程非常耗时,而且当考虑到人工众包搜索时,定义不太明确。受最近 GPT 模型在文本注释任务中成功的启发,我们建议利用 ChatGPT/GPT-4 来收集基于广泛存在的图像对数据的多模态指令跟踪数据。

对于图像 Xv 及其相关描述 Xc,很自然地会创建一组问题 Xq,目的是指导助手描述图像内容。我们提示 GPT-4 整理这样一份问题列表(请参阅附录中的详细信息)。因此,将图像文本对扩展为其指令跟随版本的一种简单方法是人类:Xq Xv 助手:Xc 。虽然构建成本低廉,但这个简单的扩展版本在指令和响应方面都缺乏多样性和深入的推理。

为了缓解这个问题,我们利用纯语言的 GPT-4 或 ChatGPT 作为强教师(两者均仅接受文本作为输入),来创建涉及视觉内容的指令跟踪数据。具体来说,为了将图像编码到其视觉特征中以提示纯文本 GPT,我们使用两种类型的符号表示:(i)标题通常从各个角度描述视觉场景;(ii)边界框通常定位场景中的对象,每个框都编码对象概念及其空间位置。表 14 的顶部块显示了一个示例。

这种符号表示使我们能够将图像编码为 LLM 可识别的序列。我们使用 COCO 图像并生成三种类型的指令跟踪数据。表 14 的底部块显示了每种类型的一个示例。对于每种类型,我们首先手动设计一些示例。它们是我们在数据收集过程中拥有的唯一人工注释,并用作上下文学习中的种子示例来查询 GPT-4。

  • 对话。我们设计了助手与询问有关这张照片的问题的人之间的对话。答案的语气就好像助手正在看图像并回答问题一样。会询问有关图像视觉内容的各种问题,包括对象类型、对象计数、对象动作、对象位置、对象之间的相对位置。只有有明确答案的问题才会被考虑。请参阅附录了解详细提示。

  • 详细描述。为了对图像进行丰富而全面的描述,我们创建了一个具有此类意图的问题列表。我们提示 GPT-4,然后整理列表(请参阅附录中的详细提示和整理过程)。对于每幅图像,我们从列表中随机抽取一个问题,让 GPT-4 生成详细描述。

  • 复杂推理。以上两种类型主要关注视觉内容本身,在此基础上进一步提出深度推理问题。答案通常需要遵循严谨的逻辑,一步步推理。

我们总共收集了 158K 个独特的语言图像指令遵循样本,其中对话 58K 个,详细描述 23K 个,复杂推理 77K 个。我们在早期实验中减少了 ChatGPT 和 GPT-4 的使用,发现 GPT-4 始终提供更高质量的指令遵循数据,例如空间推理。

unset unset 4 视觉指令调整 unset unset

4.1 架构

主要目标是有效利用预训练的 LLM 和视觉模型的功能。网络架构如图 1 所示。我们选择 Vicuna 作为由 ϕ 参数化的 LLM fϕ(·),因为它在公开可用的检查点中具有语言任务中最佳的指令遵循能力。

图 1:LLaVA 网络架构。

对于输入图像 Xv,我们考虑预先训练的 CLIP 视觉编码器 ViT-L/14 [40],它提供视觉特征 Zv = g(Xv)。我们在实验中考虑了最后一个 Transformer 层之前和之后的网格特征。我们考虑了一个简单的线性层来将图像特征连接到词嵌入空间。具体来说,我们应用可训练的投影矩阵 W 将 Zv 转换为语言嵌入标记 Hv,其维度与语言模型中的词嵌入空间相同:

因此,我们得到了一系列视觉标记 Hv。请注意,我们的简单投影方案是轻量级的,这使我们能够快速迭代以数据为中心的实验。还可以考虑使用更复杂的方案来连接图像和语言表示,例如 Flamingo 中的门控交叉注意力和 BLIP-2 中的 Q-former。我们将探索可能更有效、更复杂的 LLaVA 架构设计作为未来的工作。

4.2 训练

对于每个图像 Xv,我们生成多轮对话数据 (X1q, X1a, · · ·, XTq, XTa),其中 T 是总轮数。我们将它们组织成一个序列,将所有答案视为助手的响应,并将第 t 轮的指令 Xt 指示为:

这导致了表 2 中所示的多模态指令跟随序列的统一格式。我们使用其原始的自回归训练目标对预测标记上的 LLM 执行指令调整。

具体来说,对于长度为 L 的序列,我们通过以下方式计算目标答案 Xa 的概率:

其中 θ 是可训练参数,Xinstruct, 以提高可读性。对于 LLaVA 模型训练,我们考虑了一个两阶段的指令调整过程。

表 2:用于训练模型的输入序列。这里仅显示了两个对话轮次;实际上,轮次数根据指令遵循数据而变化。在我们当前的实现中,我们遵循 Vicuna-v0设置系统消息 Xsystem-message,并设置 = ###。该模型经过训练可以预测助手的答案以及停止的位置,因此仅使用绿色序列/标记来计算自回归模型中的损失。

第 1 阶段:特征对齐的预训练。 为了在概念覆盖率和训练效率之间取得平衡,我们将 CC3M 过滤为 595K 个图像-文本对。有关过滤过程的详细信息,请参阅附录。使用第 3 节中描述的朴素扩展方法将这些对转换为指令跟随数据。每个样本可以被视为单轮对话。为了构造 (2) 中的输入 Xinstruct,对于图像 Xv,随机抽取一个问题 Xq,这是一个语言指令,要求助手简要描述图像。真实预测答案 Xa 是原始标题。在训练中,我们保持视觉编码器和 LLM 权重都冻结,并仅使用可训练参数 θ = W(投影矩阵)最大化 (3) 的似然。这样,图像特征 Hv 就可以与预训练的 LLM 词嵌入对齐。这个阶段可以理解为为冻结的 LLM 训练一个兼容的视觉标记器。

第 2 阶段:端到端微调。 我们始终保持视觉编码器权重不变,并继续更新 LLaVA 中投影层和 LLM 的预训练权重;即可训练参数为 (3) 中的 θ = {W, ϕ}。我们考虑两个特定的用例场景:

  • 多模态聊天机器人。我们通过在第 3 节中对 158K 语言图像指令遵循数据进行微调来开发聊天机器人。在三种类型的响应中,对话是多轮的,而其他两种是单轮的。它们在训练中被统一采样。

  • 科学问答。我们在 ScienceQA 基准上研究我们的方法,这是第一个大规模多模态科学问题数据集,它用详细的讲座和解释来注释答案。每个问题都以自然语言或图像的形式提供上下文。助手以自然语言提供推理过程,并在多个选项中选择答案。对于 (2) 中的训练,我们将数据组织为单轮对话,问题和上下文为 Xinstruct,推理和答案为 Xa。

unset unset 5 实验 unset unset

我们通过两个主要实验设置评估 LLaVA 在指令遵循和视觉推理能力方面的表现:多模态聊天机器人和 ScienceQA 数据集。我们按照 Vicuna 的超参数使用 8× A100 训练所有模型。我们在过滤后的 CC-595K 子集上对我们的模型进行了 1 个 epoch 的预训练,学习率为 2e-3,批处理大小为 128,并在提出的 LLaVA-Instruct-158K 数据集上进行了 3 个 epoch 的微调,学习率为 2e-5,批处理大小为 32。有关更多训练详细信息,请参阅附录。

5.1 多模态聊天机器人

我们开发了一个聊天机器人演示,以展示 LLaVA 的图像理解和对话能力,并研究 LLaVA 消化视觉输入和展示指令遵循能力的能力。我们首先使用原始 GPT-4 论文中的示例(如表 3 所示)(附录中有更多示例),这些示例需要深入的图像理解。为了进行比较,我们引用了多模态 GPT-4 论文中的提示和响应,并查询 BLIP-2 和 OpenFlamingo 模型检查点以获取其响应。

表 3:GPT-4 论文中的示例提示,用于比较视觉推理和聊天功能。与 BLIP-2 和 OpenFlamingo 相比,LLaVA 准确地遵循用户的指示,而不是简单地描述场景。LLaVA 提供的响应比 GPT-4 更全面。即使只是被要求描述图像,LLaVA 也能识别出图像的非典型方面。

令人惊讶的是,尽管 LLaVA 是用一个小型多模态指令跟踪数据集(约 80K 张独特图像)进行训练的,但它在这些示例上表现出与多模态 GPT-4 非常相似的推理结果。请注意,虽然这些图像超出了 LLaVA 的领域,但 LLaVA 仍然能够理解场景并遵循问题指令以提供合理的响应。相比之下,BLIP-2 和 OpenFlamingo 专注于描述图像,而不是遵循用户指令以适当的方式回答。

定量评估。 为了系统地了解 LLaVA 的性能,我们提出了一个定量指标来衡量模型在多模态数据上的指令遵循能力。受 [9] 的启发,我们利用 GPT-4 来衡量生成的响应的质量。具体来说,我们创建了由图像、真实文本描述和问题组成的三元组。候选模型(例如 LLaVA)根据问题和图像预测答案。为了提供近似的理论上限,我们使用纯文本 GPT-4 基于问题和真实文本描述创建参考预测。在获得两个模型的响应后,我们将问题、视觉信息(以文本描述的格式)和两个助手生成的响应提供给评委(即纯文本 GPT-4)。它评估助手回答的有用性、相关性、准确性和详细程度,并给出 1 到 10 分的总体评分,分数越高,整体表现越好。它还被要求对评估结果提供全面的解释,以便我们更好地理解模型。我们报告了相对于纯文本 GPT-4 模型的相对分数,该模型使用纹理基本事实描述作为视觉输入。我们创建了两个基准来评估模型的性能。

表 4:使用不同训练数据在 LLaVA-Bench (COCO) 上进行消融。我们报告了使用真实图像标题和边界框作为视觉输入的纯文本 GPT-4 模型的相对分数。我们使用模型输出的答案和 GPT-4 的答案(纯文本)提示 GPT-4,并让它比较两个答案并给出带有解释的评分。

表 5:使用 LLaVA-Bench (In-theWild) 上的相对分数比较指令遵循能力。结果以平均值 ± 标准差的格式报告。对于前三行,我们报告了三次推理运行。LLaVA 的表现明显优于其他。† 对于给定的一组 LLaVA 解码序列,我们通过查询 GPT-4 三次进行评估;GPT-4 给出了一致的评估。

LLaVA-Bench (COCO)。 我们从 COCO-Val-2014 中随机选择了 30 张图像,对于每张图像,我们使用第 3 节中提出的数据生成管道生成三类问题(对话、详细描述、复杂推理),共计 90 个问题。该基准研究了模型在一致视觉输入下的对齐行为和能力。我们改变训练数据集来研究不同类型的指令跟踪数据的有效性,并在表 4 中显示结果。首先,通过指令调整,模型遵循用户指令的能力显著提高了 50 多分。其次,添加少量的详细描述和复杂推理问题有助于将模型的整体能力提高 7 分。此外,它还提高了模型在对话问题上的表现,表明推理能力的提高是对对话能力的补充。最后,我们表明,拥有这三种类型的数据可获得最佳性能,达到 85.1%。

LLaVA-Bench(野外)。 为了评估模型在更具挑战性的任务中的能力以及对新领域的通用性,我们收集了一组不同的图像,共 24 张,包含 60 个问题,包括室内和室外场景、表情包、绘画、素描等,并将每张图像与高度详细且手动整理的描述和适当选择的问题相关联。我们在表 5 中比较了 LLaVA、BLIP 和 OpenFlamingo。得益于视觉指令调整,LLaVA 的性能明显优于 BLIP-2(+29%)和 OpenFlamingo(+48%)。与可以访问真实标签的纯文本 GPT-4 相比,LLaVA 在复杂推理问题上取得了令人印象深刻的 81.7% 的性能,总分为 67.3%。

局限性。 此 LLaVA-Bench (In-the-Wild) 旨在具有挑战性并揭示模型的弱点。我们在表 6 中提供了两个示例以及相关的标题和问题。对于拉面示例(左),要正确回答餐厅名称,需要模型具有广泛的知识覆盖范围和多语言理解能力;要正确描述配菜,模型可能需要从互联网上检索相关的多模态信息。对于冰箱示例(右),要感知正确的酸奶品牌,模型需要处理高分辨率图像并拥有广泛的知识覆盖范围。我们还观察到 LLaVA 的一个有趣的失败,因为当被问及是否存在草莓味酸奶时,它会回答是,即使冰箱里只有酸奶和草莓。这表明,有时,LLaVA 将图像视为“补丁包”,无法掌握图像中的复杂语义。我们希望 LLaVA 可以作为基准的坚实基线,我们的研究结果可以启发未来开发更强大的 LMM 的工作。

表 6:来自 LLaVA-Bench(In-the-Wild)的挑战性示例,我们为每幅图像提供了极其详细的注释,以便进行准确的评估。有些问题需要模型从高分辨率图像中提取细节,并具有广泛的知识覆盖范围。

5.2 ScienceQA







请到「今天看啥」查看全文