专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

LLaVA-o1: 视觉语言模型逐步推理

FightingCV · 公众号 · · 2025-01-31 09:00

正文

摘要

大型语言模型在推理能力方面取得了显著进展，尤其是在推理时间扩展方面，例如OpenAI的o1模型所示。然而，当前的视觉语言模型 (VLM) 通常难以进行系统和结构化的推理，尤其是在处理复杂的视觉问答任务时。在这项工作中，我们介绍了 LLaVA-o1 ¹ ，这是一种新型的VLM，旨在进行自主的多阶段推理。与思维链提示不同， LLaVA-o1 独立地进行总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化的方法使 LLaVA-o1 能够在推理密集型任务上取得显著的精度改进。为此，我们编制了 LLaVA-o1-100k 数据集，整合了来自各种视觉问答来源的样本，并提供了结构化推理标注。此外，我们提出了一种推理时间阶段级波束搜索方法，该方法能够有效地进行推理时间扩展。值得注意的是，仅使用10万个训练样本和一种简单而有效的推理时间扩展方法， LLaVA-o1 不仅在一系列多模态推理基准测试中比其基础模型提高了 8.9% ，而且超越了更大甚至闭源模型的性能，例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

1 引言

以OpenAI o1 [63] 为代表的大型语言模型展现出强大的系统性和深入推理能力，验证了推理时间扩展对于语言模型的有效性 [47] 。然而，视觉对于使模型能够充分理解世界并扩展其认知能力同样重要 [6] 。因此，开发一个整合语言和视觉，同时促进有效、系统和深入推理的多模态模型具有重要意义。

图1 : LLaVA-o1 和其他模型在六个多模态推理基准上的性能。尽管 LLaVA-o1 是从Llama-3.2-11B-Vision-Instruct [40] 模型（平均得分最低）微调而来，但它的性能优于许多更大的开源模型，甚至一些闭源模型。详细的基准测试结果如表 7 所示。

图2 : 基础模型和 LLaVA-o1 的比较。如图所示，基础模型Llama-3.2-11B-Vision-Instruct在推理方面存在明显的缺陷，在整个推理过程中出现了一些错误。相反， LLaVA-o1 首先概述问题，解释图像中的相关信息，逐步进行推理过程，最终得出有充分依据的结论。

早期的开源视觉语言模型 (VLMs) 主要采用直接预测方法 [32, 21, 30] ，立即生成简短的答案以响应问题。此直接响应范式的主要局限性在于缺乏结构化的推理过程，使其在需要逻辑推理的任务中效率较低 [62] 。最近的研究表明，结合思维链 (CoT) 推理可以鼓励模型逐步推理，从而显著提高其问答能力 [52] 。然而，即使使用 CoT 推理，大多数 VLMs 在推理过程中也经常产生错误或幻觉输出 [31, 24, 50] 。

我们发现，现有视觉语言模型（VLMs）推理过程缺乏系统性和结构性是导致这些问题的一个重要原因。具体来说，系统性是指模型不会生成直接的推理链，而是进行多阶段推理。另一方面，结构性是指模型能够清晰地识别其所处的推理阶段，并理解每个阶段需要解决的主要任务。我们观察到，VLMs 往往在充分组织问题和可用信息之前就启动了响应。此外，它们经常偏离逻辑推理走向结论，而不是先给出结论，然后再试图证明它。鉴于语言模型逐个符元（token）生成响应，一旦引入错误的结论，模型通常会沿着有缺陷的推理路径继续下去。

OpenAI o1 [63] 通过使模型能够独立地进行系统和结构化的语言推理有效地解决了这些问题。基于此见解，我们设计了 LLaVA-o1 。虽然社区对 OpenAI o1 [42, 54] 的底层机制进行了一些预备探索，但该模型仍然是一个黑盒，其技术细节在很大程度上是未知的。这项工作展示了一种通过监督微调（fine-tuning）来增强模型执行自主、分阶段推理能力的潜在方法。具体来说， LLaVA-o1 能够生成四个不同的阶段：摘要、描述、推理和结论。每个阶段在推理过程中都有其独特的目的。

•

摘要：模型总结即将进行的任务的简要概述。
•

描述：对图像相关部分（如果存在）的描述，重点关注与问题相关的元素。
•

推理：模型系统地考虑问题的详细分析。
•

结论：对答案的简要总结，根据之前的推理提供最终答案。

为了增强对大语言模型（LLM）中思维链（CoT）过程的理解， LLaVA-o1 使用专用标签（例如，

...

）标记每个阶段，以指示每个阶段的开始和结束。这些标签使模型能够在整个推理过程中保持清晰。与传统的CoT推理（允许模型自由思考）不同，我们的方法通过首先组织问题和已知信息，然后进行详细的思考过程，最后得出结论，从而促进结构化思维。为此，我们使用GPT-4o [3] 逐阶段生成响应，构建了 LLaVA-o1-100k 数据集，然后使用监督式微调训练模型。

LLaVA-o1 中的结构化推理也有助于提高推理时间的效率。与传统的缩放方法（例如最佳N采样 [51, 4] 和句子级波束搜索 [16, 49] ）相比， LLaVA-o1 采用了一种新颖的阶段级波束搜索方法，该方法在每个阶段生成多个候选结果，并选择最佳结果以继续生成过程。

我们在几个多模态推理基准上进行了实验，包括MMStar [9] 、MMBench [33] 、MMVet [60] 、MathVista [35] 、AI2D [23] 和HallusionBench [17] ，并观察到 LLaVA-o1 具有两个主要优点：首先，使模型能够独立执行结构化推理，大大优于传统的CoT提示，尤其是在需要系统分析的复杂推理任务中。其次，我们的阶段级波束搜索方法具有可扩展性并提高了性能可靠性，使其在实现稳定和准确的结果方面更有效。我们的贡献总结如下：

•

我们引入了 LLaVA-o1 ，这是一种专为系统推理而设计的多模态语言模型，在需要结构化思维和推理的任务上展现出卓越的性能。
•

我们证明了 LLaVA-o1 使用阶段级波束搜索是推理时间可扩展的。这意味着随着计算资源的增加，我们方法的性能可以进一步提高，使其适用于更复杂的任务和场景。
•

在各种基准测试上的大量实验表明，我们的方法相对于更大、闭源的模型实现了优越的性能，突出了 LLaVA-o1 在多模态推理方面的有效性。

2 相关工作

2.1 使用大型语言模型进行视觉推理

视觉推理需要模型的视觉感知能力和高级认知能力 [22, 37] 。已有多项任务被用于评估视觉语言模型 (VLMs) 的视觉推理能力，包括需要模型根据视觉内容和文本问题作答的视觉问答 (VQA) [20, 26] ，以及需要模型确定文本描述和视觉内容一致性的视觉蕴涵 (Visual Entailment) [48] 等。

传统的视觉语言模型采用神经符号方法 [5, 11] 来显式地建模视觉推理过程。随着大语言模型 (LLMs) 的发展，视觉语言模型利用 LLMs 的高级推理能力来解释视觉任务 [32, 59] 。一些视觉语言模型通过优化视觉编码策略 [29, 32, 21] 来生成关注认知的视觉符元，从而增强视觉推理能力。一些 VLMs，例如 VISPROG [18] ，将 LLM 定位为决策代理，通过调用各种特定任务的视觉模块来增强复杂视觉任务下的视觉推理能力。此外，语言模型的指令学习技术，包括提示微调 [61] 、上下文学习和监督微调 [46] ，也有助于提高视觉推理能力。

2.2 大语言模型中的思维链

当 LLM 面对困难的问题（包括常识推理 [44] 、逻辑推理 [55, 27] 等）时，思维链提示提供了一个逐步推理的轨迹。具体来说，CoT 提示将问题分解成一系列推理步骤，并构建一个链条来引导模型逐步生成复杂问题的答案 [12] 。最近的研究表明 [52, 15] ，CoT 提示大大提高了 LLM 在推理和可解释性方面的能力。

2.3 推理时间缩放

现有的推理时间缩放方法主要分为两类：一类依赖于外部验证器进行选择 [25, 56] ，另一类则独立于任何外部验证器运行 [19, 53] 。外部验证器选择方法可以应用于流行的方法。另一方面，不依赖外部验证者的推理时间缩放方法主要包括多数投票 [19] 、best-of-N搜索 [51, 4] ，以及句子级束搜索 [16, 49] 。多数投票对于具有标准答案的某些类型的问题是有效的，但不适用于开放式任务。最佳 N 个搜索会生成 N 个完整的答案，并允许模型选择最佳答案。然而，生成完整的答案选择会使评估其准确性变得复杂。基于句子的集束搜索生成多个候选句子，选择最佳句子，并迭代地继续此过程。然而，这种方法的操作粒度太细，这使得模型难以有效地评估其逐句响应的质量。

3 提出的方法

我们的 LLaVA-o1 促进了渐进的、逐步的推理过程，增强了视觉语言模型（VLM）的推理能力，并允许有效地进行推理时间扩展 [47] 。使用结构化思维， LLaVA-o1 实现了系统高效的推理过程。其推理时间推理框架使其在推理时间可扩展性方面优于现有方法。这种设计确保了在需要推理的复杂任务中的稳健性和准确性，这使其有别于传统方法。图 1 说明了我们推理过程的总体框架。

3.1 通过结构化思维增强推理能力

我们在训练期间的目标是开发一个能够进行扩展推理链的视觉语言模型，使其能够进行系统而深入的推理。

3.1.1 推理阶段

我们提出的模型 LLaVA-o1 将答案生成过程分解为四个结构化的推理阶段：

•

摘要阶段。在这个初始阶段， LLaVA-o1 提供了对问题的更高层次的总结性解释，概述了它打算解决的问题的主要方面。
•

标题阶段。如果存在图像， LLaVA-o1 会提供与问题相关的视觉元素的简要概述，帮助理解多模态输入。
•

推理阶段。在初步摘要的基础上， LLaVA-o1 进行结构化、逻辑推理以得出初步答案。
•

结论阶段。在最后阶段， LLaVA-o1 根据之前的推理综合出一个答案。这里，结论阶段的输出是直接提供给用户的回应，而之前的三个阶段是内部的“隐藏阶段”，代表 LLaVA-o1 的推理过程。此阶段的输出适应用户的需求：例如，如果用户请求简短的答案，结论将简洁明了；如果需要详细的解释，结论将提供全面、详尽的回应。

每个阶段都在模型自行决定时启动，无需外部提示工程框架或额外的提示。具体来说，我们为模型提供了四对特殊的标签：

，，和。这些标签分别对应于总结回应方法、描述相关图像内容、进行推理和准备最终答案。

训练后，模型会根据自身的判断自主选择这些标签，激活每个阶段。与OpenAI o1 [63] 一样，所有阶段都在单次推理过程中完成。这种结构化的方法使模型能够独立地管理其推理过程，从而提高其在复杂推理任务中的适应性和性能。

3.1.2 数据准备和模型训练

大多数现有的VQA数据集缺乏训练 LLaVA-o1 模型所需的详细推理过程。因此，我们编制了一个新的数据集，整合了来自几个广泛使用的VQA数据集的样本，总共有99k个图像问答对（每个对可能包含一轮或多轮提问）。如图 3 所示，由于目前尚不存在能够直接产生系统化、结构化推理的多模态模型，我们使用GPT-4o [3] 生成详细的推理过程，包括摘要、标题、推理和结论，并将这些编译到 LLaVA-o1-100k 数据集中，我们计划将其公开发布。我们包含来自通用VQA数据集和下面指定的科学目标VQA数据集的数据：

图3 ：生成 LLaVA-o1-100k 数据集的过程流程图。我们提示GPT-4o分阶段生成响应，并过滤其输出以确保质量。

Dataset	Type	Size
ShareGPT4V [8]	General VQA	31.3k
ChartQA [38]	General VQA	17.2k
A-OKVQA [45]	General VQA	16.1k
AI2D [23]	Science-Targeted VQA	11.4k
GeoQA+ [7]	Science-Targeted VQA	11.4k
ScienceQA [34]	Science-Targeted VQA	5.6k
DocVQA [39]	General VQA	4.0k
PISC [28]	General VQA	1.0k
CLEVR [22]	General VQA	0.5k
CLEVR-Math [13]	Science-Targeted VQA	0.5k

表1 ：从每个基准测试中选择的样本数量。

图4 ：推理方法的示意图。最佳N搜索生成 N 完整的响应并在其中选择最佳的一个；句子级束搜索为每个句子生成多个候选选项并选择最佳的一个。相反，我们的阶段级束搜索为每个推理阶段（例如，摘要、标题、推理和结论）生成候选项，并在每个阶段选择最佳选项。最佳N搜索在粗略级别上运行，而句子级束搜索过于细粒度，我们的方法实现了最佳平衡并取得了最佳性能。

图5 ： LLaVA-o1 使用和不使用阶段级束搜索的性能比较。我们的阶段级束搜索在模型推理过程中有效地选择了更好的推理。

通用VQA数据集。

我们包含了几个侧重点不同的通用视觉问答（VQA）数据集。 ShareGPT4V [8] 提供了来自GPT-4V [57] 交互的多轮问答数据。 ChartQA [38] 重点在于解读图表。 A-OKVQA [45] 强调了超出可见内容的外部知识。 DocVQA [39] 涉及需要文本理解的基于文档的问题。我们还包含了 PISC [28] 用于理解社会关系，以及 CLEVR [23] 用于处理物体属性、空间关系和计数任务。

面向科学的VQA数据集。

这些数据集包括用于几何推理的 GeoQA+ [7] ，以及针对科学问题的 AI2D [23] 和 ScienceQA [34] 。 CLEVR-Math [13] 是CLEVR的扩展，侧重于视觉环境中的算术分析。表格 1 显示了从每个数据集中选择的问答对的数量。

模型训练。

我们构建的 LLaVA-o1-100k 数据集可用于对任何现有模型进行进一步的监督微调 (SFT)，以增强其推理能力。在这项工作中，我们选择Llama-3.2-11B-Vision-Instruct [40] 模型作为基础模型，并使用 LLaVA-o1-100k 数据集进行全参数微调。训练在一个配备8个H100 GPU的单节点上进行。

3.2 使用阶段级束搜索有效提升推理时间

训练之后，我们的目标是进一步增强模型在推理过程中的推理能力。特别地，我们利用 LLaVA-o1 的分阶段输出，这为推理时间缩放提供了理想的粒度。我们的方法遵循以下步骤：

•

为解决方案的第一阶段采样 N 个响应。
•

随机抽取2个响应，并让模型确定哪个更好，保留更好的响应。
•

重复 N − 1 次，保留最佳响应。
•

为下一阶段采样 N 个响应，然后重复步骤2-4，直到所有阶段都处理完毕。

Model	MMStar	MMBench	MMVet	MathVista	AI2D	Hallusion	Average
Base Model
Llama-3.2-11B-Vision-Instruct	49.8	65.8	57.6	48.6	77.3	40.3	56.6
Our Models
LLaVA-o1 (with Direct Training)	54.3	76.2	49.9	49.5	91.4	42.9	60.7
LLaVA-o1 (w/o Structured Tags)	55.7	74.2	57.0	54.1	87.2	45.0	62.2
LLaVA-o1	57.6	75.0	60.3	54.8	85.7	47.8	63.5

表2 ：不同模型在基准测试上的实验结果。这里， LLaVA-o1 （直接训练）指的是直接在原始VQA数据集的问答对上训练的模型，而 LLaVA-o1 （无结构标签）指的是在 LLaVA-o1-100k 数据集上训练且已去除结构标签的模型。 LLaVA-o1 指的是在完整的 LLaVA-o1-100k 数据集上训练的模型，包括结构标签。

Model	CP	FP	IR	LR	Math	Science & Technology	Average
Base Model
Llama-3.2-11B-Vision-Instruct	66.0	46.4	57.6	50.8	45.2	32.8	49.8
Our Models
LLaVA-o1 (with Direct Training)	68.4	48.0	65.6	52.0	51.6	40.0	54.3
LLaVA-o1 (w/o Structured Tags)	68.4	48.0	60.0	55.2	64.4	38.0	55.7
LLaVA-o1	68.8	46.8	63.2	58.0	64.0	44.8	57.6

表3 ：不同模型在MMStar基准测试中跨不同技能领域的性能。这里，CP代表粗略感知，FP代表细粒度感知，IR代表实例推理，LR代表逻辑推理。如表所示，我们的模型在实例推理、逻辑推理、数学以及科学与技术方面比基线模型有了显著改进，这表明结构化推理可以显著增强模型的推理能力。

值得注意的是， LLaVA-o1 的结构化输出设计使得这种方法可行，从而能够在每个阶段进行高效且准确的验证。这验证了结构化输出在改进推理时间缩放方面的有效性。图 4 展示了这三种方法的示例。

我们在图 5 中提供了一个示例。当不应用推理时间缩放时，尽管模型会生成正确的推理步骤，但在推理过程中却无法得出具体的答案。这导致模型在结论阶段进行猜测，从而导致结果不正确。相反，使用推理时间缩放，模型保留了导致最终结果的推理步骤，确保了答案的正确性。

4 训练后性能

在本节中，我们将 LLaVA-o1 与基准模型Llama-3.2-11B-Vision-Instruct在六个常用的多模态基准测试中进行比较，以证明我们的方法在训练阶段的有效性。在此比较之后，我们进行消融研究以评估我们方法中每个组件的贡献，并解决以下三个关键问题：（1）我们的 LLaVA-o1-100k 数据集是否比直接使用原始数据集的问答对更有效？（2）结构化标签对性能有什么影响？具体来说，我们探讨了 LLaVA-o1 是否可以通过隐式分割响应的不同阶段来在没有标签的情况下发挥作用。（3）与基准模型相比，我们的模型在哪些特定领域表现出最大的改进，并且它是否真正增强了推理能力？

4.1 实验设置

我们为我们的实验选择了六个广泛使用且具有挑战性的基准：MMStar [9] 、MMBench V1.1 [33] 、MMVet [60] 、MathVista [35] 、AI2D [23] 和HallusionBench [17] 。 MMStar、MMBench和MMVet主要评估模型的一般视觉问答能力，而MathVista和AI2D则侧重于模型在数学和科学推理方面的熟练程度。 HallusionBench专门评估模型对语言幻觉和视觉错觉的处理能力。对于MMBench，我们使用测试集的V1.1版本，MathVista使用testmini集进行评估，其余数据集各有一个测试集。为确保公平性和可重复性，所有评估均使用VLMEvalKit [14] （一个用于大型视觉语言模型的开源评估工具包）进行。所有基线模型的性能指标均源自VLMEvalKit的测试结果 [1] 。

Model	MMStar	MMBench	MMVet	MathVista	AI2D	Hallusion	Average
Base Model
Llama-3.2-11B-Vision-Instruct	49.8	65.8	57.6	48.6	77.3	40.3	56.6
Our Models
LLaVA-o1	57.6	75.0	60.3	54.8	85.7	47.8	63.5
LLaVA-o1 (BS = 2)	58.1	75.6	61.7	56.1	87.5	48.2	64.5

表4 ：推理时间实验结果。 LLaVA-o1 (BS = 2) 表示使用束大小为 2 的阶段级束搜索的模型。结果表明，阶段级束搜索可以实现进一步的显著性能提升。

Method	Number of Beam	MMVet Score
No Inference Scaling	1	60.3
Best-of-N Search	10	60.9
Sentence-level Beam Search	2	58.4
Stage-level Beam Search	4	62.9

表5 ：与基线方法的比较。在相当的推理时间计算下，我们的阶段级束搜索优于 best-of-N 和句子级束搜索。

Method	Number of Beam	MMVet Score
No Inference Scaling	1	60.3
Stage-level Beam Search	2	61.7
Stage-level Beam Search	3	62.3
Stage-level Beam Search	4	62.9

表6 ： LLaVA-o1 的扩展趋势。随着候选响应数量的增加，模型的性能持续提高。

4.2 基准测试结果

我们发现， LLaVA-o1 即使只使用10万数据，也能实现显著的性能提升。根据表 2 ，与基线模型Llama-3.2-11B-Vision-Instruct相比， LLaVA-o1 在通用VQA、数学推理、科学VQA和幻觉控制任务中均表现出显著的改进，基准分数平均提高了 6.9% ，从而验证了我们方法的有效性。

4.3 消融研究

有效性 LLaVA-o1-100k 与原始数据集相比。

为证明我们改进的 LLaVA-o1-100k 数据集的有效性，我们在表 2 中比较了 LLaVA-o1 以及在不同基准测试中使用原始问答对训练的模型。尽管直接在原始问答对上训练的模型在基础模型上显示出一些整体改进，但其平均性能仍然明显较低。特别是在需要更详细回复的MMVet基准测试中，其性能甚至比基础模型更差。这个结果强调了我们 LLaVA-o1-100k 数据集多阶段格式对于训练能够进行高级推理的模型的重要性。

结构化标签对于增强性能至关重要。

为了检查我们引入的四个标签是否提高了模型的性能，我们将 LLaVA-o1 与在移除结构化标签的 LLaVA-o1-100k 数据集上训练的模型进行比较。如表 2 所示，我们的结果表明，当移除标签时，性能会显著下降，这表明结构化标记有助于推理并提高模型性能。据我们所知， LLaVA-o1 是首次尝试通过带有标签的结构化推理成功地增强模型的推理能力和整体性能。

性能提升主要体现在推理密集型领域。

为分析 LLaVA-o1 与基础模型相比改进的具体领域，我们对MMStar基准测试中模型在不同技能上的性能进行了详细评估。 MMStar旨在评估六种关键能力：粗略感知、细粒度感知、实例推理、逻辑推理、数学和科学技术。在表 3 中，我们将基础模型与 LLaVA-o1 进行了比较。我们的分析表明， LLaVA-o1 在需要系统推理的任务（例如实例推理、逻辑推理、数学和科学技术）中表现出显著的改进，而在粗略感知和细粒度感知方面的改进相对较小。这表明我们的方法主要可以提高模型的推理能力。

5 推理时间缩放

本节旨在将我们的分阶段束搜索方法的有效性与最佳N法和句子级束搜索等传统方法在可比计算约束下的有效性进行比较。实验设置与上一节中使用的设置相同，评估在相同的六个基准测试中进行：MMStar、MMBench V1.1、MMVet、MathVista、AI2D和HallusionBench。所有方法均使用VLMEvalKit进行评估，以确保可重复性。

Model	MMStar-R	MMBench-R	MMVet-R