专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

Qwen2-VL：增强视觉语言模型在任何分辨率下的世界感知能力

FightingCV · 公众号 · · 2024-10-09 09:00

正文

摘要

我们推出了Qwen2-VL系列，它是先前Qwen-VL模型的重大升级，重新定义了视觉处理中传统的预设分辨率方法。 Qwen2-VL引入了朴素动态分辨率机制，该机制使模型能够动态地将不同分辨率的图像处理成不同数量的视觉符元。这种方法允许模型生成更有效和准确的视觉表示，与人类感知过程密切吻合。该模型还集成了多模态旋转位置嵌入（M-RoPE），便于有效地融合文本、图像和视频中的位置信息。我们采用了一种统一的范式来处理图像和视频，增强了模型的视觉感知能力。为了探索大型多模态模型的潜力，Qwen2-VL研究了大型视觉语言模型（LVLMs）的扩展规律。通过扩展模型大小（版本分别为2B、8B和72B参数）和训练数据量，Qwen2-VL系列实现了极具竞争力的性能。值得注意的是，Qwen2-VL-72B模型在各种多模态基准测试中取得了与领先模型（如GPT-4o和Claude3.5-Sonnet）相当的结果，优于其他通用模型。代码可在https://github.com/QwenLM/Qwen2-VL获取。

介绍

在人工智能领域，大型视觉语言模型（LVLMs）代表着重大进步，它建立在传统大型语言模型强大的文本处理能力的基础上。这些先进的模型现在能够解释和分析更广泛的数据，包括图像、音频和视频。能力的扩展使LVLMs成为解决各种现实世界挑战的不可或缺的工具。 LVLMs因其将广泛而复杂的信息浓缩成功能表示的独特能力而得到认可，它们正在为更全面的认知系统铺平道路。通过整合多种数据形式，大型视觉语言模型 (LVLMs) 旨在更密切地模仿人类感知和与环境互动时的细微方式。这使得这些模型能够更准确地反映我们如何与环境互动和感知环境。

近年来，大型视觉语言模型 (LVLMs) 的快速发展 (Li 等人，2023c；Liu 等人，2023b；Dai 等人，2023；Zhu 等人，2023；Huang 等人，2023a；Bai 等人，2023b；Liu 等人，2023a；Wang 等人，2023b；OpenAI.，2023；Team 等人，2023) 在短期内取得了显著的进步。这些模型 (OpenAI，2023；Touvron 等人，2023a，b；Chiang 等人，2023；Bai 等人，2023a) 通常遵循一种常见的视觉编码器 → 跨模态连接器 → 大型语言模型 (LLM) 架构。这种架构，加上将下一个符元预测作为主要训练方法，以及高质量数据集的可用性 (Liu 等人，2023a；Zhang 等人，2023；Chen 等人，2023b；Li 等人，2023b) ，推动了大部分进展。此外，更大的模型架构 (Alayrac 等人，2022) 、更高分辨率的图像 (Li 等人，2023a，d) 和诸如混合专家模型 (MoE) (Wang 等人，2023b；Ye 等人，2023b) 、模型集成 (Lin 等人，2023) 和更复杂的视觉与文本模态连接器 (Ye 等人，2023a) 等高级技术也对增强 LVLMs 处理复杂视觉和文本信息的能力发挥了关键作用。

但是，当前的大型视觉语言模型 (LVLMs) 通常受到固定图像输入大小的限制。标准 LVLMs 将输入图像编码为固定分辨率（例如，224×224），通常通过对图像进行降采样或上采样 (Zhu 等人，2023；Huang 等人，2023a) ，或通过采用缩放然后填充的方法 (Liu 等人，2023b，a) 。虽然这种一刀切的策略能够以一致的分辨率处理图像，但它也限制了模型在不同尺度上捕获信息的能力，特别是导致在高分辨率图像中显著丢失细节信息。因此，这些模型无法像人类视觉那样对尺度和细节保持相同的敏感度来感知视觉信息。

此外，大多数 LVLMs 依赖于静态的、冻结的 CLIP 风格 (Radford 等人，2021) 视觉编码器，这引发了人们对这种预训练模型产生的视觉表示是否足够的问题，尤其是在复杂推理任务和处理图像中复杂细节方面。最近的一些工作 (Bai 等人，2023b；Ye 等人，2023a) 试图通过在 LVLM 训练过程中对视觉 Transformer (ViT) 进行微调来解决这些局限性，结果表明这可以提高性能。为了进一步增强模型对不同分辨率的适应性，我们在 LVLM 训练过程中引入了动态分辨率训练。具体来说，我们在 ViT 中采用了二维旋转位置嵌入 (RoPE)，从而使模型能够更好地跨不同空间尺度捕获信息。

图 1 : Qwen2-VL 能力：多语言图像文本理解、代码/数学推理、视频分析、实时聊天、代理潜力等等。详情请参见附录。

当谈及视频内容时，它本质上是一系列帧，许多现有的模型继续将其视为一种独立的模态。然而，理解现实的动态本质，正如视频所体现的那样，对于旨在掌握现实世界复杂性的模型至关重要。与文本不同，文本本质上是一维的，现实世界环境存在于三维空间中。当前模型中使用一维位置嵌入严重限制了它们有效建模三维空间和时间动态的能力。为了弥合这一差距，我们开发了多模态旋转位置嵌入（M-RoPE），它使用独立的组件来表示时间和空间信息。这使得模型能够自然地理解动态内容，例如视频或流数据，从而提高其理解和与世界交互的能力。

此外，与大型语言模型（LLM）的扩展相比，当前的 LVLMs 仍处于探索扩展影响的早期阶段，包括训练数据和模型参数。探索 LVLMs 的扩展规律——模型和数据大小的增加如何影响性能——仍然是一个开放且很有前景的研究领域。

在这项工作中，我们介绍了 Qwen 家族大型视觉语言模型的最新成员：Qwen2-VL 系列，它包含三个开放权重模型，其总参数数量分别为 20 亿、80 亿和 720 亿。如图 1 所示，Qwen2-VL 的主要进步包括：

•

在各种分辨率和长宽比下实现最先进的理解： Qwen2-VL 在视觉基准测试中取得领先性能，包括 DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista 等。
•

对长时间视频（20 分钟以上）的理解： Qwen2-VL 能够理解超过 20 分钟的视频，增强其执行高质量基于视频的问答、对话、内容创作等的能力。
•

用于设备操作的强大代理功能：凭借先进的推理和决策能力，Qwen2-VL 可以与移动电话、机器人等设备集成，根据视觉输入和文本指令实现自主运行。
•

多语言支持：为了服务全球受众，除了英语和中文之外，Qwen2-VL 现在支持图像中的多语言上下文理解，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

表 1 ： Qwen2-VL 模型描述。

Model Name	Vision Encoder	LLM	Model Description
Qwen2-VL-2B	675M	1.5B	The most efficient model, designed to run on-device. It delivers adequate performance for most scenarios with limited resources.
Qwen2-VL-7B	675M	7.6B	The performance-optimized model in terms of cost, significantly upgraded for text recognition and video understanding capabilities. It delivers significant performance across a broad range of visual tasks.
Qwen2-VL-72B	675M	72B	The most capable model, further improvements in visual reasoning, instruction-following, decision-making, and agent capabilities. It delivers optimal performance on most complex tasks.

图 2 ：无论图像清晰度、分辨率或纵横比如何，Qwen2-VL 都能够准确识别和理解图像中的内容。

方法

Qwen2-VL 系列包含 3 种尺寸的模型，分别是 Qwen2-VL-2B、Qwen2-VL-7B 和 Qwen2-VL-72B。表格 1 列出了超参数和重要信息。值得注意的是，Qwen2-VL 在各种规模的 LLM 中采用了一个 6.75 亿参数的 ViT，确保无论 LLM 的规模如何，ViT 的计算量始终保持不变。

2.1 模型架构

图 2 说明了 Qwen2-VL 的综合结构。我们保留了 Qwen-VL (Bai 等人，2023b) 框架，该框架集成了视觉编码器和语言模型。为了适应各种规模，我们实现了一个具有约 6.75 亿个参数的 Vision Transformer (ViT) (Dosovitskiy 等人，2021) ，该 Transformer 能够处理图像和视频输入。在语言处理方面，我们选择了更强大的 Qwen2 (Yang 等人，2024) 系列语言模型。为了进一步增强模型有效感知和理解视频中视觉信息的能力，我们引入了几个关键升级：

朴素动态分辨率

图 3 : M-RoPE 的演示。通过将旋转嵌入分解为时间、高度和宽度分量，M-RoPE 可以显式地建模 LLM 中文本、图像和视频的位置信息。

Qwen2-VL 的一个关键架构改进是引入了朴素动态分辨率支持 (Dehghani 等人，2024) 。不同于 Qwen-VL，Qwen2-VL 现在可以处理任何分辨率的图像，并动态地将它们转换为可变数量的视觉符元。 ¹ 为了支持此功能，我们修改了 ViT，去除了原始的绝对位置嵌入，并引入了 2D-RoPE (苏等人，2024；苏，2021) 来捕捉图像的二维位置信息。在推理阶段，不同分辨率的图像被打包成一个序列，打包长度被控制以限制 GPU 内存使用。此外，为了减少每个图像的视觉符元，在 ViT 之后使用了一个简单的 MLP 层，将相邻的 2 × 2 符元压缩成一个符元，并将特殊的和符元放在压缩后的视觉符元开头和结尾。因此，分辨率为 224 × 224 的图像，使用 patch_size=14 的 ViT 编码，将被压缩为 66 个符元，然后进入 LLM。

多模态旋转位置嵌入 (M-RoPE)

另一个关键的架构增强是多模态旋转位置嵌入 (M-RoPE) 的创新。与 LLM 中传统的 1D-RoPE 不同，1D-RoPE 仅限于编码一维位置信息，而 M-RoPE 有效地建模了多模态输入的位置信息。这是通过将原始旋转嵌入分解为三个分量来实现的：时间、高度和宽度。对于文本输入，这些分量使用相同的位置 ID，使 M-RoPE 在功能上等同于 1D-RoPE (苏，2024) 。在处理图像时，每个视觉符元的时序 ID 保持不变，而基于符元在图像中的位置，为高度和宽度分量分配不同的 ID。对于视频，视频被视为帧序列，每帧的时序 ID 都递增，而高度和宽度分量的 ID 分配模式与图像相同。在模型输入包含多种模态的情况下，每种模态的位置编号通过将前一种模态的最大位置 ID 加一初始化。图 3 说明了 M-RoPE。 M-RoPE 不仅增强了位置信息的建模，还减少了图像和视频中位置 ID 的值，使模型能够在推理过程中推断更长的序列。

统一的图像和视频理解

Qwen2-VL 采用了一种混合训练机制，结合了图像和视频数据，确保其在图像理解和视频理解方面熟练掌握。为了尽可能完整地保留视频信息，我们以每秒两帧的速率对每个视频进行采样。此外，我们集成了深度为 2 的 3D 卷积 (Carreira and Zisserman, 2017) 来处理视频输入，使模型能够处理 3D 管道而不是 2D 补丁，从而使其能够处理更多视频帧而不增加序列长度 (Arnab et al., 2021) 。为了一致性，每个图像都被视为两个相同的帧。为了平衡长视频处理的计算需求和整体训练效率，我们动态调整每个视频帧的分辨率，将每个视频的总令牌数限制为 16384。这种训练方法在模型理解长视频的能力和训练效率之间取得平衡。

2.2 训练

遵循 Qwen-VL (Bai et al., 2023b) ，我们采用三阶段训练方法。在第一阶段，我们专注于训练视觉 Transformer (ViT) 组件，利用大量的图像文本对来增强大型语言模型 (LLM) 中的语义理解。在第二阶段，我们解冻所有参数，并使用更广泛的数据进行训练，以进行更全面的学习。在最后阶段，我们将 ViT 参数锁定，并使用指令数据集对 LLM 进行专门的微调。

该模型是在一个多样化的数据集上进行预训练的，该数据集包括图像-文本对、光学字符识别 (OCR) 数据、交织的图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。我们的数据来源主要包括清理过的网页、开源数据集和合成数据。我们的数据知识截止日期为 2023 年 6 月。这种多样化的数据构成对于开发强大的多模态理解能力至关重要。

在最初的预训练阶段，Qwen2-VL 接触了大约 6000 亿个符元的语料库。 Qwen2-VL 的 LLM 组件使用来自 Qwen2 (Yang 等人，2024) 的参数进行初始化，而 Qwen2-VL 的视觉编码器使用来自 DFN 的 ViT 进行初始化。但是，原始 DFN 的 ViT (Fang 等人，2023) 中的固定位置嵌入被 RoPE-2D 替换。此预训练阶段主要侧重于学习图像-文本关系，通过 OCR 识别图像中的文本内容以及图像分类任务。这种基础训练对于使模型能够发展对核心视觉-文本相关性和对齐的强大理解至关重要。

第二个预训练阶段标志着重大的进展，涉及另外 8000 亿个图像相关数据的符元。此阶段引入了更多量的混合图像-文本内容，促进了对视觉和文本信息之间相互作用的更细致入微的理解。视觉问答数据集的加入完善了模型对图像相关查询做出响应的能力。此外，包含多任务数据集对于发展模型同时处理不同任务的能力至关重要，这是处理复杂、现实世界数据集时至关重要的技能。与此同时，纯文本数据继续在维持和提高模型的语言能力方面发挥至关重要的作用。

在整个预训练阶段，Qwen2-VL 处理的符元累计总数为 1.4 万亿。具体来说，这些符元不仅包含文本符元，还包含图像符元。然而，在训练过程中，我们只对文本符元提供监督。对广泛而多样的语言和视觉场景的接触确保了模型对视觉和文本信息之间错综复杂的关系形成了深刻的理解，从而为各种多模态任务奠定了坚实的基础。

在指令微调阶段，我们采用 ChatML (Openai, 2024) 格式构建指令遵循数据。此数据集不仅包含纯粹的基于文本的对话数据，还包含多模态对话数据。多模态组件包括图像问答、文档解析、多图像比较、视频理解、视频流对话和基于代理的交互。我们对数据构建的综合方法旨在增强模型在各种模态下理解和执行各种指令的能力。通过整合各种数据类型，我们力求开发更通用、更强大的语言模型，除了传统的基于文本的交互之外，还能处理复杂的多模态任务。

2.2.1 数据格式。

与 Qwen-VL 一致，Qwen2-VL 也使用特殊符元来区分视觉和文本输入。符元和分别插入图像特征序列的开头和结尾，以界定图像内容。

对话数据。

在对话格式方面，我们使用 ChatML 格式构建指令调优数据集，其中每个交互的语句都用两个特殊符元 ( 和 ) 标记，以方便对话结束。用蓝色标记的部分表示监督部分。

视觉接地。

为了赋予模型视觉接地能力，边界框坐标在 [0, 1000) 内归一化，并表示为 " ( X top left , Y top left ) , ( X bottom right , Y bottom right ) "。符元和用于界定边界框文本。为了准确地将边界框与其文本描述相关联，我们引入了符元和来指示边界框引用的内容，从而使模型能够有效地解释和生成特定区域的精确描述。

视觉代理。

为了将 Qwen2-VL 发展成为一个通用 VL-Agent，我们将各种代理任务（如 UI 操作、机器人控制、游戏和导航）视为顺序决策问题，使 Qwen2-VL 能够通过多步动作执行完成任务。对于每个任务，我们首先定义一组允许的动作和函数调用关键字模式（下划线） (Qwen Team, 2024) 。然后，Qwen2-VL 分析观察结果，执行推理和规划，执行所选动作，并与环境交互以获取新的观察结果。此循环迭代重复，直到任务成功完成。通过整合各种工具并利用大型视觉语言模型 (LVLMs) 的视觉感知能力，Qwen2-VL 能够迭代地执行涉及现实世界视觉交互的越来越复杂的任务。

2.3 多模态模型基础设施

Qwen2-VL 模型在阿里云的 PAI-Lingjun 智能计算服务 (Alibaba-Cloud, 2024c) 上进行了训练，该服务具有可扩展的计算、自动恢复和落后者检测功能。

存储。

我们使用阿里云的超高速 CPFS（云并行文件存储） (Alibaba-Cloud, 2024a) 来构建 Qwen2-VL 预训练和后训练的存储系统。我们将文本数据和视觉数据存储分离。我们只是将文本数据存储在 CPFS 上，并使用 mmap 来实现高效访问。对于视觉数据，我们使用阿里云的 OSS（对象存储服务） (Alibaba-Cloud, 2024b) 进行持久化存储。在训练期间，我们通过 OSS 的 python 客户端并发访问视觉数据，并调整并发度和重试参数，以避免达到 QPS（每秒查询数）限制。我们还发现，视频数据解码是一个主要瓶颈，特别是对于长视频而言。在使用开源 (FFmpeg-Developers, 2024) 和内部软件的多次尝试失败后，我们选择了一种缓存解码技术。检查点保存每个 GPU 的优化器和模型状态在 CPFS 上。

并行性。

我们使用 3D 并行性，它结合了数据并行性 (DP) (Li et al., 2020) 、张量并行性 (TP) (Krizhevsky et al., 2012; Shoeybi et al., 2019) 和流水线并行性 (PP) (Huang et al., 2019; Narayanan et al., 2021; Lamy-Poirier, 2023) 来扩展 Qwen2-VL 模型训练。我们还利用 deepspeed 的零冗余优化器 (Rajbhandari et al., 2020) 对状态进行分片，以节省内存。使用选择性检查点激活的序列并行性 (SP) (Korthikanti et al., 2023) (Chen et al., 2016) 来减少内存使用量。在启用 TP 训练时，我们总是将视觉编码器和大型语言模型一起分片，但不会分片视觉合并器，因为它参数相对较少。我们发现 TP 训练会由于卷积运算符的非确定性行为导致不同的模型共享权重 ² 。我们通过对共享权重执行离线归约来解决这个问题，从而避免额外的 all-reduce 通信步骤。这种方法对性能的影响微乎其微。我们利用 1F1B PP (Narayanan et al., 2021) 进行 Qwen2-VL 72B 训练。我们将视觉编码器、视觉适配器和几个 LLM 的解码器层组合成一个阶段，并将剩余的解码器层平均分配。请注意，每个数据点的视觉和文本序列长度都是动态的。我们广播动态序列长度，然后启动 1F1B 过程，并使用批次索引访问形状信息。我们还实现了交错的 1F1B PP (Narayanan 等人，2021) ，但发现它比标准 1F1B 设置慢。

软件。

我们使用 PyTorch (Paszke 等人，2019；Ansel 等人，2024) 版本 2.1.2，并使用 CUDA 11.8 (Nvidia，2024b) 进行训练。此外，我们利用闪存注意机制 (Dao 等人，2022；Dao，2024；Shah 等人，2024) 在视觉编码器和 LLM 中进行高效的训练。我们还利用融合运算符 (Nvidia，2024a) ，如 LayerNorm (Ba 等人，2016) 、RMSNorm (Zhang 和 Sennrich，2019) 和 Adam (Loshchilov 和 Hutter，2019) 。除此之外，我们还利用训练过程中的矩阵乘法期间通信和计算的重叠。

实验

在本节中，我们首先通过对各种视觉基准进行比较分析来评估模型的性能，展示了我们方法的优势。随后，我们对特定能力进行了详细的考察，包括一般的视觉感知、文档理解、图像中的多语言识别、视频理解和代理能力。最后，我们提供了一个消融研究，以调查我们方法的几个关键组件。

表 2 : Qwen2-VL 模型和最先进技术的性能比较。

Benchmark	Previous SoTA	Claude-3.5 Sonnet	GPT-4o	Qwen2-VL-72B	Qwen2-VL-7B	Qwen2-VL-2B
MMMU _val (Yue et al., 2023)	66.1 (X.AI, 2024b)	68.3	69.1	64.5	54.1	41.1
DocVQA _test (Mathew et al., 2021)	94.1 (Chen et al., 2024c)	95.2	92.8	96.5	94.5	90.1
InfoVQA _test (Mathew et al., 2021)	82.0 (Chen et al., 2024c)	-	-	84.5	76.5	65.5
AI2D (Kembhavi et al., 2016)	87.6 (Chen et al., 2024c)	80.2(94.7)	84.6(94.2)	88.1	83.0	74.7
ChartQA _test (Masry et al., 2022)	88.4 (Chen et al., 2024c)	90.8	85.7	88.3	83.0	73.5
TextVQA _val (Singh et al., 2019)	84.4 (Chen et al., 2024c)	-	-	85.5	84.3	79.7
OCRBench (Liu et al., 2023e)	852 (Yao et al., 2024)	788	736	877	866	809
MTVQA (Tang et al., 2024)	23.2 (Team et al., 2023)	25.7	27.8	30.9	25.6	18.1
VCR _{en easy} (Zhang et al., 2024c)	84.7 (Chen et al., 2024c)	63.9	91.6	91.9	89.7	81.5
VCR _{zh easy} (Zhang et al., 2024c)	22.1 (Chen et al., 2024c)	1.0	14.9	65.4	59.9	46.2
RealWorldQA (X.AI, 2024a)	72.2 (Chen et al., 2024c)	60.1	75.4	77.8	70.1	62.9
MME _sum (Fu et al., 2023)	2414.7 (Chen et al., 2024c)	1920.0	2328.7	2482.7	2326.8	1872.0
MMBench-EN _test (Liu et al., 2023d)	86.5 (Chen et al., 2024c)	79.7	83.4	86.5	83.0	74.9
MMBench-CN _test (Liu et al., 2023d)	86.3 (Chen et al., 2024c)	80.7	82.1	86.6	80.5	73.5
MMBench-V1.1 _test (Liu et al., 2023d)	85.5 (Chen et al., 2024c)	78.5	82.2	85.9	80.7	72.2
MMT-Bench _test (Ying et al., 2024)	63.4 (Chen et al., 2024b)	-	65.5	71.7	63.7	54.5
MMStar (Chen et al., 2024a)	67.1 (Chen et al., 2024c)	62.2	63.9	68.3	60.7	48.0
MMVet _GPT-4-Turbo (Yu et al., 2024)	67.5 (OpenAI., 2023)	66.0	69.1	74.0	62.0	49.5
HallBench _avg (Guan et al., 2023)	55.2 (Chen et al., 2024c)	49.9	55.0	58.1	50.6	41.7
MathVista _testmini (Lu et al., 2024a)	69.0 (X.AI, 2024b)	67.7	63.8	70.5	58.2	43.0
MathVision (Wang et al., 2024)	30.3 (OpenAI, 2023)	-	30.4	25.9	16.3	12.4
MMMU-Pro (Yue et al., 2024)	46.9 (Team et al., 2023)	51.5	51.9	46.2	43.5	37.6

表 3 : Qwen2-VL 和 GPT-4o 在内部多语言 OCR 基准上的性能。

Language	Korean	Japanese	French	German	Italian	Russian	Vietnamese	Arabic
GPT-4o	87.8	88.3	89.7	88.3	74.1	96.8	72.0	75.9
Qwen2-VL-72B	94.5	93.4	94.1	91.5	89.8	97.2	73.0	70.7

表 4 : Qwen2-VL 和其他模型在视频基准测试中的性能。

Benchmark	Previous SoTA	Gemini 1.5-Pro	GPT-4o	Qwen2-VL-72B	Qwen2-VL-7B	Qwen2-VL-2B
MVBench (Li et al., 2024)	69.6	-	-	73.6	67.0	63.2
PerceptionTest _test (Patraucean et al., 2024)	66.9	-	-	68.0	62.3	53.9
EgoSchema _test (Mangalam et al., 2023)	62.0	63.2	72.2	77.9	66.7	54.9
Video-MME _{(wo/w subs)} (Fu et al., 2024)	66.3/69.6	75.0 / 81.3	71.9/77.2	71.2/77.8	63.3/69.0	55.6/60.4

表 5 : Qwen2-VL-72B 在各种代理基准测试和 GPT-4o 中的性能比较。 SR、GC、TM 和 EM 分别代表成功率、目标条件成功、类型匹配和完全匹配。 ALFRED、R2R 和 REVERIE 的性能是在有效未见数据上的。

	Benchmark	Metric	Previous SoTA	GPT-4o	Qwen2-VL-72B
General	FnCall	TM	-	90.2	93.1
General	FnCall	EM	-	50.0	53.2
UI Operations	AITZ (Zhang et al., 2024b)	TM	83.0 (Hong et al., 2023)	70.0	89.6
UI Operations	AITZ (Zhang et al., 2024b)	EM	47.7 (Zhan and Zhang, 2023)	35.3	72.1
Card Games	Number Line (Zhai et al., 2024)	SR	89.4 (Zhai et al., 2024)	91.5	100.0
	BlackJack (Zhai et al., 2024)	SR	40.2 (Zhai et al., 2024)	34.5	42.6
	EZPoint (Zhai et al., 2024)	SR	50.0 (Zhai et al., 2024)	85.5	100.0
	Point24 (Zhai et al., 2024)	SR	2.6 (Liu et al., 2023b)	3.0	4.5
Robotic Control	ALFRED (Shridhar et al., 2020a)	SR	67.7 (Lu et al., 2023)	-	67.8
Robotic Control	ALFRED (Shridhar et al., 2020a)	GC	75.3 (Lu et al., 2023)	-	75.8
Navigation	R2R (Anderson et al., 2018)	SR	79.0 (Chen et al., 2022)	43.7	51.7
Navigation	REVERIE (Qi et al., 2020)	SR	61.0 (Sigurdsson et al., 2023)	31.6	31.0

3.1 与最先进技术相比

我们通过各种视觉基准测试、视频任务和基于代理的评估来评估模型的视觉能力。 Qwen2-VL 在相同规模下展现出极具竞争力的性能，取得了新的最先进 (SoTA) 结果。总的来说，我们的 72B 模型在大多数评估指标上始终如一地提供顶尖性能，经常超过甚至包括 GPT-4o (OpenAI，2024) 和 Claude 3.5-Sonnet (Anthropic，2024) 等闭源模型。值得注意的是，它在文档理解任务中表现出显著优势。然而，在 MMMU (Yue 等人，2023) 基准测试中，我们的模型在一定程度上仍然落后于 GPT-4o，表明 Qwen2-VL-72B 在处理更复杂和更具挑战性的问题集时仍有改进空间。

3.2 定量结果

在本节中，我们对 Qwen2-VL 系列进行了广泛的评估，涵盖了一系列数据集，全面了解模型在各个方面的能力。

3.2.1 一般视觉问答

为了严格评估我们模型在一般视觉问答任务中的能力，我们在各种最先进的基准测试中进行了广泛的评估：RealWorldQA (X.AI，2024a) 、MMStar (Chen 等人，2024a) 、MMVet (Yu 等人，2024) 、MMT-Bench (Ying 等人，2024) 、MMBench (Liu 等人，2023d) 、MMbench-1.1 (Liu 等人，2023d) 、MME (Fu 等人，2023) 和 HallusionBench (Guan 等人，2023) 。 Qwen2-VL 系列在这些基准测试中展现出卓越的性能，其中 72B 模型始终达到或超越最先进的结果，而 7B 和 2B 变体也展现出强大的能力。在评估现实世界空间理解能力的 RealWorldQA 上，Qwen2-VL-72B 实现了 77.8 的得分，超过了之前最先进的水平 (72.2) 和 GPT-4o (75.4) 等强大的基线，从而证明了其对物理环境的优越理解能力。对于 MMStar，一个旨在通过视觉不可或缺的样本评估真正多模态能力的基准测试，Qwen2-VL-72B 达到了 68.3，超过了之前的最佳水平 67.1，突出了其在整合视觉和文本信息方面的熟练程度。在 MMVet 上，该基准评估了 16 个复杂的多模态任务中核心视觉语言能力的整合，Qwen2-VL-72B 实现了惊人的 74.0，显著超过了包括 GPT-4V (67.5) 在内的强大竞争对手，展示了其在应对各种多模态挑战方面的多功能性。在 MMT-Bench 评估中，该评估评估了多模态理解中 32 个核心元任务和 162 个子任务的先进推理和指令遵循能力，Qwen2-VL-72B 实现了 71.7，明显超过了之前的最佳水平 (63.4)，证明了其在应用专家知识和执行深思熟虑的视觉识别、定位、推理和规划方面的实力。在 MMBench 上，该基准评估了 20 个维度的细粒度能力，Qwen2-VL-72B 表现出强劲的性能，在英语测试集上获得了 86.5 的得分，与最先进的水平相当，在汉语测试集上获得了 86.6 的得分，树立了新的基准。对于 MME，该基准衡量了 14 个子任务中广泛的感知和认知能力，Qwen2-VL-72B 实现了 2482.7 的累计得分，显著超过了之前的最佳水平 (2414.7)，强调了其在视觉感知和高级认知任务方面的先进能力。

这些综合结果强调了 Qwen2-VL 系列在一般视觉问答任务方面的出色能力。这些模型在现实世界空间理解、真正多模态集成、复杂推理、指令遵循以及广泛的感知和认知任务中展现出先进的能力。在各种基准测试中始终如一的优异表现，尤其是 72B 模型的出色结果，使 Qwen2-VL 系列成为视觉问答领域领先的解决方案。我们的模型擅长处理视觉不可或缺的任务，整合核心视觉语言能力，并在各种多模态场景中展现出专业知识，涵盖从基础感知任务到复杂推理和规划。这一全面的评估突出了 Qwen2-VL 系列在应对最先进的多模态基准提出的多方面挑战方面的多功能性和有效性，从而为大型视觉语言模型设定了新的标准。

3.2.2 文档和图表阅读

我们在 DocVQA (Mathew et al., 2021) 、ChartQA (Masry et al., 2022) 、InfoVQA (Mathew et al., 2021) 、TextVQA (Singh et al., 2019) 、AI2D (Kembhavi et al., 2016) 数据集上测试了我们模型的 OCR 和文档及图表理解能力。 DocVQA/InfoVQA/ChartQA 数据集侧重于模型理解文档/高分辨率信息图表/图表中文本的能力，而 TextVQA 数据集则侧重于模型理解自然图像中文本的能力。 OCRBench 数据集是一个混合任务数据集，除了基于文本的 VQA 之外，还侧重于数学公式解析和信息提取。 AI2D 数据集侧重于包含文本的科学图表上的多项选择题。此外，我们还在 OCRBench (Liu 等人，2023e) 上测试了我们模型的 OCR 和公式识别能力，以及在 MTVQA (Tang 等人，2024) 数据集上测试了我们模型的多语言 OCR 能力。

实验结果表明，我们的模型在多个指标上达到了 SoTA 水平，包括 DocVQA、InfoVQA、TextVQA 和 OCRBench，这表明我们的模型能够很好地理解来自多个领域的图像中的文本内容。

3.2.3 多语言文本识别和理解

特别地，我们的模型在多语言 OCR 方面超越了所有现有的通用 LVLMs。我们的模型不仅在公开可用的 MTVQA 数据集上优于现有的 LVLMs（包括 GPT-4o、Claude 3.5 Sonnet 等专有模型），而且在内部基准测试中也优于 GPT-4o，涵盖除阿拉伯语以外的所有外语（表格 3 ）。

3.2.4 数学推理

我们在 MathVista (Lu 等人，2024a) 和 MathVision (Wang 等人，2024) 数据集上进行了实验，以评估数学推理能力。 MathVista 是一个综合性的基准测试，包含 6,141 个关于数学和视觉任务的不同示例。 MathVision 数据集包含 3,040 个嵌入在实际数学竞赛的视觉背景中的数学问题，涵盖 16 个数学学科，难度从五个级别不等。这些挑战强调了 LVLMs 需要展现强大的视觉理解能力、对数学的深刻理解以及合理的逻辑推理能力。 Qwen2-VL 系列在 MathVista 上表现出色，取得了 70.5 的成绩，超过了其他 LVLMs。此外，它在 MathVision 上也创下了 25.9 的开源基准新纪录。

3.2.5 指代表达理解

在视觉定位任务方面，我们在 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集上评估了 Qwen2-VL (Kazemzadeh 等人，2014; Mao 等人，2016) 。结果如表格 6 所示，表明 Qwen2-VL 在通用模型中取得了顶尖的成绩。得益于更合理的结构设计，Qwen2-VL 能够感知高分辨率图像中的细节，从而在 Qwen-VL 的基础上取得了显著改进。这些模型与通用模型和专业模型相比的优越性突出了它们在推进视觉定位领域以及在需要精确视觉理解的任务中进行现实世界实施的潜力。

表 6 : 指代表达理解任务的性能比较。

Type	Model	RefCOCO			RefCOCO+			RefCOCOg
Type	Model	val	test-A	test-B	val	test-A	test-B	val	test
Generalist	OFA-L (Wang et al., 2022)	80.0	83.7	76.4	68.3	76.0	61.8	67.6	67.6
	Shikra (Chen et al., 2023a)	87.0	90.6	80.2	81.6	87.4	72.1	82.3	82.2
	Qwen-VL (Bai et al., 2023b)	89.4	92.3	85.3	83.1	88.3	77.2	85.6	85.5
	Ferretv2 (Zhang et al., 2024a)	92.6	95.0	88.9	87.4	92.1	81.4	89.4	90.0
	CogVLM (Wang et al., 2023b)	92.8	94.8	89.0	88.7	92.9	83.4	89.8	90.8
	InternVL2 _2b (Chen et al., 2024c)	82.3	88.2	75.9	73.5	82.8	63.3	77.6	78.3
	InternVL2 _8b (Chen et al., 2024c)	87.1	91.1	80.7	79.8	87.9	71.4	82.7	82.7
	InternVL2 _76b (Chen et al., 2024c)	92.2	94.8	88.4	88.8	93.1	82.8	89.5	90.3
	Qwen2-VL _2b	87.6	90.6	82.3	79.0	84.9	71.0	81.2	80.3
	Qwen2-VL _7b	91.7	93.6	87.3	85.8	90.5	79.5	87.3	87.8
	Qwen2-VL _72b	93.2	95.3	90.7	90.1	93.8	85.6	89.9	90.4
Specialist	G-DINO-L (Liu et al., 2023c)	90.6	93.2	88.2	82.8	89.0	75.9	86.1	87.0
	UNINEXT-H (Yan et al., 2023)	92.6	94.3	91.5	85.2	89.6	79.8	88.7	89.4
	ONE-PEACE (Wang et al., 2023a)	92.6	94.2	89.3	88.8	92.2	83.2	89.2	89.3

Qwen2-VL：增强视觉语言模型在任何分辨率下的世界感知能力

正文

摘要

介绍

方法

2.1 模型架构

朴素动态分辨率

多模态旋转位置嵌入 (M-RoPE)

统一的图像和视频理解

2.2 训练

2.2.1 数据格式。

对话数据。

视觉接地。

视觉代理。

2.3 多模态模型基础设施

存储。

并行性。

软件。

实验

3.1 与最先进技术相比

3.2 定量结果

3.2.1 一般视觉问答

3.2.2 文档和图表阅读

3.2.3 多语言文本识别和理解

3.2.4 数学推理

3.2.5 指代表达理解

3.2.6

请到「今天看啥」查看全文

Qwen2-VL：增强视觉语言模型在任何分辨率下的世界感知能力

正文

摘要

介绍

方法

2.1 模型架构

朴素动态分辨率

多模态旋转位置嵌入 (M-RoPE)

统一的图像和视频理解

2.2 训练

2.2.1 数据格式。

对话数据。

视觉接地。

视觉代理。

2.3 多模态模型基础设施

存储。

并行性。

软件。

实验

3.1 (adsbygoogle = window.adsbygoogle || []).push({}); 与最先进技术相比

3.2 定量结果

3.2.1 一般视觉问答

3.2.2 文档和图表阅读

3.2.3 多语言文本识别和理解

3.2.4 数学推理

3.2.5 指代表达理解

3.2.6

请到「今天看啥」查看全文

3.1 与最先进技术相比