专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

THU鲁继文&NTU刘子纬团队联手发布 Oryx MLLM：实时应对任意分辨率的时空理解

FightingCV · 公众号 · · 2024-09-26 09:00

正文

视觉数据以各种形式出现，从只有几个像素的小图标到跨越数小时的长视频。现有的多模态 LLM 通常将这些不同的视觉输入标准化为视觉编码器的固定分辨率，并为 LLM 生成相似的标记数量。这种方法对于多模态理解而言并非最佳，并且对于处理具有长短视觉内容的输入而言效率低下。为了解决这个问题，我们提出了 Oryx，一个用于图像、视频和多视图 3D 场景的时空理解的统一多模态架构。 Oryx 提供了一种按需解决方案，通过两个核心创新来无缝且高效地处理具有任意空间大小和时间长度的视觉输入：1) 一个预训练的 OryxViT 模型，可以将任意分辨率的图像编码为 LLM 友好的视觉表示；2) 一个动态压缩模块，支持按需对视觉标记进行 1 倍至 16 倍的压缩。这些设计特性使 Oryx 能够适应极长的视觉上下文，例如视频，使用较低的分辨率和高压缩，同时在具有原生分辨率和无压缩的任务（如文档理解）中保持较高的识别精度。除了架构改进之外，增强的数据整理和针对长上下文检索和空间感知数据的专门训练有助于 Oryx 同时在图像、视频和 3D 多模态理解方面取得强大的能力。我们的工作已在 https://github.com/Oryx-mllm/Oryx 开源。

1 简介

多模态大型语言模型 (MLLM) 在处理和整合视觉和语言输入以生成连贯且与上下文相关的响应方面取得了重大进展。专有模型，例如 (OpenAI, 2023b; 2024; GeminiTeam, 2024) 体现了 MLLM 的尖端能力。同时，开源社区正在积极推进 MLLM，增强它们理解各种视觉内容的能力 (Tong et al., 2024; Liu et al., 2024g; Yang et al., 2023a) ，包括图像 (Li et al., 2024a; Chen et al., 2024b) 、视频 (Lin et al., 2023a; Cheng et al., 2024; Qian et al., 2024) 和 3D 数据 (Hong et al., 2023) ，等等。随着 MLLM 变得越来越强大，越来越需要更通用和统一的 MLLM，它们能够以更不同的形式处理视觉内容，并完成更具挑战性的多模态理解问题。

在实现更通用 MLLM 的道路上，一个核心挑战是为各种视觉数据开发更好的视觉表示。视觉数据表现出显著的复杂性和多样性，其特征在于收集来源、目标视觉任务、特定内容和分辨率质量的变化。现有的方法通常只是将所有类型的视觉输入统一处理，忽略了视觉内容的变化以及不同应用程序的具体需求。例如，早期的 MLLMs (Alayrac 等人，2022；Li 等人，2023；Bai 等人，2023) 尝试通过将这些不同的视觉输入转换为固定分辨率来标准化这些输入，以便可以使用预先训练好的 CLIP 编码器提取与语言内容良好对齐的高质量视觉表示。近年来，MLLMs 的进展 (Liu 等人，2024c；Xu 等人，2024b；Yao 等人，2024) 通过引入动态分区 (Liu 等人，2024c) 来扩展这一理念，作为生成高分辨率视觉表示的一种手段，同时利用强大的 CLIP 模型进行编码。然而，由于缺乏支持原生分辨率输入的高质量多模态编码器，该解决方案仍然是一种妥协。以按需方式支持视觉输入的原生分辨率成为 MLLMs 中视觉理解的一种更通用、更有效的解决方案，它提供了几个优势：它通过利用整个图像作为输入来防止信息丢失，从而解决了极端边缘情况；它提高了效率和自然性，从而导致整体性能更好。如图 1 所示，针对分辨率和压缩进行优化可以提高效率并满足实际需求：高分辨率对于文本相关任务至关重要，而对象级任务可能只需要简单的图像，一些应用程序可能需要对极长的视频进行总结，而其他应用程序则需要为每一帧保持高精度。

在本文中，我们通过引入改进的体系结构设计来探索用于全面时空理解的按需 MLLMs，并提出了新的 Oryx 模型，旨在解决这些挑战并增强 MLLMs 的功能。 Oryx 是一种统一的时空理解 MLLM 框架，它能够以按需方式熟练地处理任意视觉分辨率、不同的时间长度和各种各样的任务。 Oryx 的特点是以下主要贡献：1) 开发了预先训练好的视觉编码器 OryxViT，以生成原生分辨率的 LLM 友好视觉表示。 OryxViT 配备自适应位置嵌入和可变长度自注意力，可以高效地并行处理不同大小的视觉数据；2) 动态压缩技术，可以任意调整下采样率，同时通过共享投影仪融合信息，从而支持在 1x 到 16x 压缩之间无缝切换。这种新的设计使 Oryx 能够轻松处理长达 16x 压缩的超长输入，同时为不需要压缩的输入保持高识别精度；3) 增强的數據整理和训练策略，帮助 Oryx 在多模态图像、视频和 3D 数据理解方面取得开创性的性能，并轻松地同时适应任意输入分辨率和任务。

图 1：我们按需多模态理解的主要思想。不同的视觉数据和任务可能需要不同的输入分辨率和视觉标记的压缩率。以按需方式支持视觉输入的任意分辨率成为 MLLMs 中视觉理解的一种更通用、更有效的解决方案。

我们在广泛的多模态基准上评估了 Oryx 模型，证明了其在跨图像、视频和多视图 3D 数据的空间和时间理解方面的出色性能。值得注意的是，Oryx 模型在通用和长篇视频理解方面表现出色，在 7B 模型尺寸下取得了具有竞争力的结果，并超越了我们 34B 变体中高达 72B 的模型。这在几个基准测试中为开源模型带来了新的最先进的结果，包括针对通用视频理解的 NextQA (Xiao 等人，2021) 、感知测试 (Patraucean 等人，2024) 、MMBench-Video (Fang 等人，2024) 和 MVBench (Li 等人，2024c) ，以及针对长篇视频基准测试的 MLVU (Zhou 等人，2024) 、LongVideoBench (Wu 等人，2024) 。此外，Oryx 模型在 2D 和 3D 空间理解方面表现出强大的性能，分别优于主流的基于图像的 MLLM 和 3D 专用 LLM，这得益于其统一的训练策略。

2 相关工作

多模态 LLM 中的视觉编码。多模态 LLM 依赖于视觉编码器来提取视觉特征，并使用连接器将视觉特征与 LLM 对齐。 Alayrac 等人 (2022) 和 Li 等人 (2023) 利用注意力来捕获视觉特征，并通过可学习的查询将视觉编码器与 LLM 对齐，这在训练不足时可能会遇到困难。 LLaVA (Liu 等人，2024d; b; f) 利用简单的 MLP 将视觉编码器与 LLM 连接起来，而 Ranzinger 等人 (2024) 结合了来自不同编码器的视觉特征以增强性能。但是，它们仅限于固定分辨率，这可能会阻碍它们捕获详细信息的能力，并限制它们理解不同纵横比图像的灵活性。高分辨率感知的最新进展 (Liu 等人，2024c; Xu 等人，2024b; Yao 等人，2024) 主要由动态分区驱动，它将图像划分为多个等分辨率的补丁。虽然这种方法可以处理高分辨率图像，但它效率低下，并且分区过程可能会导致原始图像中关键信息的丢失。在本文中，我们介绍了 OryxViT，这是视觉编码领域的一项创新，它实现了本机分辨率感知，允许以任何分辨率处理图像，同时保留其原始大小。

支持多种上下文和任务的多模态 LLM。 MLLM 的最新进展使它们能够理解来自不同任务和各种上下文的一系列复杂视觉输入。随着开源模型努力与专有模型相媲美 (OpenAI, 2024) ，它们也试图变得更加通用。 Lin 等人 (2023a); Cheng 等人 (2024); Qian 等人 (2024) 尝试将图像和视频感知相结合，而 Zhang 等人 (2024a) 专注于具有扩展上下文长度的长篇视频分析。 3D-LLM (Hong 等人，2023) 首次尝试使 MLLM 能够理解 3D 环境。 Li 等人 (2024b)；Jiang 等人 (2024) 研究了交错数据训练以处理多图像场景，并且 Li 等人 (2024a) 通过改进的数据整理和训练策略统一了单图像、多图像和视频设置。虽然之前的方法严重依赖于增强的數據整理来实现多任务理解，但我们提出了一种新颖的框架，用连贯的表示来表示复杂的视觉输入。我们的模型能够无缝处理任意大小的视觉上下文、不同长度的视频和 3D 数据，支持各种上下文长度和多功能任务。

3 方法

在本节中，我们详细介绍了 Oryx 的贡献。我们的设计分为两个主要部分：架构和训练管道，分别在第 3.1 节和 3.2 节中阐述。我们描述了我们创新的架构，以在 MLLM 中处理原生和按需视觉输入，如图 2 所示，这使得能够开发一个能够跨图像、视频和 3D 数据进行泛化的模型。此外，我们概述了 Oryx 模型简单但有效的训练管道。

3.1 Oryx 架构：具有原生和灵活视觉输入的 MLLM

3.1.1 具有原生分辨率的视觉表示

调整大小和规范化视觉输入（包括图像和视频）是一个必要且有效的预处理步骤。常规做法通常包括将视觉输入调整大小并裁剪为具有方形形状的固定分辨率。但是，此类过程可能会对视觉主干的性能产生负面影响，因为先前关于视觉识别的研究已经证明了以原始形式保持视觉内容的有效性。 NaViT (Dehghani 等人，2024) 利用了 vanilla ViT (Dosovitskiy，2020) 的特点，引入了一种打包序列操作，可以适应任何纵横比和分辨率的图像，以便进行高效训练。同样，FlexiViT (Beyer 等人，2023) 和 ViTAR (Fan 等人，2024) 在训练过程中整合了随机调整大小的图像，以开发一个能够处理不同分辨率输入的 Vision Transformer。

图 2: Oryx 架构概述。 Oryx 提供两种选项，以按需方式处理具有任意空间大小和时间长度的视觉输入。 1) 预训练的 OryxViT，配备可变长度自注意力机制，用于以原生纵横比和分辨率编码视觉特征。 2) 动态压缩器，在保持统一符元形式的同时，按需对视觉符元进行压缩。

尽管取得了这些进展，但原生或任意分辨率在 MLLM 领域中的有效性几乎没有得到探索。大多数现有的 MLLM 集成了原始图像文本视觉编码器，如 CLIP (Radford 等人，2021) 和 SigLIP (Zhai 等人，2023) ，来编码输入的视觉数据。我们认为，MLLM 为以其原生分辨率处理视觉表示提供了一个最佳环境，主要有两个原因：（1）与视觉输入相关的来源和任务多种多样，需要不同的需求和格式；（2）MLLM 中的符元长度本质上是动态的，尤其是在语言组件中。因此，视觉上下文的动态表示与后续处理阶段无缝衔接。

在 Vision Transformer (ViT) 模型中（为了简化，我们省略了类别符元），给定视觉输入 { x } ∈ H × W ，其中通常 H ≠ W ，ViT 首先将视觉输入调整大小为 { x } ∈ N × N 。然后将调整大小的图像通过补丁嵌入层，该层将图像划分为大小为 p × p 的补丁，从而得到一系列补丁 { x } ∈ ( N / p ) × ( N / p ) 。传统 Vision Transformer 使用固定大小的位置嵌入矩阵 P ，对应于预定义的图像大小 N × N 。但是，当以原生分辨率 { x } ∈ ⌊ H / p ⌋ × ⌊ W / p ⌋ 处理视觉输入时，直接将 P 调整为 ⌊ H / p ⌋ × ⌊ W / p ⌋ 会导致精度显著下降，如之前的工作 (Dehghani 等人，2024；Beyer 等人，2023) 所示。

为了解决原生分辨率处理问题，我们引入了一种名为 OryxViT 的视觉编码器，它建立在先进的 SigLIP (Zhai 等人，2023) 模型的基础上，并基于 Vision Transformer (Dosovitskiy，2020) 架构。我们通过整合足够大的位置嵌入矩阵 P 来修改视觉编码器，该矩阵可以容纳最大目标输入尺寸（在我们模型中为 2048 × 2028，也可以针对更大的输入进行进一步插值）。对于每个视觉输入，我们将原始位置嵌入重新缩放为 P ∈ ⌊ H / p ⌋ × ⌊ W / p ⌋ ，使用双线性插值，并应用变换 x = x + P 。新定义的 P 在原生输入解析下的适应策略遵循了常见 MLLM 的训练格式。我们采用了一个相对轻量级的 LLM 作为语言接口，在冻结大部分其他参数的同时保持视觉编码器的参数不被冻结。我们从多个视觉语言任务中收集训练数据对，包括字幕、OCR、视觉问答等。

一个重大的挑战是在批处理过程中管理视觉 Transformer 的动态序列长度 N = ⌊ H / p ⌋ × ⌊ W / p ⌋ 。对于大小为 b 的批次中长度为 N 1 , N 2 , … , N b 的视觉补丁，我们将补丁跨序列维度连接成形状为 [ 1 , ∑ i = 1 b N i , C ] 的形状，然后将它们馈送到 Transformer 块中。我们利用 flash attention 中提供的可变长度注意力运算符 (Dao 等人，2022) 来独立地计算批次中每个视觉输入的注意力。凭借这些设计，我们的 OryxViT 可以有效地以批处理模式处理不同纵横比的视觉信号，并保持与传统固定分辨率视觉编码器相当的正向速度。

3.1.2 支持长视觉上下文的需求动态压缩

由于视觉输入在时间长度和分辨率上有所不同，例如一些视频数据持续数十分钟，像大多数先前工作中那样 (Zhang 等人，2024a；Xue 等人，2024) 一样平等地对待所有输入，会导致计算成本低效。为了解决这个问题，我们提出了一个动态压缩器，它能够对更长的上下文执行更高的压缩率。我们的设计将具有不同压缩率的视觉上下文统一成一个一致的模式，使我们能够按需控制整体视觉序列长度。

使用视觉表示特征图 f ，压缩充当视觉和语言模态之间的桥梁。我们实现了具有不同比率的下采样层来适应不同的输入长度。具体来说，我们将视觉上下文分为纯图像、短视频和长视频，分别应用下采样层 d 1 , d 2 , d 3 。在我们的实现中，我们设置 d 3 = 4 ⁢ d 2 = 16 ⁢ d 1 ，因此长视频的标记长度减少到与相同分辨率的图像相比的 1 16 。

我们从高分辨率特征图 f H 中获得低分辨率特征图 f L = d i ⁢ ( f H ) , i = 1 , 2 , 3 。为了减轻下采样带来的影响，我们使用注意力机制来促进 f L 和 f H 之间的交互。具体来说，对于下采样率为 r ，我们将 f L ∈ ℝ N × C 视为查询张量 𝐐 ，并将 f H ∈ ℝ N × r 2 × C 视为键张量 𝐊 和值张量 𝐕 。低分辨率 f L 中的每个补丁通过交叉注意力机制与高分辨率 f H 中 r 2 个相邻补丁进行交互，公式如下：

其中，我们将查询和键投影层分别表示为 ϕ q 和 ϕ k ，用于将查询和键张量投影到更低维度。为了保持来自视觉编码器的原始特征并限制线性投影层的数量，我们省略了注意力模块中常用的值和输出投影层。然后，我们利用一个 2 层 MLP 将压缩的低分辨率特征投影到语言模型的嵌入空间中。完成动态压缩模块后，最终的视觉表示特征将被扁平化并整合到文本标记中的视觉标记序列中。然后，将这个组合序列馈送到语言模型中进行标记预测。

3.1.3 一个模型适用于所有：图像、视频和 3D 理解

以前的工作 (Li 等人，2024a；Chen 等人，2024b；QwenTeam，2024b) 已经证明了支持图像和视频模式的 MLLM 的共存。在此基础上，我们的研究旨在扩展这些模型的能力，以处理更多样化的上下文、不同长度的内容和更广泛的任务。为此，我们精心策划了一个专门针对超长视频而设计的训练数据集。此外，我们通过多帧视觉输入之间的粗略对应标记进一步整合了空间相关知识，使 Oryx 能够感知 3D。

使用“大海捞针”进行长时训练。处理长时视频输入的关键能力是在广泛的上下文中识别特定信息，这类似于 NLP 领域的“大海捞针”任务。为了增强 Oryx 模型准确定位细节的能力，我们准备了长时“大海捞针”训练数据。具体而言，我们从 MovieNet (Huang 等人，2020) 数据集中获取视频样本，该数据集包含平均每部电影 1000 帧，平均时长 45 分钟，从而为检索指定目标提供了一个自然的环境。我们设计了两个任务来训练模型：字幕和差异。字幕任务要求模型为特定索引处的帧生成字幕，而差异任务则涉及识别给定索引的两个帧之间的差异。训练语料库是使用 GPT-4o 生成的，它可以为单个帧或帧对生成字幕。然后将这些带字幕的帧重新插入到整个电影序列中，确保训练数据保持上下文完整性。

通过粗略对应学习空间感知知识。最近的进展集中在增强多模态 LLM 的 3D 理解能力。这些方法主要将 3D 任务视为多图像输入。但是，与视频输入不同，从 3D 环境生成的多视角图像缺乏时间或轨迹线索，而这些线索对于 MLLM 准确处理顺序数据至关重要。因此，以前的方法在针对 3D 基准评估时，往往难以实现正确的空间理解。

在 (Liu 等人，2024a) 的工作基础上，我们将粗略对应引入我们的训练数据集。核心概念是在不同帧中为同一个物体分配一致的标签，使模型能够更好地捕获跨多个视角的空间相关性。这种方法旨在增强模型开发对场景更准确的 3D 空间理解的能力。具体而言，我们使用 Track-Anything (Yang 等人，2023b) 作为我们的跟踪模型，为 ScanQA 训练集生成粗略对应。然后将这些数据纳入最终的训练集中。

3.2 训练流程和数据混合

Oryx 的训练流程采用两阶段策略，轻量级且直接。我们从一个经过良好训练的视觉塔 OryxViT 和一个大型语言模型开始。第一阶段只涉及图像数据，遵循常见的做法 (Liu 等人，2024d; b) 。第二阶段使用来自图像、视频和相应 3D 帧的数据混合，并且由于我们统一的设计，我们对多源数据进行联合训练。我们所有的训练数据都来自开源数据集，因此确保了 Oryx 模型的可重复性，并为改进提供了空间，可以更好地策划数据。

阶段 1：文本-图像预训练和监督微调。在我们训练过程的第一阶段，我们专注于使用图像数据开发 Oryx 模型的基础视觉语言能力。此阶段从预训练阶段开始，使用 LLaVA-1.5 中的 558k 图像数据集来训练动态压缩器组件 (Liu 等人，2024b) 。之后，我们收集了 400 万个监督微调图像-文本对，这些对侧重于高质量的知识学习。这些数据来自各种开源学术数据集，包括 LLaVA-NeXt (Liu 等人，2024c) 、Cauldron (Laurençon 等人，2024) 和 Cambrian-1 (Tong 等人，2024) 。重要的是要注意，我们没有像 (Li 等人，2024a) 中描述的那样纳入大规模预训练阶段，也没有使用 (Lin 等人，2023b; Bai 等人，2023) 中的那些专属监督微调数据，因为我们的主要目标是验证我们统一的 Oryx 架构的有效性。

阶段 2：联合监督微调。在阶段 2 中，我们在初始阶段之后进一步进行监督微调程序，旨在使用图像、视频和 3D 感知视觉输入来联合训练 Oryx 模型。图像训练数据是从阶段 1 的监督微调阶段收集的数据集中采样的，通过使用大约 600k 图像-文本对，确保图像和视频数据的平衡比例。对于视频数据，我们从开源视频存储库中获取综合和多项选择数据集。使用 VideoChatGPT-Plus (Maaz 等人，2024) 、ShareGPT4Video (Chen 等人，2024a) 和 LLaVA-Hound (Zhang 等人，2024b) 集成了包括问答和字幕任务在内的综合数据集。为了提升多项选择基准测试的性能，我们进一步将 Cinepile (Rawal 等人，2024) 、NextQA (Xiao 等人，2021) 和 PerceptionTest (Patraucean 等人，2024) 纳入到我们的训练数据集。此外，我们还包含了由 GPT-4o (OpenAI, 2024) 生成的针入干草堆数据的视频样本，用于长视频学习，以及来自 ScanQA (Azuma 等人，2022) 训练数据集的空间感知 3D 多帧样本，最终总共约 65 万个视频样本。本阶段的监督微调策略与第 1 阶段相同，确保训练方法的一致性。

4 实验

我们在多个视觉语言基准测试中进行全面实验，以证明我们方法的有效性。在本节中，我们展示了在一般视频理解基准测试（第 4.2 节）、长视频基准测试（第 4.3 节）、2D 和 3D 空间理解基准测试（第 4.4 节）上的主要结果，并将我们的方法与其他最先进的视频 MLLM 进行比较。最后，我们提供了分析实验和关于设计元素的关键消融研究。

4.1 实施细节

我们的实现将 Oryx 模型与两组 LLM 集成：Qwen-2-7B (QwenTeam, 2024a) 和 Yi-1.5-34B (Young 等人，2024) ，以证明跨不同模型尺寸的通用性。对于视觉编码器，我们使用预先训练好的 OryxViT 来支持任意分辨率的视觉输入。在预训练阶段，我们利用来自 LLaVA-1.5 (Liu 等人，2024b) 的 558k 个字幕数据，解冻动态压缩模块的参数。图像 SFT 阶段涉及整理大约 400 万张图像的开源数据集。在联合训练阶段，我们整合了大约 120 万个数据，这些数据包括从上一阶段采样的图像和在第 3.2 节中实施的视频/3D 数据。对于视频数据，我们将帧数限制为 64 帧，用于低压缩比的标准视频，以及 256 帧，用于高压缩比的长视频。我们使用 2 × 2 平均降采样用于低压缩，以及 4 × 4 平均降采样用于高压缩。图像数据保持其原始分辨率，最大尺寸为 1536 像素，而视频数据分辨率限制在 288 到 480 像素的范围内。培训的其余细节在附录中提供。

4.2 一般时间理解

表 1: 一般时间理解。我们对四个多项选择基准和三个生成基准进行了全面实验，并报告了每个数据集的主要得分。 Oryx 在各种开源视频 MLLM 中表现出优异的性能。

结果。实验结果如表 1 所示，表明 Oryx 模型在一般视频理解任务中取得了极具竞争力的成果。我们超越了广泛的近端视频专用 MLLM，并建立了新的最先进水平。 Oryx 模型在小型 MLLM（约 70 亿个参数）中取得了第一梯队的性能，并且与更大的 MLLM（超过 300 亿个参数）相比表现出竞争力，甚至与具有 720 亿个参数的模型相媲美。在带有字幕的 VideoMME 基准 (Fu 等人，2024) 上，Oryx 模型的平均准确率分别为 62.6 和 67.4。 Oryx 还展示了在各种多项选择数据集中的稳健性能，在 NextQA (Xiao 等人，2021) 和 Perception Test (Patraucean 等人，2024) 上分别超过了之前的最先进水平 3.3% 和 4.5%。此外，Oryx 模型在 GPT-eval 基准测试中表现出色，在 MMBench-Video (Fang 等人，2024) 上的平均得分分别为 1.49、3.53 和 3.76，分别在 VideoChatGPT (Maaz 等人，2023) 和 Video Detailed Caption 上。值得注意的是，Oryx 模型在几个最具挑战性的基准测试中超越了 GPT-4V (OpenAI，2023b) 和 Gemini-1.5-Pro (GeminiTeam，2024) 等先进的专有模型。

4.3 长篇时序理解

为了进一步证明我们方法的出色长上下文理解能力，我们在专门为长视频评估而设计的基准测试上进行了实验。此外，我们采用视频大海捞针任务来展示我们的模型处理极其冗长视频内容的能力。

表 2：长篇时序理解。我们展示了三个主流长篇时序理解数据集的结果，每个数据集的视频输入时长均为数十分钟。 Oryx 展示了优越的性能，在各种基准测试中取得了最先进的结果，并超越了多个专有模型。

4.3.1 长篇视频基准测试

设置。