专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
红古发布  ·  改善睡眠的方法来了:晚餐吃点它…… ·  昨天  
LRTV辽宁之声  ·  刷短视频“刷”成2300度近视?这些习惯,正 ... ·  2 天前  
镇江发布  ·  提醒家人!这些食物可常吃! ·  2 天前  
南京日报  ·  正大量上市,有人吃进急诊! ·  2 天前  
51好读  ›  专栏  ›  FightingCV

MMIU: 用于评估大型视觉语言模型的多模态多图像理解

FightingCV  · 公众号  ·  · 2024-10-22 09:00

正文

处理多张图像的能力对于大型视觉语言模型 (LVLM) 来说至关重要,因为它可以帮助模型更全面、更细致地理解场景。 近年来,多图像 LVLM 开始着手解决这一需求。 然而,它们的评估尚未跟上其发展步伐。 为了填补这一空白,我们引入了多模态多图像理解 (MMIU) 基准,这是一个全面的评估套件,旨在评估 LVLM 在各种多图像任务中的表现。 MMIU 包含 7 种多图像关系、52 个任务、77,000 张图像和 11,000 个精心策划的多项选择题,使其成为同类中最全面的基准。 我们对 24 个流行的 LVLM(包括开源和专有模型)进行了评估,结果表明,多图像理解存在重大挑战,特别是在涉及空间理解的任务中。 即使是最先进的模型,如 GPT-4o,在 MMIU 上也只取得了 55.7% 的准确率。 通过多方面的分析实验,我们识别出了关键的性能差距和局限性,为未来的模型和数据改进提供了宝贵的见解。 我们希望 MMIU 能推动 LVLM 研究和开发的前沿,让我们朝着实现复杂的多模态多图像用户交互迈进。

项目页面: https://mmiu-bench.github.io

1 引言

处理多张图像的能力对于多模态大型模型来说至关重要,因为单张图像只能从特定角度和时间捕捉信息,限制了模型理解和推理整个场景的能力 (Song 等人,2024;Wang 等人,2024) 另一方面,多张图像从不同的视角和时间点提供了丰富的信息,使模型能够综合这些数据,并获得更全面的理解,例如分析连续图像以预测动作 (Lu et al., 2024b) 或在 3D 导航中利用多视角图像 (Dai et al., 2017) 处理多张图像的能力使大型视觉语言模型 (LVLMs) 能够理解和处理复杂的视觉任务,从而促进现实世界的应用。



图 1: MMIU 的可视化。 我们的 MMIU 包含 77,659 张图像、7 种图像关系和 5 种图像模式,以及 11,698 道多项选择题,为 52 个多图像理解任务提供了全面的评估。 每个示例都来自从每个多图像关系中选择的任务。 我们通过采用自上而下的层次结构来构建 MMIU,其中列举了感兴趣的图像关系,并将多个任务与每种关系相关联。 每种关系的任务数量已降级。

由于多图像理解的重要性,最近的 LVLMs 通过在各种图像文本交织数据上进行预训练,例如 M4-Instruct (Li et al., 2024a) 、Mantis-Instruct (Jiang et al., 2024b) 和 OmniCorpus (Li et al., 2024b) ,提高了这种能力。 然而,多图像 LVLMs 的评估明显落后于其发展。 一个好的多图像评估基准可以帮助识别导致性能下降的任务,并指导未来的模型设计数据收集。 先前的 dataset,例如 LVLM-eHub (Xu et al., 2023) 和 MMBench (Liu et al., 2023) ,侧重于单图像任务 (Xu et al., 2023) ,无法捕捉多图像场景中的复杂性。 尽管最近有几个基准尝试评估 LVLMs 的多图像性能,但它们对多图像任务的覆盖范围有限,同时如表 1 所示,只捕获了多张图像之间的一些关系。 例如,Video-MME (Fu et al., 2024a) 仅关注时间关系,而 MUIRBENCH (Wang et al., 2024) 没有考虑多张图像中对象之间的空间关系,这在 3D 导航等多图像应用中至关重要。 其他作品,例如 SlideQA (Tanaka et al., 2023) 和 MMMU (Yue et al., 2024) ,侧重于理解和推理特定输入类型或学科,阻止它们为多图像能力提供一般评估。

为了构建一个全面的多图像评估基准,我们将多图像理解与认知心理学中操作工作记忆中的信息联系起来 (Baddeley, 2000) 正如多重痕迹理论 (MTT) (Moscovitch 等人,2006) 所指出的,工作记忆被分为情景记忆,它捕捉顺序信息并能按事件发生的顺序排列事件;语义记忆,它使概念理解成为可能;以及空间记忆,它有助于理解空间环境。 多张图像可以被视为一种视觉记忆。 理解这种视觉记忆需要模型处理语义内容,理解空间关系,并跟踪多张图像的时间序列,这与人类记忆机制密切相关。 这激励我们构建评估基准来衡量 LVLMs 在时间、语义和空间角度上处理多图像任务的程度。

本文介绍了多模态多图像理解 (MMIU) 基准,旨在全面评估大型视觉语言模型 (LVLMs) 在多图像任务理解方面的能力。 如表 1 所示,我们通过自上而下的层次结构收集评估数据,首先枚举跨越时间、语义和空间对应关系的图像关系,然后为每个关系分配多个多图像任务。 MMIU 的全面性体现在两个方面。 首先,它拥有迄今为止最广泛的多图像评估数据覆盖范围,涵盖 7 种多图像关系、52 个任务 ( 例如 多视角动作识别)、77k 张图像和 11.6k 个精心策划的多项选择题,这比 MilesBench (Song 等人,2024) 1.81 倍。 其次,MMIU 涉及比以往基准更多样的多图像分析工具,包括图像关系性能比较,通过任务图进行域内和域外任务发现,以及通过监督微调 (SFT) 进行任务学习难度评估。 多方面的分析为模型和数据改进提供了有用的见解。

我们在我们的 MMIU 上测试了 24 个流行的 LVLMs,包括 GPT4o (OpenAI,2024) 和 Gemini1.5 (Reid 等人,2024) 等闭源模型,以及 GLM4V (GLM 等人,2024) 和 InternVL-Chat (Chen 等人,2024b) 等开源模型。 这些 LVLMs 包含多图像模型(支持多图像输入)和单图像模型(仅支持单图像输入)。 对于单图像模型,我们采用图像串联来获得评估性能。 实验结果表明,即使是最先进的模型 GPT4o (OpenAI,2024) 在 MMIU 上也只获得了 55.7% 的准确率,突出了这些任务的内在难度。 除了表 1 中的各种分析工具之外,我们还进行了消融研究,以调查不可回答的问题和多图像串联方法对模型性能的影响。 我们总结了我们的发现如下:

  • 在多图像任务中,表现最佳的模型是 GPT4o,其中 InternVL2 (Chen et al., 2024b) 是开源模型中表现最强的。 最佳的闭源模型 GPT4o 比最佳的开源模型 InternVL2 领先很大优势,( i.e. 5.4% 的准确率)。 然而,GPT4o 在 MMIU 上只取得了 55.7% 的准确率,表明我们的基准测试存在重大挑战。

  • 一些强大的 LVLMs,如 InternVL1.5 (Chen et al., 2024b) 和 GLM4V (GLM et al., 2024) ,其预训练数据不包含多图像内容,甚至超过了许多经过多图像监督微调 (SFT) 的多图像模型,表明单图像理解能力是多图像理解的基础。

  • 通过比较图像关系层面的性能,我们得出结论,LVLM 在理解多图像场景中的语义内容方面表现出色,但在理解多图像上下文中的时间和空间关系方面表现较弱。

  • 基于任务图的分析表明,模型在视频字幕等高级理解任务(领域内任务)上表现更好,但在 3D 检测等 3D 感知任务和图像排序等时间推理任务(领域外任务)上表现挣扎。

  • 通过任务学习难度分析,涉及排序、检索和海量图像的任务无法通过简单的 SFT 过度拟合,表明需要增加预训练数据或训练技术来改进。

总之,本文做出了三个主要贡献。 首先,我们介绍并开源了多模态多图像理解 (MMIU) 基准,这是一个全面的评估套件,涵盖了各种复杂的多图像任务,从而填补了多图像理解的关键空白。 其次,我们的评估结果表明,当前的大型视觉语言模型 (LVLMs),包括 GPT-4o 等专有模型,在解决多图像任务时遇到了重大挑战,尤其是那些涉及空间理解的任务。 第三,我们进行了多方面的分析实验,从各个角度揭示了当前模型的局限性和性能差距。 我们希望 MMIU 能推动 LVLM 研究和开发的边界,使我们更接近实现先进的多模态多图像用户交互。

表 1: MMIU 与现有多图像评估基准的比较,包括 Video-MME (Fu et al., 2024a) 、MIRB、MUIRBENCH (Wang et al., 2024) 和 MileBench (Song et al., 2024) 我们根据图 1 中定义的七个类别总结了以前基准中的图像关系。 ‘Y&N’ 表示我们的 MMIU 包含可回答和不可回答的问题。 I、T、V、D 和 P 分别代表图像、文本、视频、深度图和点云。 与之前的 dataset 相比,MMIU 包含跨越 52 多模态任务和 5 模态的大量测试样本,以及通过图像关系、任务映射和监督微调 (SFT) 进行全面的多图像分析。

2 相关工作

2.1 大型视觉语言模型

随着大型语言模型 (LLM) 的进步 (Touvron 等人,2023;Jiang 等人,2024a) ,一系列研究开始探索能够同时解释视觉和语言信息的多模态 LLM。 通过视觉预训练和指令微调,LVLM 在理解多模态图像-文本输入方面表现出色 (Li 等人,2024a;Lu 等人,2024a;Bai 等人,2023) 然而,大多数 LVLM 训练数据主要由单图像-文本对或纯文本数据组成,这限制了它们理解多图像输入的能力。 因此,研究人员考虑在 LVLM 的预训练阶段使用大规模交错图像-文本语料库,例如 MMC4 (Zhu 等人,2024) 和 Omnicorpus (Li 等人,2024b) 这种方法导致了 Deepseek-VL (Lu 等人,2024a) 和 Idefics (Laurençon 等人,2024b) 等模型的开发,这些模型在多图像任务中表现出显着的性能。 在此基础上,最近的研究应用了大量多图像数据的指令调优,从而产生了能够更有效地处理多图像任务的模型,同时利用更少的资源。 这些进展的显著例子包括 Mantis (Jiang 等人,2024b) 和 LLaVA-Next-interleave (Li 等人,2024a) 尽管如此,对这些模型在处理多张图像方面的能力的评估主要还是定性的,而对不同模型在广泛的多图像任务中的性能进行定量评估的探索仍然不足。

2.2 大型视觉语言模型基准

对多模态大型语言模型 (LVLM) 进行基准测试对于识别模型的局限性并指导其开发至关重要 (Xu 等人,2023;Ying 等人,2024;Liu 等人,2023) 尽管存在许多旨在评估 LVLM 的感知或推理能力的基准,但大多数这些基准仅关注单图像场景。 虽然一些基准包含多图像示例 (Jiang 等人,2024b;Fu 等人,2024a) ,但它们通常解决的是有限的能力。 例如,MANTIS-Eval (Jiang et al., 2024b) 侧重于评估模型感知大小的能力,而 Video-MME (Fu et al., 2024a) 则强调图像序列及其时间关系。 最近,研究人员致力于开发更全面的多图像评估基准,例如 MileBench (Song et al., 2024) 和 MUIRBench (Wang et al., 2024) ,以更全面地评估多图像认知。 然而,这些基准在任务深度和广度方面存在不足。 例如,MILEBENCH (Wang et al., 2024) 提供了相对全面的多图像评估,但缺乏重要的多图像任务,例如 3D 空间理解和低级语义,而这些对于得出完整结论至关重要。 相比之下,MMIU 提供了一个集成了任务深度和广度的基准,涵盖了更广泛的图像关系、任务类型和图像类别。 这使得能够更全面地评估模型的能力。

3 MMIU

本节介绍提出的 MMIU 基准。 MMIU 是一个综合评估数据集,包含 11K 个用于多图像理解的多项选择题。 我们首先在第 3.1 节中简要概述 MMIU。 然后,我们在第 3.2 节中描述 MMIU 的构建过程。

表 2: MMIU 的关键统计数据


3.1 基准概述

MMIU 旨在衡量 LVLMs 的多图像理解能力。 与之前的多图像评估基准相比,它具有两个优势,如表 1 所示。 首先,MMIU 通过涵盖跨越各种多图像任务和图像关系的大量测试样本,提供全面的评估。 具体来说,MMIU 由 77,659 张图像和 11,698 个多项选择题组成( 1.81 是之前多图像测试样本最多的 MileBench (Song 等人, 2024) 的倍数)每个实例平均有 6.64 个图像。 它测试了 7 种独特的多图像关系,涵盖 52 个不同的多图像任务,比之前包含最多多图像任务的 VideoMME (Fu 等人,2024a) 1.73 倍。 此外,我们还创建了一个不可回答的集合,包含 19 个任务,每个任务包含 40 个问题,考虑到 LLVM 在现实场景中无法回答所有问题。 MMIU 的更详细统计信息可以在表 2 中找到。 多样的评估数据要求模型能够足够深入地理解具有各种输入类型(图 2 )的多图像中的语义、时间和空间线索。

其次,MMIU 通过使用多方面分析工具,提供了对多图像理解的深入分析。 1) 由于数据收集过程中的自上而下的层次结构,MMIU 可以比较跨图像关系的性能。 2) 对多图像任务的广泛覆盖使评估能够在任务图上进行,促进发现域内和域外任务。 3) 评估样本可以适应多图像指令调优数据。 通过 SFT,可以获得任务学习难度,这对于从业人员改进模型和数据至关重要。

图 2: 我们数据收集过程的说明。 首先,我们根据认知心理学细化多图像任务并收集任务数据。 然后,我们将这些数据集标准化为统一格式 - 元数据。 接下来,我们使用手动设计的规则或 GPT4o 从元数据中生成包含可回答和不可回答问题的多项选择样本。 我们的基准包括跨各种图像类型的能力评估。

3.2 数据整理流程

多图像理解对于 LVLMs 至关重要,因为多图像在现实世界应用中是常见的媒体。 我们将一系列图像视为视觉记忆,其语义、时间和空间片段对于检索信息至关重要 (Moscovitch 等人,2006) 遵循这一灵感,MMIU 是通过自上而下的层次结构收集评估数据而构建的,从枚举跨越时间、语义和空间对应关系的图像关系开始,随后为每种关系分配多个多图像任务。

如图 2 所示,我们首先将多图像关系分类为语义、空间和时间关系,这些关系进一步细化为七种基本类型。 接下来,我们收集每种关系类型的数据,并将其组织成标准化格式。 最后,我们构建多项选择题。

关系 任务。 首先,我们将多图像之间的关系划分为语义、空间和时间方面。 对于语义关系,我们进一步将其细化为 1) 低级语义关系 ,涉及比较低级视觉信息特征,如照明、质量和饱和度。 2) 高级(客观)关系 在物体、属性和物体之间相互作用之间 ( e.g. ,一个人击球,一个人接球)。 3) 高级(主观)关系 ,例如主题关联、文化联系和情感关联 ( e.g. ,这些图像中表达的情感)。 对于时间关系,我们将其细化为 4) 连续时间关系 ,例如视频帧序列的感知和推理任务。 5) 离散事件序列关系 例如理解多步骤教程。 对于空间关系,我们将其分类为 6) 2D 空间关系 ,例如旋转、平移和对称。 7) 3D 空间关系 ,例如不同的相机视角和深度变化。 每种图像关系的详细信息在附录的第 A 节中给出。 每种图像关系都被分配了几个多图像任务,其对应关系在附录的表 A.2 中给出。

任务 数据。 我们利用谷歌、Paper With Code 和 Kaggle 等资源,在提议的任务的指导下,对相关数据集进行了广泛的搜索。 下载数据集后,我们会对其是否适合特定任务进行彻底的评估,确保它们既可用又相关。 我们建立了一个标准化格式,称为元数据,用于组织下载的数据集。 此格式有助于创建视觉问答。 每个元数据包括任务的描述,以及每个样本的问题、答案、输入上下文和图像。 此格式的详细描述在附录中的表 A.4 中。 我们手动确保此信息的准确性及其转换为多项选择题格式的可转换性。 为了进行有效的评估,每个任务最多限制为 200 个样本,这些样本是通过随机选择得到的,除了某些数据不足的任务。

问题和答案生成。 对于每个子任务,我们创建多项选择视觉问题(最多八个选项,具体取决于任务),选项和答案来自它们的元数据。 具体来说,根据任务的不同,我们要么手动设计规则,要么使用 GPT4o (OpenAI, 2024) 并使用精心设计的提示来确保高效且高质量的生成。 例如,在 3D 问答任务中,我们指示 GPT4o 根据问题和正确答案生成看似合理但错误的选项。 对于图像检索任务,我们从元数据中随机选择不正确的图像作为错误选项。 此外,我们选择 19 个任务并为每个任务创建 40 个无法回答的样本,以构建一个无法回答的集合,用于稳健的评估。 关于无法回答的问题生成的更多详细信息在第 A.4 节中提供。

挑战。 在构建 MMIU 时,我们遇到了几个挑战。 1) 设计合理且准确的问题模板。 设计的问题应该提供 LLVLMs 可能要求的所有必要信息,确保它们能够推导出正确的答案。 例如,在 3D 物体检测中,每个问题都应该包含给定图像的详细相机姿态信息,并指定检测到的物体所在的坐标系。 2) 通过仔细验证获得正确的答案。 这对于涉及 3D 空间关系的任务来说尤其具有挑战性。 例如,在 3D 姿态估计中,图像之间的相对相机姿态在以前的数据集中 (Dai 等人,2017) 中没有固有地提供,这需要专业知识才能进行准确的转换。 此外,检查获得的相对相机姿态的正确性也具有挑战性,因为与关于语义/时间关系的问题答案相比,它们更复杂和抽象。 为了解决这个问题,我们将每个单独扫描的原始相机姿态通过矩阵乘法转换为 MMIU 中所需的相对相机姿态。 之后,我们通过将相对相机姿态应用于图像对,仔细检查获得的答案的正确性,确保图像之间的对应关系正确匹配。 这些挑战突出了将 MMIU 建立为综合的多图像评估基准所涉及的巨大工作量和难度。



4 实验

本节首先介绍了第 4.1 节中的实验设置,包括使用的测试方法和模型。 接下来,我们分别在第 4.2 节和第 4.3 节中介绍了主要结果和多方面分析。 消融研究包含在第 4.4 节中。 我们在附录的第 B 节中提供了更详细的信息和错误案例分析。

4.1 实验设置

LVLM 模型。 具体来说,我们选择了四个闭源模型:GPT4o (OpenAI, 2024) 、Claude3.5-Sonnet (Anthropic, 2023) 、Gemini1.5 Flash Pro (Reid et al., 2024) 和 Gemini1.0 Pro Vision (Team et al., 2023) 此外,我们评估了 11 个支持多个图像输入的开源模型:Mantis (Jiang et al., 2024b) 、InternVL2 (Chen et al., 2024b) 、LLaVa-Next-Interleave (Li et al., 2024a) 、InternVL1.5-Chat (Chen et al., 2024a) 、Qwen-Chat (Bai et al., 2023) 、Qwen-Base (Bai et al., 2023) 、Idefics-9B-Instruct (Laurençon et al., 2024a) 、FlamingoV2 (Awadalla et al., 2023) 、DeepSeek-VL-1.3B (Lu et al., 2024a) 、XComposer2-1.8B (Dong et al., 2024) 、DeepSeek-VL-7B (Lu et al., 2024a) 、Idefics2-8B (Laurençon et al., 2024b) 和 XComposer2 (Dong et al., 2024) 此外,我们还包含了七个仅支持单个图像输入的模型,包括 LLaVA-V1.5-7B (Liu et al., 2024a) 、Monkey-Chat (Li et al., 2024c) 、ShareCaptioner (Chen et al., 2023) 、ShareGPT4V-7B (Chen et al., 2023) 、GLM-4V-9B (GLM et al., 2024) 、LLaVA-Next-Vicuna-7B (Liu et al., 2024b) 和 MiniCPM-Llama3-V-2.5 (Hu et al., 2024) 这些模型的详细描述可在附录中的表 6 中找到。

评估方法。 使用 OpenCompass (Contributors, 2023) ,我们首先将模型的响应与相应的选项进行匹配。 如果无法进行匹配,我们将它标记为 Z (Yue et al., 2023) 准确率用作指标。 具体而言:1)对于输入符元长度超过测试模型的限制的情况,我们随机采样图像,直到可以进行测试。 2)对于倾向于使用相同选项进行响应的单图像模型,我们对原始选项进行洗牌并重新测试。 只有当两次测试都产生正确答案时,结果才被视为正确。 3)对于封闭源模型,如果模型由于图像的版权问题而拒绝响应,我们将丢弃这些样本。 详细设置可以在附录的 Sec B.2 中找到。

4.2 主要结果

如表 3 所示,我们报告了所有模型在所有任务上的平均准确率,以及随机选择和频繁选择基线,其中“总体”代表所有任务上的平均准确率。 具体而言,我们有以下发现。

多图像任务存在重大挑战。 GPT-4o 领先所有模型,但平均准确率仅为 55.7%。 其他专有模型,如 Gemini1.5 和 Claude3.5-Sonnet,得分也为 53.4%。 在开源模型中,InternVL2 表现最佳,其准确率为 50.3%,超过了专有模型 Gemini1.0 Pro Vision。 在多图像理解中,封闭源模型和开源模型之间存在显著的性能差距(准确率差 5.4%)。 相比之下,InternVL2 等开源模型在专注于单图像理解的基准测试中,其性能与 GPT-4o 等闭源模型相当,甚至更优 (Yue 等人,2023;Liu 等人,2023;Ying 等人,2024)

单图像理解的强大能力是多图像理解的基础。 许多高级模型,例如仅使用单图像数据训练的 InternVL1.5,在 MMIU 中可以取得良好的性能。 例如,GLM4V 的准确率达到 37.4%,超过了多图像模型 LLaVa-interleave 和 Idefics2。 这种成功源于其在单图像多模态理解方面的强大能力。 此外,GLM-4V 的性能也优于许多多图像模型,例如 DeepSeekVL。 这是因为 GLM-4V 支持 1120*1120 的超高分辨率,使其能够理解拼接图像并进行推理。 例如,在视频字幕任务中,其准确率达到 76%。

适当的多图像监督微调 (SFT) 可以提高模型在多图像任务上的性能。 值得注意的是,我们观察到许多在预训练阶段使用大量多图像数据进行训练的模型并没有取得令人满意的结果,例如 idefics2 和 Deepseek-VL。 然而,Mantis 和 LLaVA-interleave 在所有模型中脱颖而出。 它们的共同特点是在 SFT 阶段进行广泛的多图像指令微调。 例如,虽然 idefics2 在预训练阶段使用大量多图像数据进行训练,但在 SFT 阶段却使用很少的多图像数据进行训练。 Mantis 在 idefics2 的基础上进行多图像 SFT 后,准确率提高了 17.8%。

图 3: (a): 24 个 LVLMs 在三个主要图像关系上的平均性能比较。 (b): 代表性模型(如 GPT4o)在七个特定图像关系上的平均性能比较。

4.3 多任务分析

4.3.1 跨图像关系的性能

如图 3 所示,模型在不同的图像关系中表现出不同的能力。 更多详细的可视化内容可在附录中的图 8 中找到。 一般来说,LVLMs 在理解多图像场景中的语义内容方面表现出色,在时间任务方面表现中等,而在理解多图像环境中的空间关系方面表现最差。

1) 在语义关系中, 模型通常在涉及低级关系的多图像语义任务中表现良好。 但是,它们在高级任务中遇到困难,例如因果推理和情绪识别等主观任务,这些任务需要识别和推理隐含的视觉信息,这突出了模型性能与人类视觉认知之间的差距。 至于客观任务,例如检索任务,大多数模型都无法解决。 2) 在时间关系中, 模型可以相对较好地处理离散和连续的时间关系,但在推理密集型多图像任务中表现平平。 例如,在排序任务中,GPT4o 在时间排序和视觉排序任务中的准确率分别仅为 28% 和 21.5%。 3) 在空间关系中, 我们发现模型难以理解 2D 和 3D 位置关系。 这与之前单图像评估基准 Ying et al. (2024) 中的观察结果一致,其中他们发现 LVLMs 在需要空间推理的定位和检测任务中表现不佳。 涉及 MMIU 中空间关系的任务变得更加具有挑战性,因为模型需要收集多个图像中的空间信息并进行推理。

4.3.2 任务图分析

任务图是进行多任务分析的有效工具 Ying等人 (2024); Ilharco等人 (2023) 由于MMIU中涵盖了大量多图像任务,我们构建了一个任务图来分析不同任务之间的关系,从而使我们能够识别当前LVLMs的域内和域外任务。 借鉴MMT-Bench Ying等人 (2024) ,我们使用QwenVL-chat构建了一个任务图,其中两个任务之间的距离是给定的。 任务图的详细构建过程可以在附录中找到,具体见第 C 节。 在图 4 (a) 中,我们可视化了任务图。 通过任务图进行聚类后,我们在图 4 (b) 中可视化了模型在不同聚类上的性能,其中任务聚类由不同的颜色表示。

涉及识别或字幕的任务是域内任务 ,大多数当前的多模态大型模型都能处理。 对于多图像任务,模型通常难以取得令人满意的结果,在有限数量的任务上才能取得良好的性能。 具体来说,对于聚类7、8中的任务,以及聚类2中的一些任务,这些任务涉及识别或字幕(例如,视频字幕、动作识别),模型的性能相对较好。 这是因为这些多图像任务侧重于整体图像感知,需要更少的图像之间比较和推理。

图 4: (a):任务图的可视化以及与任务图一起进行的层次聚类。 请放大以获得更清晰的可视化。 (b):模型在各种任务上的性能可视化。 不同的颜色代表通过聚类形成的各自类别,从左到右按顺序排列,从第一类到第八类。 请注意,尽管InternVL1.5-chat支持多个图像输入,但其训练阶段并没有包含多图像数据。

涉及时间排序和 3D 空间推理的任务是域外任务 ,其中大多数模型表现不佳。 具体来说,模型难以处理集群 4、5 和 6 中的任务。 集群 4 和 6 涉及对多个图像之间的语义关系或顺序进行建模,需要记忆详细的长期上下文内容和强大的推理能力。 大多数 LVLMs 在这些任务(如时间排序任务)上表现不佳。 集群 5 中的任务与 3D 视觉任务相关,例如 3D 检测和跟踪。 这可能是由于在训练 LVLMs 时缺乏 3D 视觉语言数据。

4.3.3 任务学习难度

图 5: A c c M o d e l A c c S F T 在不同任务上的性能,按 A c c M o d e l 降序排列, A c c S F T 按比例缩放到与 A c c M o d e l 相同的幅度,以便于比较。






请到「今天看啥」查看全文