专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
量子位  ·  DeepSeek上线国家超算平台!671B满 ... ·  昨天  
机器之心  ·  DeepSeek冲击下,奥特曼刚刚给出对AG ... ·  昨天  
新智元  ·  Ilya又回来了!神秘初创SSI估值200亿 ... ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench

我爱计算机视觉  · 公众号  · AI 科技自媒体  · 2024-10-12 11:25

主要观点总结

关注公众号,发现CV技术之美。本篇分享EMNLP 2024论文MIBench,介绍阿里通义实验室提出的MLLM多图能力评估基准MIBench。该论文链接为https://arxiv.org/abs/2407.15272,数据链接为https://huggingface.co/datasets/StarBottle/MIBench。

关键观点总结

关键观点1: 背景与动机

介绍多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上的卓越性能,以及涌现的基准数据集工作如MME、MMBench、SEED-Bench等。强调现有工作的局限性,如仅关注单张图像输入时的性能,以及评估基准的局限性。提出阿里通义实验室mPLUG团队的新基准测试集MIBench,旨在全面、细致地评估现有MLLMs在多图场景的能力。

关键观点2: MIBench特点

MIBench包含13K条高质量测试样本,涵盖多图指令、多模态外部知识及多模态上下文学习等3个典型多图场景的13个细分子任务。设计包括图片来源、选项生成、知识采样、质量控制等方面。

关键观点3: 数据集构建

介绍数据集的构建过程,包括图片来源、选项生成、知识采样、质量控制等。采用多项选择的形式进行模型评估,干扰项的生成采用两种方案。

关键观点4: 评估策略与模型分析

介绍评估策略,包括多项选择题形式、循环设置正确选项以消除LLM对选项位置偏好的影响等。分析模型评估结果,包括开源与闭源模型性能差距、细粒度感知缺陷、多图训练的重要性以及多模态外部知识场景的挑战性。

关键观点5: 联系信息

提供联系方式([email protected])以获取最新AI进展报道。


正文




关注公众号,发现CV技术之美




本篇分享 EMNLP 2024 论文 MIBench: Evaluating Multimodal Large Language Models over Multiple Images ,阿里通义实验室提出MLLM多图能力评估基准MIBench。

  • 论文链接:https://arxiv.org/abs/2407.15272
  • 数据链接:https://huggingface.co/datasets/StarBottle/MIBench

动机

近年来,多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上展现出卓越的性能,也涌现出一批基准数据集工作,如MME、MMBench、SEED-Bench等,用于评估MLLMs在不同细分场景的能力。

然而,大多数MLLMs工作仅关注模型在单张图像输入时的性能,相应的评估基准也局限在单图场景。少数面向多图的评估数据集,如Sparkles-Eval、Mantis-Eval等,所包含的评估维度和样本数量十分有限。

基于此,阿里通义实验室mPLUG团队提出一个新的大规模基准测试集MIBench,包含13K条高质量测试样本,以全面、细致地评估现有MLLMs在多图场景的能力。

MIBench与现有MLLM评估基准对比

数据集设计

MIBench多图场景及子任务概览

如图所示,MIBench涵盖多图指令、多模态外部知识及多模态上下文学习等3个典型多图场景的13个细分子任务:

  • 多图指令 :包含对输入的多张图像进行比较、指代、推理等指令。按照指令具体的语义类型,划分为 通用比较、细致差异、视觉指代、时序推理 逻辑推理 等5个子任务。
  • 多模态外部知识 :模拟多模态检索增强 (RAG) 场景,考察MLLMs从图文形式的外部知识中,获取与当前问题有关的信息的能力。按照外部知识的形式,划分为 细粒度识别、富文本图片、视觉连接的文本知识 文本连接的视觉知识 等4个子任务。
  • 多模态上下文学习 :考察MLLMs基于若干演示 (demo) 回答视觉问题的能力。以往对多模态上下文学习 (ICL) 能力的评估,笼统地以模型在Caption/VQA等数据集上的性能随demo数量增加的变化来衡量。为了细致地评估多模态ICL对不同方面能力的影响,作者划分了 封闭式VQA、开放式VQA、物体幻觉 任务学习 等4个子任务。

数据集构建

数据集的构建包括图片来源、选项生成、知识采样、质量控制等方面。

  • 图片来源 :为了获得高质量的评估样本,收集相关数据集作为图片来源,例如在多图指令场景使用MagicBrush、VrR-VG等数据集,在多模态外部知识场景使用SlideVQA、InfoSeek等数据集,在多模态上下文学习场景使用Mini-ImageNet、POPE等数据集。
  • 选项生成 :采用多项选择的形式进行模型评估,为了使干扰项具有足够的挑战性,针对不同子任务,采用两种方案生成选项。第一种方案,根据任务特点设计相应的采样策略,从数据集的原始标注中采样与ground truth具有一定相似性和混淆性的其他标注作为干扰项;第二种方案,使用大语言模型如GPT-4,根据问题和ground truth生成一些错误的答案作为干扰项。
  • 知识采样 :对于多模态外部知识场景,为了使题目具有挑战性,采用两个采样原则:一是设置的干扰项均在采样的外部知识中有对应信息;二是外部知识中的正确与错误信息之间存在关联性,避免因干扰信息与问题无关导致模型利用语言先验走捷径,从而对模型性能产生错误的评估。
  • 质量控制 :设计两种自动化筛选策略,利用SOTA MLLMs,筛除去掉图像/外部知识后仍能正确回答的样本,以消除问题或选项本身存在的bias。进一步结合人工验证,以确保生成数据中没有重复或模棱两可的选项。
  • 评估策略 :采用多项选择题形式,并循环设置正确选项,以消除LLM对选项位置偏好的影响。
数据集子任务示例

模型评估与分析

数据集设计和构建完成后,作者首先在多图指令和多模态外部知识场景,评估了多个开源的单图及多图MLLMs,以及GPT-4o等闭源模型的性能。通过对不同子任务测试结果的分析,可以看到:

  • 开/闭源性能差距 :现有开源MLLMs相比GPT-4o,在多图指令和多模态外部知识场景的多数子任务上,仍然存在较大的性能差距。
  • 细粒度感知缺陷 :开源模型在细致差异(SD)、富文本图片(TRI)等依赖细粒度感知能力的任务上,性能大幅落后于GPT-4o。
  • 多图训练的重要性 :采用多图预训练的Idefics2模型,与采用多图指令微调的Mantis模型,在多数任务上的表现明显优于单图模型。
  • 多模态外部知识场景极具挑战 :富文本图片(TRI)、视觉连接的文本知识(VTK)和文本连接的视觉知识(TVK)等任务对现有开源MLLMs提出了极大的挑战,即使对于GPT-4o也仍存在较大的提升空间。

作者进一步分析了开源MLLMs在多模态外部知识场景的性能瓶颈,可以看到:

  • 对于 富文本图片任务 ,即使去除外部知识中的干扰项,模型性能也仅取得了微弱的提升,而Idefics2模型采用图片切分进行高分辨率输入,能够获得显著的性能提升,说明 低分辨率输入造成的信息损失 是MLLMs在该任务上的性能瓶颈。






请到「今天看啥」查看全文