论文:
https://arxiv.org/pdf/2403.20330.pdf
主页:
https://mmstar-benchmark.github.io/
代码:
https://github.com/MMStar-Benchmark/MMStar
Dataset:
https://huggingface.co/datasets/Lin-Chen/MMStar
背景
想象一下,一个能听懂你的话,还能“看见”你感受到的真实世界的智能存在。这不是科幻小说的情节,而是正在火热发展的多模态大模型(large vision-language models, LVLMs)研究领域。随着多模态大模型的飞速发展,社区中也涌现出了很多评估多模态大模型能力的研究。这些研究通常聚焦在不断开发涵盖了尽可能多样的能力评估维度的多模态benchmark来给不断涌现的LVLMs提供一个综合性的竞技平台。
关键发现
在中科大等研究机构的研究者们的最新探索中发现了一个令人震惊的现象:一些先进的语言大模型和多模态大模型竟然能在没有看到图片的情况下正确回答出一些视觉问答题目。是的,你没听错,研究者们发现闭源语言大模型GeminiPro和开源语言大模型Qwen1.5-72B在极具挑战性的MMMU基准上竟然只根据问题和选项就可以分别取得42.7和42.4的惊人成绩,并且开源多模态大模型Yi-VL-34B以及LLaVA-Next-34B在不看图的情况下也可以取得37.3和40.4的成绩,一度逼近GeminiPro-Vision (44.4)等翘楚LVLM在看到图片情况下的表现。结果如下表所示,蓝色表示能看到图的LVLMs,橘色和绿色分别表示只接收问题和选项文本的LLMs和LVLMs。
这一离奇的实验结果激起了研究者们的好奇,使得他们深入现有的针对LVLMs的评估样本和评估过程,并发现了造成这种现象的两个主要问题:
(1)
一些多模态评估样本缺少对视觉内容的依赖性。
这种问题反映了现有的benchmark中的不合理之处。这个问题包含了两种情况,一种是有些评估样本的答案可以被蕴含在了题目和选项中从而免去了看图的必要(比如下图中的问题:这个圆形土圈是什么形状?),另外一种则是有些评估样本可以直接被语言大模型(large language model,LLM)利用嵌入的丰富世界知识进行解答而无需依赖图片(比如下图中的问题:内布拉斯加州的首府是什么?)。
(2)
现有评估过程未考虑LLM和LVLM训练过程中的数据泄露问题。
这种问题反映了现有的评估过程中的不合理之处。LVLM通常由一个vision encoder,一个LLM基座,以及一个视觉-语言连接件组成。而且现有的多模态benchmark中有大量的评估样本是从单模态的文本语料中转化过来的(比如从考试题目中转化而来)。因此如果LLM的训练数据中无意间泄露了多模态benchmark中转化不充分的评估样本,就会影响LVLMs之间的公平比较。
为了定量观察LLMs中广泛存在的泄露现象,研究者们采用了22个LLMs在6个公开benchmark上进行评估。这些大语言模型包含了2个闭源模型(GPT4-Turbo以及GeminiPro)和20个大小、架构各异的开源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且使用了2-shot推理策略来减少拒绝回答的情况以及对齐回答的格式。
从上表中我们可以看到,闭源模型GeminiPro和开源模型Qwen1.5-72B在极具挑战性的MMMU基准上可以分别取得42.7和42.4的惊人成绩,一度逼近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等翘楚LVLM在能看到图片情况下的表现。此外,GeminiPro和Qwen1.5-72B在六个公开benchmark上的平均性能也要比随机选择的基线高出至少20%的绝对值。研究者们希望多模态评估社区能够重视起这种比较普遍且严重的现象,不然比拼LVLMs的多模态性能就会沦为比拼谁的LLM基座更强的情况。
更进一步地,研究者们做了一个有趣的实验来定量观察LVLMs在其多模态训练过程中的数据泄露情况。具体而言,研究者们除了使用LVLM正常评估,使用LLM只根据文本问题和选项评估,还额外屏蔽了LVLM的图片输入从而只根据文本问题和选项来进行评估(标记为LVLM-text)。
在这样的实验设定下,可以根据LVLM-text相对于LLM的性能提升来反映出存在着一些本身LLM不看图做不对但经过多模训练后的LVLM不看图竟然又能做对的题目。这暗示着LVLM在多模态训练过程中存在着一定程度的数据泄露。比如,Sphinx-X-MoE和Monkey-Chat经过多模态训练后在不看图的情况下相比原始LLMs在MMMU基准上可以分别提升惊人的17.9和12.6,而它们即使进一步在看到图片的情况下也只能获得1.2和4.7的性能提升。这无疑是社区在评估LVLM时不想看到情况。下图中则展示出了一些可能被泄露在了LVLM的多模态训练数据中的评估样本,研究者们使用了16个LVLM以及对应的LLM基座在样本上进行评估。
MMStar Benchmark
为了解决上述问题从而进行更公平和准确的评估,研究者们精选出了一个具有完全视觉依赖性的多模态评估基准,MMStar。
作者们首先设计了一个LLM协助的自动筛选管线从现有的6个具有代表性的多模态benchmark中粗略筛选出大概率具备视觉依赖性并且没被泄露在LLM的训练语料中的评估样本。具体而言,作者们准备了8个20B及以上的强大LLM作为检查者,并且只挑选出最多有25%的模型(小于等于2)答对的候选样本用于后续的人工挑选和检验。这一过程从总计22,401的样本池中筛选出11,607的候选样本
进一步地,作者们引入了精细的人工校验,根据三个维度来挑选出最终的评估样本。这三个维度为:(1) 每个样本的答案都必须建立在对视觉内容的理解上;(2) 选择的所有样本应该涵盖广泛的能力评估维度;(3) 大多数评估样本要求LVLMs具有强大的多模态能力才能解决。最终,作者们构建出了MMStar,包含了1,500个具有视觉依赖性的高质量评估样本,涵盖了样本均衡的粗略感知、精细感知,实例推理、逻辑推理、科学技术、数学这六个核心能力以及18个详细的能力维度。
伴随着MMStar benchmark,作者们还提出了multi-modal gain (MG)和 multi-modal leakage (ML)两个评估指标来反映出LVLMs在多模训练过程中的真实性能增益和数据泄露程度。
实验
为了检验所提出的MMStar的质量,作者们首先用22个先进的LLMs只根据MMStar中的问题和选型进行了评估。结果如下表所示,所有的LLMs在MMStar上的表现都接近于随机选择,这表明MMStar在现有的LLMs的训练预料中有着很少的数据泄露。
紧接着,作者们评估了16个先进的多模态模型在MMStar上的性能。从表中可以看到,高分辨率设置下的GPT4V取得了57.1的最高平均性能。开源模型中InternLM-Xcomposer2取得了平均性能为55.4的好成绩,LLaVA-Next在数学维度上的表现要略优于GPT4V和GeminiPro-Vision。值得注意的是,没有LVLMs能够在精细感知(FP),逻辑推理(LR),科学技术(ST)以及数学(MA)上取得及格分(60%)的成绩,这表示着这些维度对于现有的LVLMs来说仍是不小的挑战。
最后,作者们使用16个LVLMs在6个公开benchmark以及所提的MMStar上对MG和ML指标进行了广泛评估。
从模型角度来分析,GPT4V和InternLM-Xcomposer2分别在闭源和开源模型中展示了从多模态训练中取得的显著性能增益,使用了最少训练数据的LLaVA-1.5-7B则合理地展示了最少的性能增益以及最少的泄漏。此外,例如Monkey-Chat,Spinx-X-MoE则展现出了较高的数据泄漏程度,提醒了社区在评估时需要考虑到这个因素从而在LVLMs之间进行公平公正的比较。
从benchmark的角度来分析,MMBench取得了最高的跨模型间的平均性能增益,这可能表示着现有的LVLMs的训练数据和MMBench的领域之间有着较高的重叠,因此模型在多模态训练后可以很好地泛化到MMBench的评估任务中。相反,MMMU则展示出了最低的平均多模态增益,表明了现有LVLM的多模态训练语料和MMMU有着较少的overlap,并且这些LVLMs的表现很大程度地依赖于其LLM基座的知识储备。MMStar则毫无意外地展示出了最少的平均数据泄漏程度,为广泛且公平地评估现有LVLMs提供了一个强有力的基础。此外,作者们相信这种跨模型间的ML指标对社区之后检验新开发的多模态benchmarks也是有益的。