专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
每天发现一家店  ·  低价捡漏 - 0308 ·  昨天  
你的Sneaker  ·  [近期新鞋速递]AJ4五道杠/AMM ... ·  昨天  
你的Sneaker  ·  [近期新鞋速递]AJ4五道杠/AMM ... ·  昨天  
星辰投研  ·  【小研好物】大羊毛速薅!99 元 5 ... ·  3 天前  
星辰投研  ·  【小研好物】大羊毛速薅!99 元 5 ... ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

腾讯混元提出:多模态大模型推理评估新基准

我爱计算机视觉  · 公众号  ·  · 2025-02-27 13:42

正文




关注公众号,发现CV技术之美




本篇分享论文 MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models ,腾讯混元提出:多模态大模型推理评估新基准。

  • 论文地址:https://arxiv.org/pdf/2502.00698
  • 代码仓库:https://github.com/AceCHQ/MMIQ/tree/main/
  • 🌐主页:https://acechq.github.io/MMIQ-benchmark/
  • 🤗数据集地址:https://huggingface.co/datasets/huanqia/MM-IQ

效果展示

图1.1:多模态模型以及人类在 MM-IQ 基准测试中的表现
图1.1:多模态模型以及人类在 MM-IQ 基准测试中的表现
图1.2: MM-IQ的8类推理问题示例
图1.2: MM-IQ的8类推理问题示例

1. 导语

随着多模态大模型(Large Multimodal Models, LMMs)的快速发展,其在语言、视觉等多领域展现出强大的理解能力。

然而,近期o1,r1,o3-mini等推理模型的出现不禁使人好奇:最先进的LMMs是否也和r1一样具备类似人类的推理能力?

为了回答这一问题,腾讯 Hunyuan 团队提出了一个新的多模态推理基准测试框架— MM-IQ ,旨在系统地评估多模态模型的抽象推理和逻辑思维能力。

  • 论文地址:https://arxiv.org/pdf/2502.00698

2. 研究背景

在人类认知能力的评估中,智商测试(IQ Test)一直被视为衡量抽象推理能力的重要工具。它通过剥离语言背景、语言能力和特定领域知识,专注于评估人类的核心认知能力。然而,目前在人工智能领域,尤其是在多模态系统中,缺乏一个能够系统量化这些关键认知维度的基准。

现有的多模态模型虽然在 OCR、目标定位和医学图像分析等特定任务上表现出色,但这些任务的评估指标无法全面衡量多模态系统的核心推理能力。

为了解决这一问题,腾讯 Hunyuan 团队从人类 IQ 测试中汲取灵感,提出了 MM-IQ 基准,旨在通过语言和知识无关的评估,系统地衡量多模态模型的抽象推理能力。


3. MM-IQ 基准介绍

MM-IQ 基准包含 2,710 个精心策划的测试项目,涵盖了8种不同的推理范式,包括逻辑运算、数学推理、二维几何、三维几何、空间关系、时间运动、视觉指令和具体对象。

这些范式不仅涵盖了多模态模型需要掌握的核心推理能力,还通过多样化的题目配置,全面考察多模态系统的认知水平。

3.1 数据集构建

MM-IQ 的数据收集过程分为三个阶段。

首先,团队从中国国家公务员考试的公开题目中筛选出适合的题目,这些题目原本用于评估考生的抽象和推理能力,因此非常适合用于多模态模型的推理能力测试。

其次,团队对这些题目进行了分类,并对题目较少的推理范式进行针对性补充,以确保每个推理范式都有足够的样本。

最后,通过去重和答案提取等步骤,确保数据集的准确性和有效性。

3.2 推理范式

MM-IQ 的 8 种推理范式如下:

  • 逻辑运算 :涉及逻辑运算符(如AND、OR、XOR)的应用,需要模型识别图形中的逻辑规则。
  • 数学推理 :评估模型对数量、数字和算术运算的推理能力。
  • 二维几何 :涵盖对二维几何图形属性的理解和图形拼接能力。
  • 三维几何 :评估模型对三维几何图形的理解,包括多面体的视图识别和立体图形的截面识别。
  • 空间关系 :考察物体之间的静态相对位置关系。
  • 时间运动 :关注物体的位置变化,包括平移、旋转和翻转。
  • 视觉指令 :通过视觉提示(如箭头)引导模型解决问题。
  • 具体对象 :涉及对现实世界物体(如花瓶、叶子、动物)的分类。

4. 实验结果

腾讯 Hunyuan 团队对多种开源和闭源的多模态大模型进行了评估,包括Deepseek-vl-7b-chat、Qwen2-VL-72B-Instruct、QVQ-72B-Preview和GPT-4o等。

结果显示,即使是性能最好的模型,其准确率也仅为 27.49%,仅略高于随机猜测的基线水平(25%),而人类的平均准确率则高达 51.27%。

4.1 模型表现

  • 开源模型 :LLaVA-1.6-7B 的准确率为 19.45%,Deepseek-vl-7b-chat 为 22.17%,Qwen2-VL-72B-Instruct 为 26.38%,QVQ-72B-Preview为26.94%。
  • 闭源模型 :GPT-4o 的准确率为 26.87%,Gemini-1.5-Pro-002 为 26.86%,Claude-3.5-Sonnet 为 27.49%。

4.2 推理范式分析

在不同推理范式中,人类和闭源模型(GPT-4o)在具体对象推理中表现更好,准确率分别为 65.79% 和 50%。这可能是因为具体对象推理需要额外的知识。

而逻辑运算范式则是多模态模型的弱项,平均准确率仅为 23.69%,因为这一范式需要模型识别更复杂的抽象规则。


5. 多模态模型表现不佳的原因分析

为了深入了解多模态模型在 MM-IQ 上的表现不佳的原因,团队对三个有代表性的模型 Claude-3.5-Sonnet、Qwen2-VL-72B-Instruct 和 LLaVA-1.6-7B 的错误答案进行了人工标注分析。结果显示,错误主要集中在以下几个方面:

  • 推理范式出错 :模型倾向于依赖简单的规则进行推理,而不是提取更复杂的抽象规则。






请到「今天看啥」查看全文