专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
销售与市场  ·  传统小店“失守” ·  昨天  
黑马营销  ·  今年春节营销,这个品牌玩法进阶了 ·  2 天前  
最爱大北京  ·  2月16日 | 京城事儿全知道 ·  3 天前  
51好读  ›  专栏  ›  极市平台

MathVerse: 多模态大语言模型真的可以看懂数学题吗?

极市平台  · 公众号  ·  · 2024-04-09 22:00

正文

↑ 点击 蓝字 关注极市平台
编辑丨极市平台

极市导读

作者推出一个全新的测评benchmark——MathVerse,旨在深入探究MLLMs是否真正具备解读和解答多模态数学题的能力。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

论文: https://arxiv.org/pdf/2403.14624.pdf

主页: https://mathverse-cuhk.github.io/

代码: https://github.com/ZrrSkywalker/MathVerse

数据集: https://huggingface.co/datasets/AI4Math/MathVerse

PS:此工作在当日的HuggingFace Daily Paper中排名第一,并在推特上引发了广泛的讨论,浏览量10K+

1、背景

在大算力的数字化时代下,大语言模型(LLM)以其令人瞩目的发展速度,正引领着技术的潮流。基于它们强大的文本理解和生成能力,各大研究机构正在探索如何将这些能力扩展至视觉领域,构建一个能够理解和生成多模态内容的超级智能体——多模态大语言模型(MLLMs)。

在追求通用视觉性能的道路上,社区内已经涌现出众多精心设计的测评benchmark。它们通常使用贴近日常生活的自然图片作为样例,为MLLMs的视觉能力提供全面的评估,如MME、MMBench等。然而,要深入了解MLLMs的“思维”和“推理”能力,仅凭通用视觉性能的测评远远不够。 多模态数学题求解能力,才是衡量它们深度认知和逻辑推理能力的真正试金石。

尽管如此,目前领域内依然缺少针对MLLM数学解题能力的测评benchmark。现有的少数尝试,如GeoQA、MathVista和MMMU,通过我们的深入分析,仍然存在一定的问题和偏差。鉴于此,我们推出一个全新的测评benchmark—— MathVerse ,旨在深入探究 MLLMs是否真正具备解读和解答多模态数学题的能力 ,为未来的技术发展提供独特的见解。

2、关键发现

然而,通过我们的全面观察和分析,我们发现了当前的多模态数学benchmark中存在的三个关键问题:

1. MLLM在测评中是否真正“看到”了数学图像 ?这是关于准确评估视觉数学问题解决能力最基本的问题。在图1(a)中,我们展示了当前benchmark中的三个示例。我们观察到,它们的 题目文本中包含了大量与图像中内容重复的信息 (以红色高亮显示)。这种冗余可能无意中为MLLM提供了一条捷径,使它们在解决问题时主要通过阅读文本,而不是解读图表。我们的假设从图1(b)的实验中得到了支持。我们对每个benchmark随机抽样的40个问题,移除了这种冗余文本,挑战MLLM仅从视觉输入中捕获相应的信息。结果显示,大多数MLLM的准确率显著下降(蓝色柱子),甚至低于不将图表作为输入时的得分(灰色柱子)。这一结果表明, MLLM在解决这些问题时,主要依赖于文本线索,而非真正去理解视觉图像本身 ,并且,在 不输入图像的情况下,甚至可以得到更高的评分 。鉴于此,我们展示了当前的视觉数学benchmark可能不足以全面评估MLLM的真正多模态数学推理能力。

2. 仅通过MLLM回答的最终答案来评估是否公平 ?大多数现有的多模态benchmark直接将模型输出与真值进行比较,以得出二元评估结果(“正确”或者“错误”)。虽然这种方法对于通用的视觉问答情境可能足够,但在需要复杂逐步推理的数学问题中却显得过于武断。在图2中,我们展示了三个不同模型的输出。 尽管它们最终都得到了错误的答案,但它们在中间推理过程中展现了不同程度的精确性。仅将这些输出归类为“错误”,未能捕捉到MLLMs推理质量的细微差别。

3. 它们是否能够全面并且专注的体现出MLLM的数学推理能力 ?GeoQA仅仅包含了平面几何的数学题,这限制了对更广泛数学能力的评估,例如函数和立体几何。相反,MathVista加入了广泛的辅助任务(自然图像、统计图表)来扩展范围,但这些并不直接评估MLLM的专业数学技能。此外,MMMU中的数学问题具有大学级别的复杂度,需要广泛的领域特定知识,这可能阻碍MLLMs充分展示它们的推理能力。

3、MathVerse Benchmark

1.数据组成和统计:

MathVerse的测评数据集收集了2612个多模态数学题,并人工标注构造了多达15672个测试样本,广泛的涵盖了3个主要的题目类型和12个子类,例如平面几何、立体几何、和函数。经过团队的细致检查与标注,MathVerse的高质量数据可以为MLLM提供一个鲁邦且全面的能力测评。

2.如何体现MLLM的数学图像理解能力?

我们首先根据题目中文本和图像的信息关联,如下图所示,定义了3种不同的文本类别:

a.描述信息,Descriptive Information(DI,红色高亮部分) 指的是图像中可直接观察出的内容。它描绘了基本图形组成,几何形状,和空间布局。此类文本信息对于图像而言是重复性的,因此被视为解决问题的冗余信息。

b.隐含属性,Implicit Property(IP,蓝色高亮部分) 指的是那些需要更强的视觉感知能力才能从图像中辨识出来的属性。它代表着解决问题所需的较强视觉条件,如线条之间的平行性和垂直性、三角形之间的相似性和全等性、函数的种类和周期性。

c.基本条件,Essential Condition(EC,绿色高亮部分) 指的是题目中给定的具体数值,它们是推导解决方案不可或缺的条件,并且不能从视觉图表中直接得出,例如角度、长度的精确值和函数表达式。

基于以上三种文本信息的定义,我们将每道多模态数学题通过人工标注,系统地移除问题中的不同文本信息,并逐步将关键元素融入到图表中,拓展为 6个不同的题目版本 ,如下图所示。 这种方法可以逐渐减少文本中提供的信息量,从而越来越有力地迫使MLLM从视觉输入中捕获数学条件 。通过比较MLLM在不同题目版本之间的得分,我们可以很清晰的评估它们的真实视觉理解能力。

3.如何细致的评估MLLM的中间解题步骤?

与一般情景下的视觉问题回答相比,MLLM解决数学问题的过程需要细腻的、逐步的链式推理(Chain-of-Thought,CoT)。为此,我们提出了一种 CoT评估策略 ,细致的评估它们的视觉数学链式推理能力。我们的CoT策略通过分别提示GPT-4和GPT-4V进行两个阶段的测评:关键步骤提取(Key-step Extraction)和多步评分(Multi-step Scoring);如下图所示:

这种评估策略不仅关注最终答案的正确性,而且更加重视 解题过程中的逻辑连贯性和推理深度 。通过这种方法,我们能够更加精准地揭示MLLM在解决复杂数学问题时的真实能力,尤其是它们如何一步步构建问题解决方案的能力。这对于理解MLLMs的思维方式、推理能力,以及它们如何处理和解释视觉与数学信息的综合能力至关重要。

4、实验与结论

我们在MathVerse benchmark上测评了17个现有的MLLM,如下表所示。其中“CoT-E”代表使用了我们提出的CoT测评策略,而“w/o”代表了直接进行二元对错的测评结果。

基于测评,我们可以得出以下结论:

  1. MLLM更依赖于文本信息去解题,而不是观察数学图像。
  2. 除GPT-4V和ShareGPT4V之外, 大部分MLLM在没有图像输入的情况下,仅仅通过文本竟然可以获得更高的得分 ,证明如今低质量的视觉编码对于解题来说起到了负面的作用。
  3. MLLM很难从图像中准确的解读出题目中的基本条件和问题。
  4. 闭源模型的多模态数学解题能力要比开源模型更好。
  5. 通过比较G-LLaVA和LLaVA-1.5,使用数学训练数据进行模型微调可以提升特定的解题能力,但是也会降低其泛化能力。
  6. CoT测评相比二元测评可以更全面的体现模型的逻辑推理能力。

公众号后台回复“ 数据集 ”获取100+深度学习各方向资源整理

极市干货







请到「今天看啥」查看全文