专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA

极市平台 · 公众号 · · 2024-07-09 22:00

正文

↑ 点击蓝字关注极市平台

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

VEGA数据集已全部开源，包含593,000条论文类型训练数据，2个不同任务的2,326条测试数据。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

介绍

多模态大型语言模型（MLLMs）的高速发展彰显了其在处理图文信息方面的强大潜力。然而，目前的多模态模型和方法主要集中于处理基础视觉问答（VQA）任务，这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中，尤其是文档理解领域，模型经常需要处理更为复杂的图文混合输入，这些输入不仅长度更长，而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳，且缺乏相应的Benchmark来评估模型在这些任务上的性能。

近日，来自厦门大学纪荣嵘团队提出了一个 全新的 多模态任务——交错图文阅读理解（Interleaved Image-Text Comprehension, IITC）。该任务要求模型处理包含复杂图文交错信息的输入，并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在IITC任务上的表现，他们构建了 VEGA数据集 。该数据集专注于科学论文的理解，包含超过 50,000 篇科学论文的图文数据。

作者对Qwen-VL-Chat模型在VEGA数据集上进行了微调，并采用了一种 多尺度、多任务 的训练策略，得到 VEGA-Base 模型。实验结果显示，该模型在IITC任务中的图像关联准确率方面达到了 85.8% ，为IITC任务建立了一个强有力的Baseline。目前， VEGA数据集已全部开源，包含593,000条论文类型训练数据，2个不同任务的2,326条测试数据。

文章链接：https://arxiv.org/pdf/2406.10228
项目链接：https://github.com/zhourax/VEGA
数据集链接：https://huggingface.co/datasets/zhourax977/VEGA

图中展示了VEGA提出的IITC任务和常见的VQA任务的不同

左边：现有的VQA任务以少量的图片和较短的本文作为输入，且图像和文本信息与问题往往强相关。
右边：IITC任务以更长更复杂的图文交错内容作为输入，且包含冗余和具有误导性的信息，模型在回答时要求指明其参考的图像。

方法

任务定义

我们共提出了两个任务用于评估模型处理图文交错输入的能力，其具体定义如下：

IITC任务以包含冗余信息的图文交错的内容作为输入，针对其中的一张图片进行提问，要求模型在回答的时候指明其参考的图片，最终以回答文本的ROUGE、BLEU和参考图片的正确率共同衡量IITC任务的表现。该任务考验模型根据指令关联和提取正确文本和图像信息的能力。
ITA任务将来自多篇文章的文本图像对打乱作为输入，要求模型回答图像和文本之间的对应关系，以对应关系的准确率来衡量ITA任务的表现。ITA任务的训练可以提升模型图像和文本之间的关联能力，进而提升模型在IITC任务上的表现。

VEGA数据集

为了提升和评估模型在IITC和ITA任务上的表现，作者构建了VEGA数据集。VEGA源自SciGraphQA数据集，后者是一个论文图片理解任务的数据集，包含295k个问答对，作者在其基础上进行了 问题筛选 ； 上下文构建 ； 答案修改 三个步骤，如下图所示，得到VEGA数据集。

问题筛选：原数据集中部分问题缺乏明确的图片指向，当将输入的信息拓展到多图时会造成理解的混淆。
上下文构建：原数据集中问答仅针对一张图片，且提供的上下文信息较少。为了拓展文本和图片的数量作者在arxiv上下载了相关论文的源文件，并构建了 4k token 和 8k token 两个长度的数据，每个问答对包含至多 8 张图片。
答案修改：作者修改了原数据集中的答案，指明了回答时参考的图片，以符合IITC任务的要求。

实验

作者分别使用4k token和8k token长度的VEGA数据在Qwen-VL-Chat 7B上进行了微调，得到了 VEGA-Base-4k 和 VEGA-Base-8k 模型，使用8k token长度的VEGA数据及部分私有的图文交错数据训练得到自研模型**VEGA-8k***。

这部分私有数据包含了更广泛的图文交错的应用场景，这使得 VEGA-8k* 具备了更 通用的文档图文理解能力， 不仅能够完成科学论文的阅读理解任务，在例如： 操作手册理解、游玩攻略总结、金融财报分析 等任务上也表现优异（具体样例在文末展示）。

作者在VEGA的IITC和ITA子集上对现有的支持多图输入的主流MLLMs进行了测试，具体结果如下：

从结果中我们可以观察到，Qwen-VL-Chat在多个任务中的性能相对较弱，这主要归因于它在遵循指令方面的不足。

相比之下，经过在VEGA数据集上微调的 VEGA-Base-4k 模型和 VEGA-8k* 模型，在IITC和ITA任务上均展现出了卓越的性能，甚至超越了一些主流的闭源模型，达到了 SOTA 水平。

这强有力地证明了VEGA数据集在 提高模型处理图文交错输入 方面的有效性。

作者还分别使用SciGraphQA和VEGA数据集对模型进行训练并测试其在SciGraphQA和IITC任务上的表现，其具体结果如下（表格中 VEGA* 代表了旧版本的VEGA数据集）：

测试结果显示，VEGA数据集训练的模型在两个任务上的表现都较好，而经过SciGraphQA训练的模型则无法很好地处理IITC任务，这表明经过VEGA数据集的训练， 不仅提升了模型处理长的图文交错输入的能力，也维持了模型在处理传统VQA输入模式的能力。

效果展示

在本章节中，作者进一步展示了在实际场景中多模态阅读理解模型 VEGA-8k* 的效果。作者选取了金融、汽车说明书以及旅游介绍三类场景，设定了难点不同的场景任务 case，对比本文提出的 VEGA-8k* 以及一些开源模型产品的结果。

在实际测试过程中，作者将下列不同难点场景的case中context的内容转换成PDF的形式分别对文心一言、通义千问、KimiChat、腾讯元宝、Gemini和Gemini等多个多模态产品进行测试对比：

【Case 1】说明书场景中针对自然图像的阅读理解

Case难点： 用户针对说明书文档中的自然图像进行提问，答案不存在于文档的文字描述中，因此，需要模型对自然图像进行理解后做出回答，并输出对应图像。

从结果中不难发现，目前其他模型多模态模型产品均倾向于直接从文字中获得答案而忽略了图片中的内容。而 VEGA-8k* 则能对文字和图像内容进行联合理解，并根据图像内容给出准确的答案。

【Case 2】说明书场景中输入图片进行提问

Case难点： 联合理解用户输入的图片和文字内容，根据文档内容进行回复。从结果中不难发现，目前，KimiChat不支持输入不带有文字内容的图像，文心一言、通义千问和腾讯元宝的线上产品均仅支持图文问答，即根据图片内容回答用户问题，而无法将输入的图片作为问题的一部分进行理解，并根据文档内容进行回复。

目前，仅VEGA-8k*、Gemini和GPT-4o支持该功能。

【Case 3】金融场景中针对数据图片的阅读理解

Case难点： 理解文字内容，结合图像里的数据内容回答用户问题。从该case的结果中可见，文心一言、腾讯元宝和Gemini均没有对文档中的数据图进行理解，而通义千问、KimiChat虽然在【Case 1】中没有理解文档里的自然图像，但在该样例中对于数据类型的图像有着较好的理解能力。

但除了VEGA-8k*之外，其他模型均不具备输出相关图像作为辅助说明的能力。

【Case 4】旅游介绍场景中总结全文的图文关联

Case 难点： 联合理解文字和图片内容，根据文字和图片之间的关联性，总结文字摘要的同时，在正确的位置输出图片。从结果上来看，所有模型都有着较好的指令跟随能力，能够输出指定的图片格式“[Picture *]。

但是，大部分的模型几乎都是机械式地输出文字附近的图片下标，而没有真正去理解图片内容，Gemini甚至出现了幻觉（[Picture 8, Picture 9]）只有VEGA-8k*和GPT-4O能够正确理解理解图文之间的关联性，给出出图率和准确率都较高的回答。

【Case 5】论文场景中的数据图理解

Case难点： 论文数据图的相似度较高，需要细节化理解图片内容，找到正确的对应图片。从结果中不难发现，腾讯元宝没有正确跟随指令，导致没有输出图片占位符，而其他模型对于相似图片的区分度较低，且易受到文本内容的干扰，甚至于GPT-4V也出现了误判情况。

厦门大学首发多模态阅读理解新任务： 图文深度融合数据集VEGA

正文

介绍

方法

任务定义

VEGA数据集

实验

效果展示

【Case 1】说明书场景中针对自然图像的阅读理解

【Case 2】说明书场景中输入图片进行提问

【Case 3】 金融场景中针对数据图片的阅读理解

【Case 4】 旅游介绍场景中总结全文的图文关联

【Case 5】 论文场景中的数据图理解

请到「今天看啥」查看全文

厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA

【Case 3】金融场景中针对数据图片的阅读理解

【Case 4】旅游介绍场景中总结全文的图文关联

【Case 5】论文场景中的数据图理解