arxiv论文:
https://arxiv.org/pdf/2408.08632
主页:
https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey
多模态大语言模型因其在视觉感知和问答、理解和推理等各种应用中的卓越表现,正在学术界和工业界获得越来越多的关注。在过去的几年中,大量的研究人员从各种维度和粒度对MLLM (Multimodal Large Language Model)进行了深入研究。本综述对200个多模态大模型评测集进行了全面的回顾和总结,涵盖了MLLM评估的五个关键领域:(1) 感知和理解,(2) 认知和推理,(3) 特定领域,(4) 关键能力,以及 (5) 其他模态,共包括20-30个详细类别。
此外,作者还展示了与MLLM评估相关的论文的随时间的增长趋势,表明该研究领域在近两年的飞速发展。此外,作者还提供了自2024年以来在83个基准测试中表现最好的MLLM的统计数据。相比之下,OpenAI的GPT-4和Google的Gemini表现十分优异。
Preliminary:多模态大模型的架构和训练
多模态大模型的架构通常可以分为三个主要模块:多模态编码器(如视觉、音频等)、多模态投影器(用于不同模态的对齐和融合)、以及大语言模型。训练过程中涉及的核心方法主要包括预训练和指令微调。
-
多模态编码器
多模态编码器的任务是将输入的图像或其他模态的数据进行编码,提取出对应的多模态特征。这些特征随后会被传递给多模态投影器进行进一步的处理。典型的视觉编码器包括 CLIP、SigLIP 和 DINO 等模型,它们通过对原始视觉输入进行特征提取,生成用于跨模态分析的高维特征向量。
-
多模态投影器
多模态投影器负责将多模态特征嵌入映射到文本特征空间。这个过程使多模态信号能够与文本信息进行对齐,并与语言模型的输入结合起来。为了提高处理效率,一些工作(如 BLIP-2 中的 Qformer)设计了新的投影器,通过减少多模态标记的数量,提升模型的性能。
-
大型语言模型
大型语言模型是 MLLM 的核心,它使模型具备了零样本推理、指令执行和上下文学习等能力。模型接收包含多模态信号的输入序列,输出相应的文本序列。通常,语言模型会通过文本分词器将文本输入映射为文本标记,随后将文本和视觉标记连接在一起作为模型的输入,最终通过自回归的方式生成输出。典型的大型语言模型包括 LLaMA 系列、Phi、Gemma 和 Qwen,Intern 等,它们的参数规模从数十亿到上百亿不等。
-
预训练
预训练阶段的主要目标是对齐不同模态的嵌入空间,使得语言模型能够接收来自多模态的输入。该阶段通常依赖于大规模的文本配对数据,如图像-文本对。通过这样的数据格式,模型能够学习多模态信息之间的关联,并采用“下一个词预测”的训练范式,最大化模型对图像描述的预测概率。在这一过程中,模型会使用标准的交叉熵损失函数进行优化,确保其在多模态输入下生成准确的描述。
-
指令微调
指令微调阶段则着眼于通过特定任务的指令来进一步微调模型。该过程通常在监督微调范式下进行,指令微调的数据集通常会以单轮或多轮对话的结构呈现,模型通过这些指令学习如何应对特定任务。常见的策略是保持多模态编码器的权重固定,更新投影器和大型语言模型的预训练权重,从而提升模型在多模态任务中的执行能力。
多模态大模型评测集分类
1. 感知与理解:奠定多模态模型的基础
MLLMs的感知与理解能力是其多模态任务处理的核心。作者从综合评估、细粒度感知和图像理解三个角度对该领域的评估进行了总结。
1)综合评估:
MLLMs依赖于强大的语言模型来执行多模态任务,研究人员提出了大量的综合评估基准,以全面测试MLLMs在感知与理解方面的表现。这些基准有效地评估了模型在对象识别、场景上下文理解以及响应视觉内容问题等任务中的准确性。
2)细粒度感知:
细粒度感知是MLLMs的重要组成部分,评估模型在检测和识别场景中可见物体的能力,尤其关注局部区域的细节处理能力和多模态信号与文本信息对齐的精度。细粒度感知对于多模态理解十分重要,能够有效提高模型在复杂场景中的表现。
3)图像理解:
图像理解任务测试MLLMs从视觉内容中提取有意义信息的能力。这类评估旨在衡量模型是否能够掌握场景的上下文,将视觉细节与文本信息有效结合,并生成连贯的描述和洞察。
2. 认知与推理:实现复杂任务的高级能力
在认知与推理方面,MLLMs展现了超越基础感知能力的复杂信息处理与逻辑推理能力。作者从通讯推理、基于知识的推理、智能与认知三个角度对该领域的评估进行了总结:
1)通用推理:
MLLMs需要从多模态信号和文本输入中提取相关信息,从而推导出逻辑结论。评估模型的通用推理能力,主要集中在视觉关系推理、上下文推理及思维链推理等。模型需要展现其对多模态信号和文本信息之间复杂关系的理解与处理能力。
2)基于知识的推理:
MLLMs在处理复杂任务时,基于知识的推理能力十分重要。评估模型是否能够利用外部知识库或常识性知识来回答问题,测试其在知识更新和维护中的准确性和一致性也是评估的一个重要方面。
3)智能与认知:
借鉴人类认知发展理,一些评估基准测试MLLMs在抽象信息推理和多学科问题中的表现。通过解决复杂的数学问题或多学科问题,评估模型是否能够在多个知识领域中整合和应用信息。
3. 特定领域应用:从理论到实践的延伸
MLLMs的特定领域应用能力近年来同样获得了越来越多的关注,尤其是在处理复杂专业任务和特定场景中的表现。作者从富文本视觉问答、决策代理、多文化和多语言、其他应用四个角度对该领域的评估进行了总结:
1)富文本视觉问答:
评估MLLMs在文本与图像信息集成分析中的表现,特别是文本识别、上下文理解和多模态文档处理能力。通过这种评估,可以深入了解模型在实际应用中的适应性,尤其是在处理含有复杂文本和图像组合的场景中。
2)决策代理:
MLLMs在动态环境中执行基于代理的决策任务的能力是其智能化的重要体现。相关评估测试了模型在复杂场景中的规划与调度能力,这种能力对于解决如具身智能、自动驾驶等现实世界中的问题至关重要。
3)多样化文化与语言:
目前大多数基准测试主要集中在英语文本的语境下,而忽视了其他语言和文化背景的需求。为此,一些用于评估MLLMs在多语言和多文化场景中表现的基准被提出,以评估模型是否具备更广泛的适应性和应用能力。
4)其他应用:
此外,部分评估基准侧重于测试MLLMs在医学、工业设计等高度专业化领域中的表现。这些评估用于测试模型在处理特定领域数据时的适应性,从而展现MLLMs应对复杂的专业任务和现实应用场景的能力。
4. 关键能力:提升用户体验的核心
MLLMs的关键能力不仅影响其性能表现,还直接关系到用户的实际体验。作者从对话能力、幻觉及可信度三个角度对该领域的评估进行了总结:
1)对话能力:
部分评估基准测试了MLLMs在处理复杂对话场景中的表现,特别是在长上下文理解和复杂指令执行方面的能力。确保模型能够在多样化对话中进行有效的互动,并准确执行用户的复杂指令。
2)幻觉:
幻觉问题是MLLMs面临的主要挑战之一,幻觉指的是模型生成的内容与实际的多模态信号输入不符。相关评估测试了MLLMs在幻觉上的表现,并探索了如何通过更有效和更高效的方式来自动化地检测和评估幻觉问题。
3)可信度:
MLLMs的可信度评估涉及多个方面,包括准确性、一致性以及在处理敏感内容时的安全性。稳健性评估测试了模型在面对不同或意外输入时的表现,确保其在各种条件下输出的可靠性。同时,安全性评估则关注模型是否能够避免生成有害或不当内容,从而保护用户免受潜在风险。
5. 其他模态:扩展多模态模型的潜力
除了图像模态外,视频、音频和三维场景等其他模态也提供了丰富的现实世界信息。这些模态不仅增强了模型理解复杂场景的能力,还为评估多模态大模型在真实任务中的表现提供了重要依据。作者从视频、音频、三维场景及全模态四个角度对该领域的评估进行了总结:
1)视频:
视频信号不仅包含图像信息,还涉及时序信息和视频上下文信息。评估模型在视频任务中的表现,尤其是在时间感知、动作理解和事件推理方面,是多模态大模型在视频理解中的关键任务。模型是否能够充分理解时序信息以及分析长视频的能力也构成了视频模态评估的重要维度。
2)音频:
音频模态通过语音、环境声和音乐等多种形式,为评估模型提供了额外的维 度。评估音频模态的关键在于模型如何处理和理解音频信号,特别是在跨模态任务中的表现,例如处理语音指令、理解环境音和音乐。在多模态交互中,模型不仅需要准确理解语音内容,还要能够综合分析音频与其他模态的关联性。
3)三维场景:
三维场景相比二维图像,提供了更为精确的空间关系、深度和遮挡信息,这对于解释复杂环境至关重要。评估模型在三维场景中的表现,尤其是在物体检测、场景理解和空间推理等任务中的能力,是确保模型能够有效处理三维信息的关键。
4)全模态:
现实世界中的多模态信息通常同时涉及音频、图像、视频和文本等多种模态。评估模型在处理多个模态同时出现的任务中的表现,能够更全面地评估其适应现实场景的能力。全模态评估不仅能够考察模型的多模态交互能力,还能揭示其在多任务环境中的潜在优势与不足。
总结:
这篇关于多模态大模型评测基准的综述,在当前AGI模型发展的背景下具有重要的指导意义。作者从五大核心领域进行了全面的分析与总结,评测不仅确保了多模态大模型能够有效处理多模态信号,还检验了它们在准确性、稳健性和公平性等方面的表现是否达到预期标准。这些分类不仅加深了我们对MLLM现状的理解,还明确了其在不同应用场景中的潜力与局限,为未来MLLM的发展提供了有价值的洞见。通过严谨的评估流程,能够清晰地识别出各模型的优势与不足,为进一步优化模型提供了明确方向,也为AI系统在实际应用中的部署奠定了技术基础。