本文介绍了MEMO-Bench,这是一个针对文本到图像生成模型和多模态大型语言模型在情感分析方面能力的综合基准测试。MEMO-Bench包含7145张描绘六种不同情感的肖像画,并使用12个文本到图像模型生成。研究结果表明,现有的文本到图像模型在生成积极情绪方面比消极情绪更有效,而多模态大型语言模型在情感识别上虽然有一定效果,但尚未达到人类水平,尤其是在细粒度情感分析方面。MEMO-Bench将公开提供,以支持该领域的进一步研究。
论文:
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal
Large Language Models on Human Emotion Analysis
链接:
https://arxiv.org/pdf/2411.11235
研究背景
研究问题:
如何评估文本到图像(T2I)模型和多模态大型语言模型(MLLMs)在人类情感分析方面的能力。具体来说,研究探讨了T2I模型在情感生成方面的表现以及MLLMs在情感理解方面的表现。
研究难点:
如何有效地评估T2I模型和MLLMs在情感分析任务中的表现,特别是在细粒度情感分析方面的表现。
相关工作:
包括情感计算领域的研究,如情绪生成和理解;以及现有的AI基准测试,如C-Eval、AGI-Eval、MMLU和CMMLU等,这些基准测试主要集中在LLM的情感感知能力评估,但大多依赖于粗粒度的评估方法。
研究方法
这篇论文提出了MEMO-Bench,用于解决T2I模型和MLLMs在情感分析中的表现评估问题。具体来说,
数据集构建:首先,MEMO-Bench包含7145张AI生成的肖像图像(AGPIs),每张图像代表六种不同的情感状态之一。每种情感状态下有100个提示,用于生成相应的AGPIs。
T2I模型评估:对于T2I模型的评估,采用主观注释和自定义提示的方法。主观注释包括情感类别、情感强度和图像质量三个维度。情感生成准确性(GACC)和生成错误率(GERR)被用来评估T2I模型的情感生成能力。
其中,
表示用于生成第k种情感的完整提示集合,
表示标记为第k种情感的所有AGPIs。
MLLMs评估:对于MLLMs的评估,采用渐进式情感评估方法,从粗粒度到细粒度进行分析。首先,MLLMs被要求对AGPIs进行情感类别分类。然后,给定正确分类的肖像,MLLMs被要求评估其情感强度。评估指标包括情感理解准确性、错误率以及Spearman等级相关系数(SRCC)、Kendall等级相关系数(KRCC)、Pearson线性相关系数(PLCC)和均方根误差(RMSE)。
实验设计
数据收集:从12个T2I模型中生成了7145张AGPIs,每个模型针对每种情感生成100个提示。
样本选择:选择了16个先进的MLLMs进行评估,包括两个闭源模型(GPT-4o和Gemini-1.5-Pro)和14个开源模型(如LLaVa和mPLUG-Owl系列)。
参数配置:在主观注释阶段,招募了29名志愿者进行评估,确保注释的可靠性和有效性。注释过程分为15个阶段,每个阶段不超过500个AGPI注释任务。
结果与分析
T2I模型生成图像质量:大多数AGPIs表现出高标准的视觉保真度。不同T2I模型生成的图像质量和情感表达存在显著差异。