专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
51好读  ›  专栏  ›  我爱计算机视觉

从文字到视觉:EvalMuse-40K如何评价T2I模型的进化

我爱计算机视觉  · 公众号  ·  · 2025-01-09 15:14

正文




关注公众号,发现CV技术之美




本篇分享论文 EvalMuse-40K : A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation ,介绍业界规模最大的文生图评估数据库——EvalMuse-40K,以及两种达到SOTA的图文匹配度评估算法——FGA-BLIP2和PN-VQ。

  • 论文链接:https://arxiv.org/abs/2412.18150
  • 项目链接:https://shh-han.github.io/EvalMuse-project/

前言

近年来,文生图(T2I)模型技术迅速发展,催生了Dreamina、DALL·E3和Midjourney等热门工具。它们能够精准理解用户的prompt(提示词),将简短描述转化为高质量且富有美感和一致性的图像。这一技术显著降低了创作门槛,提升了效率和趣味性,让艺术创作、广告设计及日常分享变得更加简单直观。文生图技术的普及,为数字内容创作开辟了全新可能性。

然而,评估这些模型的性能,特别是在 图文匹配度方面 ,一直是一个挑战。传统评估方法已无法全面衡量图像与文本的匹配度,现有标准无法有效的捕捉细节偏差和一致性问题。为解决这一问题,抖音多媒体质量实验室与豆包大模型团队及南开大学合作, 推出了业界规模最大的文生图评估数据库——EvalMuse-40K。此外,还提出两种达到SOTA的图文匹配度评估算法——FGA-BLIP2以及PN-VQ。 利用EvalMuse-40K,我们探索了现有图文匹配度评估方法与人类偏好的一致性,并使用提出的方法对现有T2I模型进行了评估和排序,为该领域提供了重要的参考和指导。

名词解释:

  1. T2I :即Text to Image,是在AI产品中通过文本输入指令生成相关图片的一种技术。这项技术能够将用户提供的文字描述转化为相应的图像。

  2. Prompt :Prompt(引导词),是一段自然语言描述的文本,它作为AI模型的重要输入来指导模型生成内容。

  3. 图文匹配度 :图文匹配度(Image-Text Alignment or Image-Text Matching)是指图像和文本之间的语义一致性和相似度。在文生图(T2I)模型中,图文匹配度衡量的是模型生成的图像与给定文本描述之间的相关性和准确性。

  4. SOTA :“State Of The Art”的缩写,通常用于描述某个领域的最新发展,或某个产品、服务或解决方案的最新版本。


整体工作介绍

EvalMuse-40K 是一个包含40,000对图像-文本对和超过100万细粒度人类标注的Benchmark,旨在全面评估图文匹配度评估方法的性能和T2I模型在图像-文本对齐方面的表现。该Benchmark的构建过程既复杂又细致,我们通过精心设计的数据集和标注体系,力求能够更好的评估现有图文匹配度评估方法与人类偏好的一致性,并最大程度地反映T2I模型在实际应用中的表现。

我们的工作不仅仅是构建一个大规模的Benchmark,更包括了开发创新的评估算法 FGA-BLIP2以及PN-VQA ,旨在提高图文匹配度的评估精度与一致性。整体的工作架构图如下所示:

1.Benchmark介绍

EvalMuse-40K 是目前业界规模最大的文生图(T2I)评估数据库,包含40,000组图像-文本对数据和超过100万细粒度的人类标注,旨在全面评估图文匹配度评估方法的性能和T2I模型在图文匹配度上的表现。

EvalMuse-40K 的构建过程复杂而细致。我们首先从 DiffusionDB 中收集了2,000个真实用户的提示,这些提示反映了用户的多样化需求。同时,我们生成了2,000个合成提示,涵盖了物体数量、颜色、材质、环境设置、活动属性等多个方面,以全面评估T2I模型在不同任务中的表现。

接下来,我们使用20种不同的扩散模型生成了40,000张图像,确保了图像的多样性和质量。在数据标注阶段,我们对这些图像-文本对进行了细致的人工标注,涵盖图像-文本对齐评分、元素级别的匹配检查和结构问题标记。标注过程分为预标注、正式标注和重新标注三个阶段,以确保数据的可靠性和准确性。

与现有的文本到图像(T2I)模型的Benchmark相比, EvalMuse-40K 提供了一个更大规模、更细粒度的评估数据库。超过100万细粒度人类标注,使得 EvalMuse-40K 在数据集规模和多样性上远超许多现有Benchmark。与业界一些相关Benchmark的比较见下表:

为了确保 EvalMuse-40K 的可靠性和有效性,我们进行了全面的数据统计和深入分析。通过对图像-文本对齐分数的分布进行细致观察,我们发现这些分数覆盖了从低到高的广泛范围。这种多样化的分布不仅为我们提供了丰富的样本,也使得评估现有图像对齐度量与人类偏好之间的一致性成为可能。

此外,我们还对不同标注者之间的分数差异进行了详细计算,结果表明,75%的样本分数差异小于1分,这表明我们的标注过程在各标注者之间具有较高的一致性。对于那些分数差异较大的样本,我们进行了重新标注,以进一步减少主观偏差,确保标注的可靠性和准确性。

我们还对细粒度标注中的元素数量和对齐分数进行了统计分析,发现大多数类别的整体对齐分数都集中在50%左右,这一结果确保了正负样本的平衡分布,为后续的模型评估提供了稳定的数据基础。通过对这些细节的深入分析,我们能够更精确地评估模型在图像与文本对齐任务中的表现。

另外,我们发现AIGC模型在计数、活动等方面与文本描述的一致性相对较差,这一发现为未来的模型改进提供了重要的反馈。具体而言,模型在处理复杂的空间关系和多元素计数时容易出现偏差,而在描述动态活动场景时,模型的表现也不如预期。这些结果为未来研究和模型优化提供了明确的方向,帮助我们识别当前技术的局限性,并推动T2I模型在这些关键问题上进一步提升。

2.评估算法介绍

为了更准确地评估文本到图像生成(T2I)模型的性能,我们开发了两种最先进的评估算法: FGA-BLIP2 PN-VQA 。这两种方法都旨在提升图文匹配度评估的准确性,确保与人类评估结果的一致性。

FGA-BLIP2 是一种端到端的细粒度对齐评分模型,借助联合微调视觉-语言模型 BLIP2 来预测图像和文本之间的对齐程度。该模型有三个显著特点:首先,它能够直接从图像和文本对中学习对齐分数,实现端到端的训练流程;其次,它不仅评估图像与文本的整体的匹配度,还对文本中的各个元素进行细粒度的评估,确保评估结果更加全面和精确,模型架构如下图1所示。最后, FGA-BLIP2 采用了方差加权优化策略,使得模型在训练过程中更加关注那些对齐分数差异较大的样本,从而提升了评估的准确性和鲁棒性。

图1

根据下表1所示, FGA-BLIP2 在多个数据集上的评估结果显示,与人类标注的相关性最为接近,取得了最佳的评估表现。这证明了该模型在图文匹配度评估中的高效性和可靠性。

表1

FGA-BLIP2 打分示例,其中Result为综合图文匹配度打分,分值为1-5,分数越高,匹配度越好;Elescore为prompt中的考点元素的命中概率,如果在0.5以上,说明模型认为该考点元素可以在图像中匹配到。

prompt 图像 打分结果
A photograph of a lady practicing yoga in a quiet studio, full shot. JSON
"Result": 3.46,
"EleScore": {
"a lady": 0.62,
"photograph": 0.88,
"practicing": 0.57,
"quiet studio": 0.75,
"yoga": 0.73
}
The word 'START',Five letters JSON
"Result": 4.15,
"EleScore": {
"START": 0.79
}

PN-VQA







请到「今天看啥」查看全文