专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

从文字到视觉：EvalMuse-40K如何评价T2I模型的进化

PaperWeekly · 公众号 · 科研 · 2025-01-05 23:48

正文

©PaperWeekly 原创 · 作者 | 李重仪

单位 | 南开大学教授

研究方向 | 计算机视觉

前言

近年来，文生图（T2I）模型技术迅速发展，催生了 Dreamina、DALL·E3 和 Midjourney 等热门工具。它们能够精准理解用户的 prompt（提示词），将简短描述转化为高质量且富有美感和一致性的图像。

这一技术显著降低了创作门槛，提升了效率和趣味性，让艺术创作、广告设计及日常分享变得更加简单直观。文生图技术的普及，为数字内容创作开辟了全新可能性。

然而，评估这些模型的性能，特别是在图文匹配度方面，一直是一个挑战。传统评估方法已无法全面衡量图像与文本的匹配度，现有标准无法有效的捕捉细节偏差和一致性问题。

为解决这一问题，抖音多媒体质量实验室与豆包大模型团队及南开大学合作，推出了业界规模最大的文生图评估数据库——EvalMuse-40K。此外，还提出两种达到 SOTA 的图文匹配度评估算法——FGA-BLIP2 以及 PN-VQ。

利用 EvalMuse-40K，我们探索了现有图文匹配度评估方法与人类偏好的一致性，并使用提出的方法对现有 T2I 模型进行了评估和排序，为该领域提供了重要的参考和指导。

名词解释：

1. T2I：即 Text to Image，是在 AI 产品中通过文本输入指令生成相关图片的一种技术。这项技术能够将用户提供的文字描述转化为相应的图像。

2. Prompt：Prompt（引导词），是一段自然语言描述的文本，它作为 AI 模型的重要输入来指导模型生成内容。

3. 图文匹配度：图文匹配度（Image-Text Alignment or Image-Text Matching）是指图像和文本之间的语义一致性和相似度。在文生图（T2I）模型中，图文匹配度衡量的是模型生成的图像与给定文本描述之间的相关性和准确性。

4. SOTA：“State Of The Art” 的缩写，通常用于描述某个领域的最新发展，或某个产品、服务或解决方案的最新版本。

整体工作介绍

EvalMuse-40K 是一个包含 40,000 对图像-文本对和超过 100 万细粒度人类标注的 Benchmark，旨在全面评估图文匹配度评估方法的性能和 T2I 模型在图像-文本对齐方面的表现。

该 Benchmark 的构建过程既复杂又细致，我们通过精心设计的数据集和标注体系，力求能够更好的评估现有图文匹配度评估方法与人类偏好的一致性，并最大程度地反映 T2I 模型在实际应用中的表现。

我们的工作不仅仅是构建一个大规模的 Benchmark，更包括了开发创新的评估算法 FGA-BLIP2 以及 PN-VQA，旨在提高图文匹配度的评估精度与一致性。整体的工作架构图如下所示：

Benchmark 介绍

EvalMuse-40K 是目前业界规模最大的文生图（T2I）评估数据库，包含 40,000 组图像-文本对数据和超过 100 万细粒度的人类标注，旨在全面评估图文匹配度评估方法的性能和 T2I 模型在图文匹配度上的表现。

EvalMuse-40K 的构建过程复杂而细致。我们首先从 DiffusionDB 中收集了 2,000 个真实用户的提示，这些提示反映了用户的多样化需求。同时，我们生成了 2,000 个合成提示，涵盖了物体数量、颜色、材质、环境设置、活动属性等多个方面，以全面评估 T2I 模型在不同任务中的表现。

接下来，我们使用 20 种不同的扩散模型生成了 40,000 张图像，确保了图像的多样性和质量。在数据标注阶段，我们对这些图像-文本对进行了细致的人工标注，涵盖图像-文本对齐评分、元素级别的匹配检查和结构问题标记。标注过程分为预标注、正式标注和重新标注三个阶段，以确保数据的可靠性和准确性。

与现有的文本到图像（T2I）模型的 Benchmark 相比，EvalMuse-40K 提供了一个更大规模、更细粒度的评估数据库。超过 100 万细粒度人类标注，使得 EvalMuse-40K 在数据集规模和多样性上远超许多现有 Benchmark。与业界一些相关 Benchmark 的比较见下表：

为了确保 EvalMuse-40K 的可靠性和有效性，我们进行了全面的数据统计和深入分析。通过对图像-文本对齐分数的分布进行细致观察，我们发现这些分数覆盖了从低到高的广泛范围。这种多样化的分布不仅为我们提供了丰富的样本，也使得评估现有图像对齐度量与人类偏好之间的一致性成为可能。

此外，我们还对不同标注者之间的分数差异进行了详细计算，结果表明，75% 的样本分数差异小于 1 分，这表明我们的标注过程在各标注者之间具有较高的一致性。对于那些分数差异较大的样本，我们进行了重新标注，以进一步减少主观偏差，确保标注的可靠性和准确性。

我们还对细粒度标注中的元素数量和对齐分数进行了统计分析，发现大多数类别的整体对齐分数都集中在 50% 左右，这一结果确保了正负样本的平衡分布，为后续的模型评估提供了稳定的数据基础。通过对这些细节的深入分析，我们能够更精确地评估模型在图像与文本对齐任务中的表现。

另外，我们发现 AIGC 模型在计数、活动等方面与文本描述的一致性相对较差，这一发现为未来的模型改进提供了重要的反馈。具体而言，模型在处理复杂的空间关系和多元素计数时容易出现偏差，而在描述动态活动场景时，模型的表现也不如预期。

这些结果为未来研究和模型优化提供了明确的方向，帮助我们识别当前技术的局限性，并推动 T2I 模型在这些关键问题上进一步提升。

评估算法介绍

为了更准确地评估文本到图像生成（T2I）模型的性能，我们开发了两种最先进的评估算法：FGA-BLIP2 和 PN-VQA。这两种方法都旨在提升图文匹配度评估的准确性，确保与人类评估结果的一致性。

FGA-BLIP2 是一种端到端的细粒度对齐评分模型，借助联合微调视觉-语言模型 BLIP2 来预测图像和文本之间的对齐程度。

该模型有三个显著特点：首先，它能够直接从图像和文本对中学习对齐分数，实现端到端的训练流程；其次，它不仅评估图像与文本的整体的匹配度，还对文本中的各个元素进行细粒度的评估，确保评估结果更加全面和精确，模型架构如下图 1 所示。

最后，FGA-BLIP2 采用了方差加权优化策略，使得模型在训练过程中更加关注那些对齐分数差异较大的样本，从而提升了评估的准确性和鲁棒性。

▲ 图1

根据下表 1 所示，FGA-BLIP2 在多个数据集上的评估结果显示，与人类标注的相关性最为接近，取得了最佳的评估表现。这证明了该模型在图文匹配度评估中的高效性和可靠性。

▲ 表1

FGA-BLIP2 打分示例，其中 Result 为综合图文匹配度打分，分值为 1-5，分数越高，匹配度越好；Elescore 为 prompt 中的考点元素的命中概率，如果在 0.5 以上，说明模型认为该考点元素可以在图像中匹配到。

prompt	图像	打分结果
A photograph of a lady practicing yoga in a quiet studio, full shot.		JSON 'Result': 3.46, 'EleScore': { 'a lady': 0.62, 'photograph': 0.88, 'practicing': 0.57, 'quiet studio': 0.75, 'yoga': 0.73 }
The word 'START'，Five letters		JSON 'Result': 4.15, 'EleScore': { 'START': 0.79 }

PN-VQA（Positive-Negative Visual Question Answering）是一种用于评估文本到图像生成模型性能的方法，借助预训练的多语言视觉问答模型（MLLM）来衡量生成图像与输入文本之间的对齐程度。这种方法的创新之处在于引入了正负问答机制，从而提升评估的准确性和鲁棒性。

具体而言，我们首先利用 GPT 对生成图像所使用的 prompt 中的细粒度信息进行问题生成，确保生成的问题为简单的判断题，能够有效判断细粒度信息与图像是否匹配。例如，如果 prompt 是 “a cat sitting on a mat”，生成的问题可能是 “Is there a cat in the image?”，生成的答案则为 “Yes”。

通过这种方式，我们能够精准地判断图像与细节文本之间的对齐情况，从而为模型的评估提供更细致、可靠的依据。接下来，我们构建了正负 VQA 内容，并进行了相关实验，以进一步验证该方法的有效性和优势。

JSON
正向：Given an image generated from 'a cat sitting on a mat' , is the answer to 'is there a cat in the image?' in this image yes?
负向：Given an image generated from 'a cat sitting on a mat' , is the answer to 'is there a cat in the image?' in this image no?

正向 VQA 问题的预期答案为 “yes”，而负向 VQA 问题的预期答案为 “no”。我们分别计算多语言视觉问答模型（MLLM）对这两类问题输出预期答案的概率，然后取其平均值作为最终的细粒度匹配分数。

这种方法有效地减少了模型在输出 “yes” 或 “no” 时可能存在的偏好，从而获得了一个更加平衡且鲁棒的评估结果。下表 2 展示了我们提出的 PN-VQA 各个模块的有效性。