专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
机器之心  ·  自有歪果仁为DeepSeek「辩经」:揭穿围 ... ·  2 天前  
爱可可-爱生活  ·  【Let's Build a Simple ... ·  2 天前  
宝玉xp  ·  //@5ilunch:好的应用会给出质量高的 ... ·  3 天前  
人工智能那点事  ·  登山助力机器人在泰山试用!网友:感觉我又行了 ·  4 天前  
51好读  ›  专栏  ›  新智元

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

新智元  · 公众号  · AI  · 2024-11-06 12:57

正文



新智元报道

编辑:LRST
【新智元导读】 VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。


近年来,生成式人工智能(AIGC)引发广泛关注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。


然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追黑色的狗」时,模型可能会错误生成两只黑狗,或将「追逐」误解为两只狗在「玩耍」。



有什么办法可以自动发现这些模型的不足,并进一步提升它们呢?


为解决这一问题,CMU和Meta团队联合推出了全新的评估指标VQAScore及基准GenAI-Bench,用于自动评估图像、视频和3D生成模型在复杂提示词下的表现。


ECCV’24论文链接:: https://arxiv.org/abs/2404.01291

CVPR’24 SynData最佳论文链接: https://arxiv.org/abs/2406.13743

论文代码: https://github.com/linzhiqiu/t2v_metrics

模型下载: https://huggingface.co/zhiqiulin/clip-flant5-xxl

VQAScore模型: https://huggingface.co/zhiqiulin/clip-flant5-xxl

GenAI-Bench数据集: https://huggingface.co/datasets/BaiqiL/GenAI-Bench


这些成果已在ECCV和CVPR等顶会上发表,并被谷歌DeepMind用于评估其最新的Imagen3模型,被誉为当前文生图领域超越CLIP等模型的最佳评估方案!


背景介绍


近年来,文生图模型(如DALL-E 3、Imagen3、Sora等)发展迅速,但如何准确评估这些模型的表现仍是一个关键问题。


尽管许多公司采用人类评估(Human Evaluation)来提升结果的准确性,但这种方式成本高、难以大规模应用,而且缺乏可复现性。


在图片生成领域,已有多种方法使用模型来自动评估(Automated Evaluation)生成图像的表现,其中常见的指标包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。


然而,这些指标真的足够好吗?


现有自动化指标的不足


在评估两张图片的相似性(similarity)时,传统指标LPIPS等方法依靠预训练的图像编码器,将图像特征嵌入后再计算距离。然而,这类方法只能评估图像与图像之间的相似度(image-to-image metric),而无法判断文本和图像之间的相似度(text-to-image metric)。


为了解决这一问题,当前主流的文生图评估采用了CLIPScore,通过独立的图像编码器和文本编码器,将图像和文本嵌入到同一特征空间,并通过计算特征相似度来判断它们的匹配程度。



然而,CLIPScore存在严重的「bag-of-words」问题:也就是说,CLIP在处理文本时可能忽略词序,混淆像「月亮在牛上面」和「牛在月亮上面」这样的句子。这使得模型难以准确抓住复杂文本中的关键信息。


为了解决这一问题,CMU和Meta的研究团队提出了VQAScore,采用更强大的生成式VQA模型(如GPT-4o)来更准确地评估文生图模型:



VQAScore:一种简单有效的评估指标


研究团队基于GPT-4o等用于视觉问答(VQA)任务的生成式视觉语言模型,将图像与提示词之间的相似度定义为模型在回答「这个图像是否显示了[提示词]?请回答是或否。」时给出「是」(Yes)答案的概率:



例如,在计算某张图像与提示词「牛在月亮上面」之间的相似度时,VQAScore会将图像和问题「这个图像是否显示了『牛在月亮上面』?请回答是或否。」输入模型,并返回模型选择「是」的概率。



另外,研究团队发现,当前主流的VQA模型(如LLaVA-1.5)使用了具备单向(auto-regressive)注意力机制的语言模型(如Llama)。这种机制导致模型在提取图像特征时,无法提前获取提示词的完整信息。


为了更有效的提取视觉特征,研究团队使用开源数据训练了一个更强的CLIP-FlanT5 VQA模型。该模型采用了具备双向注意力机制的语言模型FlanT5,使得图像特征提取能够根据输入的提示词动态调整。


研究表明,这一机制在提升VQA模型对复杂提示词的理解方面效果显著。



VQAScore比主流评估指标更简单高效。许多传统指标依赖大量人类标注(如 ImageReward、PickScore)或私有模型(如GPT-4Vision)才能取得好表现。


相比之下,VQAScore具备以下核心优势:


1. 无需人类标注:VQAScore能直接利用现有的VQA模型取得优异表现,无需在人工标注数据上进行额外微调。


2. 分数更精准:使用GPT-4给图片打分(如在0到100之间打分)时,模型往往会随意给出高分(如90),而忽略图片的真实质量。相比之下,VQAScore使用概率值来判断图片与提示词的相似度,结果更加精确。


VQAScore实验结果


研究人员在大量复杂图文匹配基准(如Winoground和EqBen)以及文生图评估基准(如Pick-a-pic和TIFA160)上对VQAScore进行了测试。


结果显示,VQAScore在所有图像、视频和3D生成任务的基准上超越了CLIPScore等流行指标,取得了最佳表现。




值得注意的是,VQAScore采用了开源模型(CLIP-FlanT5),却仍大幅超越了使用更强闭源模型(如PALI-17B和GPT-4)的方法(如VQ2、ViperGPT 等)。


此外,VQAScore也超越了依赖提示分解进行视觉推理的先进方法(如 CVPR'23最佳论文Visual Programming和ViperGPT等),进一步验证了端到端评估方案的有效性。


最新的谷歌DeepMind Imagen3报告还指出,使用更强大的VQA模型(如 Gemini)可以进一步提升VQAScore的表现,凸显了其在未来生成式模型评测中的潜力。



GenAI-Bench:由设计师收集的高难度文生图基准


为了更好地评估文生图模型及其评估指标的性能,研究团队推出了GenAI-Bench。该基准包含1600个由设计师收集的复杂提示词,覆盖了10种生成模型(如DALL-E 3、Midjourney、SDXL等),并配有超过80,000条人工标注。



GenAI-Bench相比较之前的基准有以下优势:


1. 更具挑战性:研究表明,大多数文生图/视频模型在GenAI-Bench上表现仍有不足,还有大量的提升空间。


2. 避免空洞词汇:所有提示词均经过严格筛选,避免使用假大空的词语,确保评估更具客观性。


3. 细粒度技能分析:GenAI-Bench能提供更细致的技能分类和分析,帮助研究人员深入了解模型在不同能力上的具体表现。



GenAI-Rank:用VQAScore来提升文生图表现







请到「今天看啥」查看全文