0. 论文信息
标题:Beyond Aesthetics: Cultural Competence in Text-to-Image Models
作者:Nithish Kannen, Arif Ahmad, Marco Andreetto, Vinodkumar Prabhakaran, Utsav Prabhu, Adji Bousso Dieng, Pushpak Bhattacharyya, Shachi Dave
机构:Google Research、Google DeepMind、IIT Bombay、IIT Bombay
原文链接:https://www.arxiv.org/abs/2407.06863
代码链接:https://github.com/google-research-datasets/cube
1. 摘要
文本到图像(T2I)模型正越来越多地被多样化的全球社区所采用,在这些社区中,他们创建了自己独特文化的可视化表示。当前的T2I基准主要关注生成图像的忠实性、审美性和真实性,忽略了文化能力的关键维度。在这项工作中,我们引入了一个框架来评估T2I模型在两个关键维度上的文化能力:文化意识和文化多样性,并提出了一个可扩展的方法,使用结构化知识库和大型语言模型的组合来建立一个大型文化制品数据集,以实现这种评估。特别地,我们应用这种方法来构建CUBE(文本到图像模型的文化基准),这是第一个用于评估T2I模型的文化能力的基准。CUBE涵盖了与不同地理文化区域的8个国家和3个概念相关的文物:美食、地标和艺术。CUBE包括1) CUBE-1K,这是一组能够评估文化意识的高质量提示,以及2) CUBE-CSpace,这是一个更大的文物数据集,用作评估文化多样性的基础。我们还引入文化多样性作为一个新的T2I评估组件,利用质量加权Vendi评分。我们的评估揭示了各国现有模型在文化意识方面的显著差距,并为不太明确的提示提供了对T2I输出的文化多样性的宝贵见解。我们的方法可以扩展到其他文化区域和概念,并且可以促进更好地迎合全球人口的T2I模型的开发。
2. 引言
近年来,文本到图像(T2I)的生成能力取得了飞速发展,以Stable Diffusion-XL、Imagen 2和DALLE-3等模型为代表。作为创意表达和沟通的强大工具,它们有潜力颠覆数字艺术、广告和教育等众多行业。然而,这些模型在全球范围内的广泛应用引发了重要的伦理和社会考量,特别是在确保这些模型能够为世界各地所有人群提供良好服务方面。早期的T2I模型评估主要集中在照片逼真度和忠实度/准确性上,而最近的研究则揭示了这些模型所反映的各种社会偏见。然而,这些模型主要基于单一文化的发展生态系统,可能导致文化意识在其中的不平等体现,进而可能加剧现有的技术不平等。尽管“文化”一词在不同学科中有多种定义,但本文我们关注的是通过国家边界在地理上划分的社会内部形成的文化,而不是通过组织或其他社会人口统计类别定义的文化。这一关注点的出发点是我们旨在评估T2I模型在能力上的全球差异。这些差异被证明会延续关于文化的有害偏见和刻板印象,并导致亚文化和共文化的消失和压制,以及限制其在不同地理文化背景下的实用性。虽然最近的研究构建了评估资源,以检测这些模型传播的不同文化群体所存在的各种偏见和刻板印象,但很少有工作研究这些模型在捕捉各种文化的丰富性和多样性方面的能力。
在本文中,我们提出了CUBE:CUltural BEnchmark,这是一个首创的基准测试,旨在从文化意识和文化多样性两个维度评估文本到图像(T2I)模型的文化能力。我们在国家层面构建了这个基准测试(与其他近期工作(Jha et al., 2024; Li et al., 2024c)一致),涵盖了八个国家,并代表了三个不同的文化艺术品概念,这些概念被选为具有明确视觉元素的概念,因此对T2I模型至关重要。对于这三个概念中的每一个,我们都采用了一种大规模提取策略,该策略利用知识图谱(KG)和大型语言模型(LLM)的增强功能,构建了一个涵盖国家特定概念/艺术品的广泛汇编,以支持我们的评估。CUBE包括a)CUBE-1K——一个精心挑选的包含1000件艺术品的子集,这些艺术品被制作成提示,通过人工标注来评估文化意识,以及b)CUBE-CSpace——一个包含我们考虑的8个国家和3个概念的30万件文化艺术品的集合。收集此资源的方法可以扩展到其他概念和地理文化。此外,我们引入了文化多样性(CD)作为T2I模型的一个新的评估组件,该组件采用了质量加权的Vendi分数。
推荐课程:
基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]
3. 效果展示
这种文化能力上的差距可能主要体现在模型生成的两个方面:(i)文化意识:无法识别或生成与某种文化相关的广泛概念/艺术品(如图1(c)和1(d)所示),以及(ii)文化多样性:倾向于采用过于简化和同质化的文化观点,将(并生成)该文化内部或全球文化范围内的一组狭窄的概念/艺术品(如图1(b)和1(a)所示)。尽管之前已有文献记录了文本到图像模型在文化意识方面的不足,但有效评估其在大规模上的文化意识所面临的主要挑战是缺乏具有广泛文化艺术品代表性的资源。同样,虽然数据集多样性也被认为是数据驱动AI议程的重要组成部分,并且已经针对文本和图像模态进行了研究,但对模型生成多样性的关注却有限,特别是对于T2I模型。虽然研究图像生成多样性的工作侧重于视觉相似性,但我们研究的是生成文化艺术品的多样性(即文化多样性)。
4. 主要贡献
我们的主要贡献包括:
• 一个新的T2I文化基准测试(CUBE),从两个关键维度评估T2I模型的文化能力:(1)文化意识和(2)文化多样性。我们策划了一个包含30万件文化艺术品的数据集,涵盖三个概念,并有可能扩展到其他概念。
• 一项广泛的人工评估,测量了八个国家和三个概念下T2I生成的文化艺术品的忠实度和逼真度,揭示了文化意识方面的巨大差距。
• 一个利用质量加权Vendi分数的新型T2I评估组件,该组件满足评估T2I模型中文化多样性的理想属性。
5. 构建CUBE
我们的基准测试旨在针对两种截然不同但又相辅相成的行为,为文本到图像的生成模型提供可靠、可信且可量化的评估:文化意识(即模型可靠且准确地描绘与特定文化相关的对象的能力)和文化多样性(即模型抑制对未明确指定的、引用特定文化的输入的过度简化的刻板描绘的能力)。有意义地评估这些文化能力方面的核心前提之一是拥有一个广泛覆盖的文化概念/文物存储库,以支撑此类评估。受先前工作的启发,我们专注于地域文化(通过国家身份这一视角来实现),以构建这样的存储库,并可能扩展到其他文化分类方式,如地区、宗教、种族等。我们从不同地域文化区域、横跨各大洲以及全球南北分界线的国家中选择了八个国家:巴西、法国、印度、意大利、日本、尼日利亚、土耳其和美国。虽然我们承认这份国家列表必然是不完整的,并可能导致全球样本的偏差,但未来版本的研究可以纳入更多国家,以进行更全面的评估。
此外,我们专注于独特的文物,即那些引用具有明确视觉元素的单一真实对象的文化方面,这些对象通常被视为属于特定国家——与那些不可视化(如语音口音)或多样化(如复杂场景或独特的对象间关系)的文化表现形式相反。这里包括的三类文物(“概念”)是地标(位于特定国家的突出且可识别的结构,如纪念碑和建筑)、艺术(可能与历史上某个特定时期相关的服装和地区服饰或传统服饰、表演艺术和绘画风格)和美食(通常与某些国家相关联的特定菜肴和烹饪食材)。实际上,对于艺术和美食类别,我们还将“原产国”视为国家关联性的重要指标,同时承认可能还存在其他因素。
最后,对于每个国家-概念组合,我们旨在构建基础“概念空间”,从而收集到30万个文化文物,我们称之为CUBE-CSpace。这是一个广泛的概念空间实例汇编,也旨在用作多样性评估的基础。在此基础上,我们创建了CUBE-1K:一个更小、经过精心挑选的、包含8个国家和3个概念的1000个文物的集合——这些文物因相关性和受欢迎程度而被选中,旨在用于测试文化意识。CUBE-1K按国家和概念的划分情况如表8所示。为了构建CUBE,我们采用了一种知识库(KB)增强的大型语言模型(LLM)方法,其中我们在现有的KB上进行图遍历,以提取广泛覆盖的候选文化文物集合,随后通过自我批判的LLM步骤迭代完善存储库。
6. 实验结果
为了评估文本到图像(T2I)模型的文化意识,我们利用了CUBE-1K数据集中的提示。我们采用传统的T2I评估方面,如忠实性(生成图像对输入提示的遵循程度)和真实性(生成图像与真实照片的相似度),来衡量文化意识。传统上,这些方面是通过如DSG和FID等自动化指标来衡量的。然而,这些指标在捕捉文化表现的复杂性方面证明是不足的。现有的自动化指标主要是在缺乏多元文化内容的数据集上进行训练的,因此在充分评估文化元素的细微差别方面存在困难。因此,我们引入了一种专门为衡量模型在两个关键维度上的文化意识而设计的人工标注方案:a) 忠实性和b) 真实性。
为了评估T2I模型的文化意识,我们向人工标注者提出了与T2I评估中使用的标准指标类似的问题:a) 忠实性和b) 真实性(也称为保真度)。每位标注者都被展示了一个由AI生成的文物图像、相应的描述以及与之相关的国家,并被要求回答以下问题:
文化相关性:仅根据图像,所描绘的物品是否属于标注者所在国家的文化?(是/否/可能)
忠实性:如果图像来自标注者所在国家,它与文本描述中的物品匹配程度如何?(1-5分,李克特量表)
真实性:无论忠实性如何,图像看起来有多真实?(1-5分,对于≤3分的评分可选择性提供评论)
我们从每个考虑的国家招募了不同群体的评分者。每个评分者群体都接受了全面的培训,并被提供了一套“金标准”示例作为参考。重要的是,评分者在评估文化相关性时仅关注视觉方面,而在评估忠实性时则同时考虑图像和文本。真实性的评估则独立于相关性和忠实性。使用的界面如图4所示。
我们在所有国家对于文化相关性问题的评分者间一致性都很高(均在95%以上;见表11),这表明判断一幅图像是否与特定文化相关是一个相对客观的任务。然而,在忠实性和真实性问题上,标注者之间的一致性处于中等至低水平(特别是法国和土耳其),这与该任务相对复杂和主观的性质相一致(边缘案例示例见表13)。我们使用Krippendorff的α系数来衡量一致性,该系数更适合于李克特量表的有序值。
7. 总结 & 未来工作
我们引入了CUBE,这是一个新的文本到图像(T2I)基准,用于从两个关键维度评估T2I模型的文化能力:文化意识和文化多样性。我们提出了一种可扩展的方法论,其潜力可能超越本文所考虑的八个国家和三个概念的范围。此外,我们提出了一种新颖的T2I评估组件:文化多样性(CD),并使用质量感知的Vendi分数对其进行测量。我们进行的全面人工评估揭示了不同文化和概念之间在文化意识方面存在的巨大差距,以及模型生成在地缘文化多样性方面的不足。我们的相关性分析揭示了一个值得注意的趋势:虽然保真度和现实感之间存在中等程度的正相关,表明它们可以同时提高,但文化多样性与这些指标的相关性仍然较弱。这强调了在T2I模型开发过程中明确将多样性作为关键目标进行优先考虑的必要性。未来,我们计划将该资源扩展到更广泛的概念和国家范围,并探索该技术如何更好地应用于其他文化视角。通过突出T2I模型在文化能力方面的现有局限性,我们相信我们的工作有助于围绕真正包容性生成式AI系统的发展展开关键对话。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉知识星球