专栏名称: 萜心话
萜(tiē)妹,HUST管理学在读博士生。这里有我的学习笔记和生活日常,每周日更新。
51好读  ›  专栏  ›  萜心话

NHB丨人智反馈循环如何加剧偏见

萜心话  · 公众号  · 科技媒体  · 2024-12-22 23:31

主要观点总结

本文研究了人工智能(AI)与人类交互如何改变人类感知、情感和社会判断背后的过程,进而加剧人类偏见。作者通过一系列实验(N=1401)发现,与有偏见的AI互动会放大人类偏见,这种效应比人与人互动时更为显著。实验结果表明,AI在训练于有偏见的人类数据上时,其偏见会被放大,且这种偏见会被人类进一步内化,形成“滚雪球效应”。此外,参与者往往没有意识到AI影响的程度,从而更容易受其左右。研究还揭示了真实世界中的生成式AI系统,如Stable Diffusion,会放大社会不平等,并诱导人类偏见。

关键观点总结

关键观点1: AI与人类交互如何改变人类判断

实验揭示了与有偏见的AI互动会放大人类偏见,这种效应比人与人互动时更为显著。

关键观点2: AI偏见如何被人类内化

AI的偏见被人类进一步内化,形成“滚雪球效应”,即小的判断失误会不断升级,变成更大的错误。

关键观点3: 参与者对AI影响的意识

参与者往往没有意识到AI影响的程度,从而更容易受其左右。

关键观点4: 真实世界中的生成式AI如何诱导人类偏见

Stable Diffusion等生成式AI系统放大了社会不平等,并诱导人类偏见。


正文

Nature Human Behaviour新鲜出炉的一篇文章,速速来和小可爱们分享~

文章超长,建议先码后看!

Glickman, M., & Sharot, T. (2024). How human–AI feedback loops alter human perceptual, emotional and social judgements. Nature Human Behaviour. https://doi.org/10.1038/s41562-024-02077-2

摘要

人工智能(AI)技术正在迅速发展,增强了人类在金融、医学等多个领域的能力。尽管其优势众多,但人工智能系统在感知到情感等多个领域都可能会表现出有偏见的判断。在本文中,作者开展了一系列实验(N=1401),揭示了人与AI的交互如何改变人类感知、情感和社会判断背后的过程,进而加剧人类的偏见。与人际交互相比,这种偏见的加剧效应更为显著,原因既在于AI系统倾向于放大偏见,也在于人类对AI系统的认知方式。参与者往往没有意识到AI影响的程度,从而更容易受其左右。这些发现揭示了一种机制:AI系统会放大偏见,而人类会进一步内化这些偏见,导致“滚雪球效应”,即小的判断失误会不断升级,变成更大的错误。

Artificial intelligence (AI) technologies are rapidly advancing, enhancing human capabilities across various fields spanning from finance to medicine. Despite their numerous advantages, AI systems can exhibit biased judgements in domains ranging from perception to emotion. Here, in a series of experiments (n = 1,401 participants), we reveal a feedback loop where human–AI interactions alter processes underlying human perceptual, emotional and social judgements, subsequently amplifying biases in humans. This amplification is significantly greater than that observed in interactions between humans, due to both the tendency of AI systems to amplify biases and the way humans perceive AI systems. Participants are often unaware of the extent of the AI’s influence, rendering them more susceptible to it. These findings uncover a mechanism wherein AI systems amplify biases, which are further internalized by humans, triggering a snowball effect where small errors in judgement escalate into much larger ones.

研究内容与研究概述

随着AI与人类互动的日益普遍,其对人类信念的影响成为了一个重要的研究议题。尽管已有大量研究描述了人类如何相互影响,但AI对人类的影响可能在性质和程度上都有所不同。这在一定程度上是因为AI的判断与人类判断在多个方面存在差异(例如,AI的判断往往噪声更少),同时也因为人类可能将AI的判断与其他人的判断区别对待。本文探讨了人类-AI互动如何影响人类的认知,特别是揭示了当人类与有偏见的AI系统频繁互动时,他们自身的偏见也会加剧。我们在一系列领域和算法中都证明了这一点,其中包括一个广泛使用的真实世界文本到图像的AI系统。

现代AI系统依赖机器学习算法,如卷积神经网络(CNN)和变换器,在多个领域显著增强了人类的自然能力。然而,AI系统也可能自动化、延续、甚至放大现有的人类偏见。随着越来越多的关键决策涉及AI和人类的合作,这些互动提供了一个机制,使得有偏见的AI系统能够改变人类的信念,使他们变得更加偏见。尽管这一问题已经得到确认,但关于AI对人类信念潜在影响的实证研究仍然不足。

偏见被定义为判断中的系统性错误,主要源于算法训练数据集中固有的人类偏见,以及当数据代表性不均。当人类与这些有偏见的AI系统互动时,他们可能会从中学到偏见。当人类与这些系统互动时,可能会从中学到偏见。此外,即使个人没有直接与AI系统互动,只是观察其输出,也可能导致人类偏见被放大。AI生成的内容在网上广泛传播,对用户的影响可能超出直接用户范围,对人类偏见产生更广泛的影响。

通过一系列研究,本文证明了当人类与AI互动时,即使是微小的感知、情感和社会偏见,也会使人类的信念更加有偏见,潜在地形成一个反馈循环。AI对人类信念的影响随时间逐渐显现,且人与AI互动中的偏见放大效应比人与人互动中更显著,这既是因为人类对AI的感知,也是因为AI判断的独特特性。特别是,由于拥有强大的计算能力,AI系统可能比人类更敏感于数据中的微小偏见,因此更有可能利用这些偏见来提高预测的准确性,尤其是在数据存在噪声的情况下。因此,AI的判断噪声少、信噪比高,使人类能快速学习,即使信号有偏见。因此,如果AI被认为优于人类,学习其偏见也可以被认为是完全理性的。但只有当系统中已经存在偏见时,才会发生偏见的放大;当人类与准确的AI系统交互时,人类判断会得到改善。

研究结果

人类-AI反馈循环可以放大人类的偏见

我们首先收集人类在情绪聚合任务中的数据,在这个任务中人类判断略有偏见。然后我们展示了在略带偏见的数据集上训练AI算法不仅会导致算法采用偏见,还会进一步放大它。接下来,我们展示了当人类与有偏见的AI互动时,他们的初始偏见增加了(图1a;人类-AI互动)。这种偏见放大在只包括人类参与者的互动中没有发生(图1b;人类-人类互动)

人类会表现出微小的判断偏见

50名参与者执行了一项情绪聚合任务。在100次试验中,参与者都会短暂(500毫秒)看到一个包含12张面孔的阵列,并被要求判断该阵列中面孔所表达的平均情绪是更悲伤还是更快乐(如图1a所示)。这些面孔是从一个包含50张通过线性插值悲伤和快乐表情创建而成的变形面孔数据集中抽取的。根据变形比例,每张面孔的排名从1(代表100%悲伤的面孔)到50(代表100%快乐的面孔)不等。这些排名与参与者逐一观察每张面孔时的自我排名密切相关。我们为每位参与者创建了100个独特的12张面孔阵列。其中,一半阵列中12张面孔的平均排名小于25.5,因此该数组更悲伤;而另一半则大于25.5,该数组更快乐。

在该任务中,偏见被定义为参与者在所有试验中的平均反应与实际平均值之间的差异。由于反应被编码为1(代表更悲伤)或0(代表更快乐),且试验中更悲伤和更快乐的阵列各占一半,因此任务中的实际平均值为0.5。从数学角度来看,偏见可以表示为:

其中i从1到n,n表示数据点的总数,Ci表示分配给每个数据点的分类,Ci=1表示更悲伤的分类,Ci=0表示更快乐的分类。

正偏见表示参与者倾向于将反应分类为更悲伤,而负偏见则表示倾向于将反应分类为更快乐。例如,如果参与者将70%的阵列分类为更悲伤,则他们的偏见为0.7-0.5=0.2;而如果他们将30%的阵列分类为更悲伤,则他们的偏见为0.3-0.5=-0.2。

结果显示,参与者表现出轻微但显著的趋势,即倾向于认为面孔更悲伤,这与之前的研究一致,即在较短的编码时间下,人们更可能将模糊的情绪解读为负面。特别是,他们将53.08%的阵列分类为更悲伤,这一比例显著高于随机预期(见图1e的绿圈)。此外,第一块的偏见远大于后续块,这表明参与者随着时间的推移逐渐纠正了他们的偏见。

AI在有偏见的人类数据上训练放大了偏见

接下来,我们利用CNN对每组面孔进行分类,判断其情绪是更快乐还是更悲伤。实验结果显示,CNN放大了人类参与者在分类时表现出的偏见。为了验证模型的准确性,我们首先使用基于阵列客观排名分数的类别标签(非人类标签)对模型进行训练,训练数据为呈现给参与者的5,000组阵列(即50名参与者每人100组阵列)。随后,在包含300个样本的外部测试集上评估模型性能,结果显示分类准确率高达96%,这表明在非偏见数据上训练的模型能够高度准确地预测结果,且不会展现出偏见。

接着,我们采用基于人类分类的类别标签对模型进行训练(包含5,000个样本的阵列,如图1a所示),并在另一个包含300个样本的外部测试集上进行评估。结果显示,模型在65.33%的情况下将平均情绪归类为更悲伤,尽管实际上只有50%的阵列表达的是更悲伤的情绪。这一比例显著高于随机预期(见图1e中的蓝圈),并且也显著超过了在人类数据(水平1)中观察到的53%的偏见。简而言之,AI算法显著放大了其训练数据中固有的人类偏见。对于采用不同架构的CNN,包括ResNet50,也观察到了类似的结果。

AI偏见放大的一个可能原因是模型会利用数据中的偏见来提高预测准确性,这在数据存在噪声或不一致时尤为明显。为了验证这一假设,我们使用两组新的标签重新训练了模型。第一组使用非嘈杂标签(即基于阵列的客观排名分数),但人为地引入了3%的偏见,使得53%的标签被归类为更悲伤。第二组则使用非常嘈杂的标签(随机标签),并同样引入了3%的偏见。如果噪声是导致偏见放大的原因,那么后者训练出的模型偏见应该高于前者。实验结果支持了这一假设:在准确标签上训练的模型平均偏见恰好为3%,而在带有3%偏见的随机标签上训练的模型平均偏见则高达50%(即模型将所有阵列都归类为更悲伤)。这些结果表明,CNN模型的偏见放大与数据中的噪声密切相关。

与有偏见的AI互动增加了人类偏见

接下来,我们探究了与有偏见的AI算法互动是否会改变人类的判断(图1a的水平3)。为此,我们首先测量了参与者在情绪聚合任务中的基线表现,共进行了150次试验,以便后续比较他们与AI互动后的判断变化。与水平1的结果相似,我们发现参与者最初表现出一定的偏见(第一块试验中平均有52.23%的阵列被归类为更悲伤),但在后续块中这一比例有所下降(第二至第五块试验中平均有49.23%的阵列被归类为更悲伤)随后的问题是,与AI互动是否会导致人类偏见重新出现甚至加剧?

为了验证这一假设,在每次300次试验中,参与者首先判断一组12张面孔的情绪是更悲伤还是更快乐。然后,他们被展示AI对同一组面孔的判断(参与者被告知他们“将被呈现一个被训练来执行这项任务的AI算法的响应”)。接着,他们被询问是否想要更改自己的初始判断。结果显示,当AI提供不同判断时,参与者有32.72%(±2.3% s.e.)的比例改变了自己的判断;而当AI提供相同判断时,这一比例仅为0.3%(±0.1% s.e.),两者差异显著。进一步的研究表明,当不与任何关联者互动时,参与者仅在3.97%的试验中改变了自己的决定,这一比例低于与持不同意见的AI互动时的比例,但高于与持相同意见的AI互动时的比例

然而,我们主要关注的是,与AI互动后,参与者对一组面孔(在观察到AI对该组面孔的判断之前)的判断是否由于先前的互动而变得越来越有偏见。换句话说,参与者是否在与AI互动的过程中学会了变得更加有偏见?实验结果显示,在基线块中,参与者平均有49.9%(±1.1% s.e.)的阵列被归类为更悲伤,而与AI互动后,这一比例显著增加到56.3%(±1.1% s.e.)。学习到的偏见随着时间的推移而加剧:在第一块互动试验中仅为50.72%,而在最后一块互动试验中则达到了61.44%。这一偏见的增加通过线性混合模型得到了证实,该模型预测随着块号的增加,更悲伤分类的比例也会相应提高,同时考虑了参与者级别的随机截距和斜率。这些结果揭示了一个算法偏见反馈循环:在略带偏见的人类数据上训练的AI算法会放大这种偏见,而随后人类与这个算法的互动又会进一步加剧人类的初始偏见水平,从而形成了一个反馈循环

人类-人类互动没有放大偏见

接下来,我们探究了在仅限于人类之间的互动中,是否会发生相同程度的偏见传播。为此,我们沿用了先前的互动结构,但将AI系统替换为人类参与者(见图1b)。结果显示,人类表现出了一定程度的判断偏见,但相对轻微。

人类表现出很小的判断偏差

在人类-人类互动中,所使用的响应与上述人类-AI互动保持一致。

在人类数据上训练的人类没有放大偏见

进一步地,我们尝试在人类数据上训练人类,以观察偏见是否被放大,这在概念上与AI算法的训练相似。在此环节,参与者需浏览100组各含12张面孔的阵列。他们被告知,将看到其他先前执行过此任务的参与者的响应。对于每组100个阵列,他们观察到的是从水平1中伪随机挑选的参与者的响应。之后,他们需独立判断十个新阵列是更悲伤还是更快乐。为验证参与者是否关注其他水平1参与者的响应,我们在20%的试验中(随机选定)要求他们报告这些响应。对于在超过10%的试验中给出错误答案的参与者,我们将其排除在实验之外。

实验结果显示,参与者有54.8%将阵列描述为更悲伤,这高于偶然预期的50%。重要的是,这一结果与水平1的人类参与者无显著差异(见图1e橙圈),但明显低于AI算法的表现,后者将65.13%的阵列描述为更悲伤(见图1e蓝圈)。这种差异不太可能由训练样本大小的变化引起,因为即便在AI和人类参与者接受相同数据库训练的情况下,这种效应依然存在。此外,结果在不同训练方法中也得到了验证,其中参与者被鼓励积极预测其他参与者的响应。

综上所述,与人类不同,AI在训练于有偏见的人类数据上时,其偏见会被放大。这并不令人意外,因为水平2的参与者在自然状态下表现出的偏见水平可能与他们被训练的偏见水平相近。此外,与AI系统相比,人类在做出判断时会考虑更多超出训练会话的因素,如个人先前的经验和期望。

人类间的互动并未加剧偏见

接下来,我们安排了一组新参与者(n=50)接触来自水平2人类的判断。任务流程与分析方法与之前描述的水平3人类-AI互动相似。在接触其他人类的判断前,参与者先完成了五个基线测试模块。与水平1和3的结果一致,参与者在首个模块中展现出显著的偏见(M=53.67%),但随时间推移逐渐减弱(M=49.87%)。随后,参与者进入人类-人类互动环节。正如预期,当其他参与者的意见与他们不一致时,他们更倾向于改变分类(11.27%±1.4% s.e.),相比之下,意见一致时改变分类的次数极少(0.2%±0.03%s.e.)两者差异显著,且改变次数少于与持不同意见的AI互动时。重要的是,在人类-人类互动中,未发现学习偏见的证据(见图1f)。与基线相比,互动时的分类率无显著差异,且随时间推移保持稳定。综合这些结果表明,在人类-AI互动中,人类的偏见被显著放大,相较于人类间的互动更为明显。这些发现揭示出,有偏见的AI系统不仅自身判断存在偏见,还能诱导人类判断产生偏见,这引发了人们对人类与可能存在偏见的算法在不同领域互动的担忧。

AI的输出及人类对AI的感知共同塑造其影响

一个关键问题是,参与者在与AI系统互动时,是否会比与人类互动时表现出更多的偏见?这种偏见的增加是由于AI系统本身提供了更有偏见的判断,还是由于参与者对AI系统的感知不同于对人类的感知,亦或是这两种因素共同作用的结果?为了解答这一问题,我们进行了两次额外的实验迭代。在第一次迭代(即“AI被感知为人类”的实验条件)中,参与者实际上是与AI系统互动,但他们被告知正在与另一名人类参与者进行互动(见图1c)。在第二次迭代(即“人类被感知为AI”的实验条件)中,参与者实际上是与人类互动,但他们被告知对方是一个AI系统(见图1d)。为此,我们招募了新的参与者群体。

首先,所有参与者都进行了上述基线测试,随后进入互动环节。当参与者与被视为人类的AI系统互动时,他们的偏见随时间逐渐增加:从首个互动模块的50.5%上升到最后一个模块的55.28%(见图1f)。这一偏见随时间增加的效应通过线性混合模型得到了验证。该模型预测,随着模块编号的增加,更悲伤分类的比例也会上升,同时考虑了参与者级别的随机截距和斜率。在“人类被感知为AI”的互动中也观察到了类似的结果。偏见同样随时间增加(从首个模块的49.0%增至最后一个模块的54.6%),这一结果也得到了线性混合模型的支持(见图1f)

在这两种情况下,偏见均超过了基线水平。具体而言,在“人类-AI被感知为人类”的条件下,平均偏见为3.85,与基线相比的排列测试显示差异显著。在“人类-人类被感知为AI”的条件下,平均偏见为2.49,与基线相比的排列测试同样显示差异显著。

为了探究偏见增加是由输入类型(AI与人类)还是输入的感知(被感知为AI或被感知为人类)所导致,我们进行了方差分析。我们将偏见分数(即更悲伤判断的百分比减去基线更悲伤判断的百分比)作为因变量,自变量包括2个水平的输入和2个水平的标签,同时将时间作为协变量纳入分析。结果揭示了输入与时间之间的交互作用以及标签与时间之间的交互作用。此外,还发现了输入和时间的主效应。其他效应均不显著。因此,如图1f所示,AI的输入及其标签均促进了人类随时间增加的偏见

最后,我们评估了参与者改变决策的比率。当他们的互动对象与他们意见不一致时,参与者更有可能改变分类。在“人类-AI被感知为人类”的互动中,存在分歧时决策改变的发生率为16.84%(±1.2% s.e.),而意见一致时仅为0.2%(±0.05% s.e.),两者差异显著。类似地,在“人类-人类被感知为AI”的条件下,存在分歧时观察到决策改变的发生率为31.84%(±2.5% s.e.),而意见一致时仅为0.4%(±0.1% s.e.),两者差异同样显著。

为了量化输入和标签对分歧情况下决策改变的影响,我们再次进行了方差分析。我们将决策改变的百分比作为因变量,自变量包括2个水平的输入和2个水平的标签,同时将时间作为协变量纳入分析。结果揭示了AI的输入及其标签均增加了决策改变的可能性。在应用Welch校正以解决方差齐性假设违反问题后,结果仍然保持一致。

有偏见的算法会影响决策,而准确的算法会改进决策

接下来,我们试图将这些发现推广至不同类型的算法和应用领域。特别地,我们旨在模拟一种情境,即人类本身并不带有先验偏见,但AI可能会因为某些原因(例如,在不平衡的数据集上进行训练)而产生偏见。为此,我们采用了一个随机点运动任务(RDK)的变体。在这个任务中,参与者会观察到一系列移动的点,并被要求估计向右移动的点的百分比,这个百分比的范围从0%(即没有点向右移动)到100%(即所有点都向右移动)

为了建立基线表现,参与者首先独立完成了30次RDK任务试验,并报告了他们的信心水平,这个水平从“一点也不自信”到“非常自信”不等(如图2a所示)。在试验过程中,实际向右移动的点的平均百分比为50.13%±20.18%,与50%无显著差异,而参与者的平均信心水平为0.56±0.17。

为了检验不同算法响应模式对人类决策的影响,我们引入了三种简单的算法:准确的、有偏见的和嘈杂的。准确的算法始终指示向右移动的点的正确百分比(如图2b中的蓝色分布所示)。有偏见的算法则系统地高估了向右移动的点的百分比(如图2b中的橙色分布所示;平均偏见为24.96%)。嘈杂的算法提供的响应则等于准确算法的响应加上高斯噪声(标准差为30;如图2b中的红色分布所示)。这些算法被硬编码以完全控制其响应。

在每次试验中,参与者首先给出自己的判断和信心水平,然后观察他们自己的响应和一个问号(稍后将揭示算法响应的位置,如图2c所示)。他们被要求在从“完全依赖自己”到“完全依赖AI”的范围内,为自己的响应和算法的响应分配权重。因此,如果参与者为自己的响应分配了权重w,那么最终的联合决策将是:最终联合决策=w×(参与者的响应)+(1-w)×(AI的响应)。这个加权任务与实验1中的改变决策任务类似,但这里我们使用了连续的量表而不是二元选择,从而能够更精细地评估参与者的判断。

在参与者给出响应后,AI算法的响应才会被揭示。需要注意的是,AI算法的响应只有在参与者指示了他们的加权之后才被揭示,这是为了防止参与者依赖于特定试验中算法的具体响应,而是使他们依赖于他们对算法的总体评估。参与者与每种算法都进行了30次试验互动,并且算法的顺序(偏见、嘈杂或准确)在参与者之间进行了平衡。

在RDK任务中,我们定义了如下偏见:

其中i和n分别代表当前试验的索引和试验的总数。证据对应于第i次试验中向右移动的点的百分比。为了计算AI诱导的参与者偏见,我们从基线块中的参与者偏见中减去了互动块中的偏见。

在群体层面上,我们没有检测到基线响应中存在系统性偏见。

为了定义准确性,我们首先为每个参与者计算了一个误差分数:

然后,我们从基线块的误差分数中减去这个量,以指示准确性的变化。

也就是说,如果与AI互动时的误差小于基线误差,则变化为正,表明参与者变得更加准确;反之,如果与AI互动时的误差大于基线期间的误差,则变化为负,表明参与者在与AI互动时变得不那么准确。

结果表明,与基线表现相比(平均偏见=0.62),以及与准确算法(平均偏见=1.26)和嘈杂算法(平均偏见=1.1)互动时相比,参与者在与有偏见的算法(平均偏见=2.66),互动时变得更加有偏见(倾向于右侧)。准确算法和嘈杂算法之间没有发现偏见差异,与这些算法互动时与基线表现相比也没有差异。

AI诱导的偏见在后续研究中得到了复制。在这项研究中,参与者在五个块中仅与有偏见的算法互动,我们发现了一个随时间的显著线性关系(如图2e所示),表明参与者与有偏见的算法互动越多,他们的判断就越有偏见。AI诱导偏见的学习也得到了计算学习模型的支持。

与准确算法互动提高了参与者独立判断的准确性。与基线表现相比(平均偏见=15.03),以及与有偏见算法(平均偏见=14.73)和嘈杂算法(平均偏见=14.3)互动时相比,参与者在与准确算法(平均偏见=1.55)互动时提高了参与者独立判断的准确性。在有偏见算法和嘈杂算法之间没有发现准确性变化的差异,与这些算法互动时与基线表现相比也没有差异。

在后续研究中复制了AI诱导的准确性变化,即我们发现了一个随时间的显著线性关系,表明参与者与准确算法互动越多,他们的判断就越准确

重要的是,与准确AI互动时准确性提高不能归因于参与者复制了算法的准确响应,同样,与有偏见AI互动时偏见增加也不能归因于参与者复制了算法的有偏见响应。这是因为任务被设计为参与者在观察到算法的响应之前在每次试验中先给出自己的判断。相反,参与者在前者情况下学会了提供更准确的判断,在后者情况下学会了提供更有偏见的判断。

参与者低估了有偏见算法的影响

为了探究参与者是否意识到算法对他们有显著影响,我们要求他们评估自己认为在与不同算法互动时,其响应受到了多大的影响。如图2h所示,参与者报告称,他们感受到准确算法的影响大于有偏见算法和嘈杂算法

然而,在有偏见算法与嘈杂算法的影响感知之间,并未发现显著差异。事实上,参与者与有偏见算法互动后变得更加有偏见的程度,与他们与准确算法互动后变得更加准确的程度相当。我们通过两种不同方法量化了这种影响,且两种方法均得出了相同的结果。

这些结果表明,在不同的范式和响应协议下,与有偏见的算法互动会导致参与者的独立判断产生偏见,而与准确算法互动则能提高其独立判断的准确性。令人惊讶的是,参与者并未意识到有偏见算法对他们产生的强大影响。

真实世界中生成式AI在社会判断中的诱导偏见

此前,我们已经证明,与有偏见的算法互动会导致人类在感知和基于情感的任务中做出更有偏见的判断。为了增强结果的生态效度,我们将这些发现推广到社会判断中,并使用了在现实世界环境中广泛应用的AI系统——Stable Diffusion,这是一种基于文本提示生成图像的生成式AI系统。近期研究表明,Stable Diffusion放大了现有的社会不平衡,例如,在高权力和高收入职业中过度代表白人男性。这种偏见可能源于训练数据的问题或内容审核技术的缺陷。Stable Diffusion的输出被广泛应用于视频、广告和商业演示中,因此有可能影响人类的信念体系,即使个体并未直接与AI系统互动,而只是观察其输出。

为了检验与Stable Diffusion输出互动是否会增加人类判断中的偏见,我们进行了以下实验。首先,我们使用Stable Diffusion生成了“一张金融经理的彩色照片,头像,高质量”的图像,并发现生成的图像中白人男性占比高达85%,远超他们在人口中的代表性。接下来,我们进行了一项实验(n=100),以检验参与者在与Stable Diffusion输出互动后,对金融经理职位人选的判断如何变化。实验分为三个阶段:基线阶段、暴露阶段和暴露后阶段。

在基线阶段,参与者会看到来自不同种族和性别群体的六个人的图像,包括白人男性、白人女性、亚洲男性、亚洲女性、黑人男性和黑人女性。在每次试验中,参与者需要回答:“哪个人最有可能是金融经理?”并通过点击其中一张图像来作答。参与者选择白人男性、白人女性、亚洲男性、亚洲女性、黑人男性和黑人女性的比例分别为32.36%、14.94%、14.40%、20.24%、6.64%和11.12%。

在暴露阶段,参与者被告知他们将看到三张由Stable Diffusion生成的金融经理图像,每张图片展示1.5秒。这种短暂的暴露时间模拟了与AI生成内容在社交媒体、新闻网站和广告等平台上的常见互动。

在暴露后阶段,参与者重复了基线阶段的任务。我们主要关注的是参与者判断的变化。

研究结果显示,暴露有显著影响,表明接触AI图像会改变人类的判断。特别是,接触AI图像后,选择白人男性作为金融经理的可能性显著增加,而与白人女性、亚洲女性、黑人男性和黑人女性相比,这种增加更为显著。然而,白人男性与亚洲男性之间未发现显著差异。

为了控制顺序效应,另一组参与者被用作对照组,他们观看了中性的分形图像而未接触AI生成的金融经理图像。对照组在接触中性图像后未发现显著影响,且在比较白人男性与各个种族群体的选择时,也未观察到显著差异。通过比较处理组和对照组,发现接触图像后,处理组选择白人男性的比例增加幅度大于对照组。

这些结果表明,与放大现实世界表现不平衡的常用AI系统互动会在人类中诱导出偏见。Stable Diffusion作为本实验中的AI系统,拥有庞大用户基数和图像生成量,这进一步凸显了这一现象的重要性和紧迫性。后续实验成功复制了这些发现。


时间不早啦!这篇推送就先写到这里了,后面的讨论和方法,萜妹腾出空来再在网站中补上。

写推送前没想写这么久、这么细,但是细细看下去,觉得这篇文章的实验层层递进,值得被完整的呈现,所以后续有借助科技的力量把它详细地呈现出来。

希望能给小可爱们一些启发和帮助,感兴趣的小可爱也可以点击“阅读原文”查看。

往期推送

精读|理论与假设范例——调节焦点理论
新文丨AI何时以及如何增强员工创造力
经验丨如何进行文献阅读2.0
范文丨顶刊引言精读(十)