专栏名称: 京师心理大学堂
京师心理大学堂,北师大心理学部出品,奉行“打造中国最专业的心理学科普平台”的项目定位,努力将北师大心理学百年积淀奉献于社会,凝聚师生力量传播科学知识,让心理学走进千家万户。
目录
相关文章推荐
武志红  ·  原生家庭的痛苦,该如何自救 ·  14 小时前  
简单心理  ·  复工第一天,卡住你上班的6个原因 ·  3 天前  
51好读  ›  专栏  ›  京师心理大学堂

“人类”是男还是女?

京师心理大学堂  · 公众号  · 心理学  · 2022-04-22 20:00

正文

作者 | 家养蛋糕



当提到人、人类、个体等概念时,你脑海中出现的是男人还是女人?



类似的,在英文中,当提到person、people、individual时,你直觉认为指代的是woman还是man?



如果我们总是将性别中立的、指代所有人的词汇认为是指代男性的,这是不是意味着,我们认为“人类”中男人是默认选项?



这看起来是个荒谬的类比推理, 人类当然不可能全部都是男性 ...但是,2022年4月1号(没错,就是这么巧,这不是愚人节的玩笑)发表在 Science Advances 上的一项研究表明——



在使用“人类”这个词的时候, 人们的确更倾向于默认“人类”是男性 。对于“人类”的 集体概念 不是性别中立而是 男性优先 的。





话语中的性别偏好

通过语义看思维


许多语言学研究建立在这样一个基本假设之上: 语义 的本质是 词语所指代的心理概念 。这些心理概念既能够 反映 思维,也能够 塑造 思维。这也就意味着, 分析 人们说话的内容时,我们所分析的其实可以是 语言背后的思维



这一假设适用于个人,也同样适用于 集体 。来自于大规模群体的语言素材能够反映出一个语言社区的 集体概念 。一群人的语言习惯有哪些?这群人如何表达自己的想法?这些都能体现作为一个语言社区的的 社会观念和价值系统 ,以及藏匿于其中的 社会偏好



本研究所关注的就是其中的一种社会偏差——人们默认“人类”是男性,而女性则被视作对“人类”默认属性的一种偏离。



一些样本量较小的心理学研究表明,当参与者被要求举出“人类”的例子时,更多的参与者 描述的对象是男人而不是女人 ;更多的参与者 用男人(而非女人)来代表人类...



一些大规模的 语言学 研究也表明,英语使用者更 经常使用"他"(he)而不是“她”(she) ,但是这种简单的词频差异也可能是由于 语法习惯 而不是性别偏差所造成的。



就现有研究而言,对于“人类”词语的性别偏差的 证据尚不充分 ,缺乏大规模的直接研究。因此,研究者使用语义分析的方式,对 人类有关目标词的性别偏差 进行了详尽的探索。



词向量化

语义分析方法


就像人类做阅读理解一样,机器也是 通过语境来表征词义 的。



对于“我今天吃了一个布噜噜”这样的句子,即使我们没有见过布噜噜这个词,我们可以 从上下文当中得知 ,布噜噜大概是种能吃的东西。



机器学习的过程就是给机器“投喂”大量现实生活中使用的句子(语料),通过计算目标词和周围词在语料中 共同出现 的模式来表征目标词语的含义。



具体而言,该研究使用的表征语义的方式是 词向量化 (word embeddings)。通过词向量化,语义被表征为低维稠密的 特征向量 ,而这些向量间的数学关系具有 可解释的意义 ,例如 V(king) - V(man) + V(woman) ~= V(queen) (V指向量化的映射)。



如果两个词语常常在 类似的语境 当中出现,它们的特征向量是比较相似的,其 语义也是相似的 ,这被称作语义的 分布式假说 (the distributional hypothesis of word meaning)。



因此,我们可以 通过分析词语的特征向量来推测人们对于某一概念的理解 。通过计算两个词语特征向量的余弦值,我们就能知道这两个特征向量有多相似(即语义相似性),进而反映出人们 对两个词语的理解有多一致



对于研究者所关心的 目标词 (指代人类的名词、描述人类的形容词和动词),我们可以分别计算它们和对照词(指代男性的词、指代女性的词)的 相似性 并相互比较,从而得出 目标词是否具有性别偏差 的结论。



有偏的名词、形容词和动词


研究材料



来自 the May 2017 Common Crawl corpus [CC-MAIN-2017-22] ,语料库包含来自29.6亿个网站超过6300亿的词语,语料的来源包含非正式文本(来自博客、论坛等)和正式文本(来自媒体、企业、政府等)。



研究流程



1 . 生成目标词和对照词列表(依据已有研究或编码);

(1) 目标词 :指代人类的名词(30个,如individual)、描述人类的形容词(538个,如 extroverted)和动词(如speak);

(2) 男性对照词 :指代男性的词(36个,如man);

(3) 女性对照词 :指代女性的词(38个,如woman)。



2. 使用fastText算法(一种词向量化的技术,保留了词序信息),提取目标词\对照词的 向量特征



3. 计算目标词和男性对照词\女性对照词的向量特征的 余弦相似性 (语义相似性);



4. 比较 男性\女性(目标词-对照词)余弦相似性的大小。



/ / 1. 指代人类的名词 - 男性对照词\女性对照词


图1 余弦相似性,右边是指代人类的名词和男性对照词的余弦相似,左边是指代人类的名词和女性对照词的余弦相似性。余弦相似性越接近于1,代表语义越相似。箱形图的边缘代表四分位距,超出箱形图的线段代表全距,箱形图内部代表95%的置信区间。水平的灰线代表均值,圆点代表拟合后的均值。 指代人类的名词-女性对照词的余弦相似性比指代人类的名词-男性对照词更低



结果表明, 人类 的语义相比于 女性 更接近于 男性 ,并且这一偏好具有中等效应。



/ / 2. 描述 人类的形容词 - 男性对照词\女性对照词


研究者进行了类似的分析,结果表明,这些描述人类的形容词的语义相比于 女性 更接近于 男性



研究者进行了进一步分析,根据3名评分者的评分结果,将实验中使用的描述人类的 形容词 分类为 “男性刻板印象/女性刻板印象/中立”



分析表明,形容词-对照词的性别偏差关联是 不对称 。也就是说, 女性对照词更倾向于和女性刻板印象形容词语义相似 ;相比于女性对照词而言, 男性对照词的语义不受到性别刻板印象的限制 ,男性对照词和更大范围的通用形容词共同出现在类似的语境当中。



图2 余弦相似性,右边是性别刻板印象形容词和男性对照词的余弦相似,左边是性别刻板印象形容词的余弦相似性。形容词的性别刻板印象用红色和绿色标注,其余统计注释同图1。 总体来看,指代人类的形容词-女性对照词的余弦相似性比指代人类的名词-男性对照词更低;对于男性对照词,两种性别刻板印象形容词的余弦相似性没有显著差异;对于女性对照词,男性性别刻板印象形容词的余弦相似性显著低于女性性别刻板印象形容词。



/ / 3. 描述人类的动词 - 男性对照词\女性对照词


图3 余弦相似性,右边是性别刻板印象动词和男性对照词的余弦相似,左边是性别刻板印象动词的余弦相似性。动词的性别刻板印象用红色和绿色标注,其余统计注释同图1。 总体来看,指代人类的动词-女性对照词的余弦相似性比指代人类的名词-男性动词更低;对于男性对照词,两种性别刻板印象动词的余弦相似性没有显著差异;对于女性对照词,男性性别刻板印象动词的余弦相似性显著低于女性性别刻板印象动词。



动词 的结果与形容词和名词是 类似 的。一方面,描述 人类 的通用动词的语义相比于 女性 更接近于 男性 。另一方面,动词-对照词的性别偏差关联也是 不对称 的,女性对照词更容易和女性刻板印象动词出现在类似的语境;而男性对照词则和范围更广的通用动词共同出现。



人类,请注意言辞


在成百亿计的互联网词语当中,研究者发现了这样的 性别偏差 ——在人们的语言表达中(进一步反映为 思维 ), 人类 男性 (而不是 人类 女性 )的关联更加密切,表现为一种 男性特权的集体概念



这篇研究的视角能够给人们带来一些启发——在大规模的语言使用当中, 不同社会群体被表征的方式 可能是 有偏 的。某些群体相对于其他群体拥有 特权 ,而这种特权可能带来一定的社会后果,并且很有可能随着 代际传递 和人机交互不断持续 下去。



代际传递 的视角而言,研究表明小朋友对于语言环境中 词语的统计规律 具有敏感性,即便大人们并没有有意直接地告诉小朋友语言中潜在的社会偏差,这种认知偏差也很有可能 间接地传递 给他们,这也就意味着相应的 特权待遇 可能会 持续地、跨代际地存在,而不为大多数人所觉察



人机交互 的视角而言,即便人们在未来完全克服了这种认知偏差,它很有可能在作为训练数据 已然渗入 人工智能 的多个应用领域。正如研究者所举出关于 计算机翻译 的例子,“医生让护士帮她一个忙”被机翻为西班牙语后, “医生”这个词被自动附加了阳性(El doctor) 而非阴性(La doctora)的性数特征, 即使句子当中“她”这个代词已经说明医生是一名女性。



图4 来自百度翻译的结果,“医生”被翻译为西班牙语中的阳性。



“机器翻译已经发现了人类语言的秘密偏好;

不论出于何种考虑,人类,是时候注意言辞了。”





心理学部各实验室、课题组运营有一批不同方向的优质心理学科普公众号,在大学堂后台自定义菜单点击“ 分类精选







请到「今天看啥」查看全文