击上方“
腾讯科技
”,选择“置顶公众号”
关键时刻,第一时间送达!
编译/文菲 张易 弗格森
来源/新智元
【新智元导读】 不久前, 上海交通大学的两位研究者发布了一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法,根据人的脸部特征预测一个人是否有犯罪倾向,“准确率接近90%”。该研究在国内外引起了广泛的争议。近日,谷歌的几名研究员撰文对这一研究进行了批驳,回顾了机器学习技术的底层运作方式和技术细节,并探讨机器学习等先进技术在融入现实中所遇到的难题和挑战。
1844 年,意大利南部一个小城镇举办了一场审判会,一个名叫 Giuseppe Villella 的劳工因涉嫌窃取了“5 个里考塔(注释:意大利奶制品,类似凝乳),一块硬奶酪,两块面包……和两只小山羊”,最终被判定为“brigante”(暴匪)。当时,意大利南部正因盗匪和国家暴动陷入恐慌。Villella 于 1864 年在意大利北部帕维亚的监狱中死亡。
Villella 的死亡促使了现代犯罪学的诞生。当时镇里居住的一位名叫 Cesare Lombroso 的科学家和外科医生,他认为“brigante”是一种原始的人,天生容易犯罪。检查 Villella 的遗体后,Lombroso 发现了所谓的“证据”,证实了他的猜想:Villella 头骨枕头上的凹陷让人联想到“野人和猿猴”的头骨特征。
使用精确的测量仪器,Lombroso 记录下了他在 Villella 遗体上发现的更多显示其有精神错乱(derangement)的物理特征,包括“不对称的脸”。Lombroso 写道,犯罪分子“生下来就是罪犯”。他认为犯罪行为是会遗传的,并且在遗传时会带有伴随的物理特征,可以用卡钳和颅骨等仪器来测量[1]。这个想法很自然地证明了他之前的假设,即意大利南部人种相比北意大利人要落后原始许多。
使用人的外观推断其内在特征的做法被称为相面(physiognomy)。虽然在今天相面被认为是伪科学,但在民间一直流传着,可以从某个人的面部和身体特征识别出较差的“类型”的人,这一观点也在不同时期被编入国家法律,为很多行为提供了基础,比如购买土地、禁止移民、证明奴隶制合理,以及将种族灭绝正当化。在实践中,相面的伪科学成为科学种族主义(scientific racism)的伪科学。
人工智能和机器学习的快速发展使科学种族主义进入了一个新的时代。其中,人类行为中存在的偏见也被带入了机器学习模型的开发过程中。无论是有意还是无意,这种通过计算机算法对人类偏见的“洗白”可能会使这些偏见看来是客观的。
最近的一个例子便是,上海交通大学 Xiaolin Wu 和 Xi Zhang 在 2016 年 11 月传到 arXiv 上的论文《使用脸部图像自动推断罪犯》(Automated Inference on Criminality Using Face Images)。吴和张认为,机器学习技术可以预测一个人是否是犯罪分子(不是犯罪嫌疑人),号称准确度几乎 90%,而他们使用的数据仅仅是类似美国驾驶执照上人脸的证件照。虽然该论文没有经过同行评议,但其调查结果激发了一系列新闻报道。[2]
研究界的许多人都认为吴和张的分析在道德和科学上都是有问题的。在某种意义上,这不是什么新鲜事。然而,使用现代机器学习方法(性能强大,但对很多人来说也是神秘的),可以使这些过去的说法看上去有了新的可信度。
在摄像机和大数据无所不在的时代,机器学习相面也可以前所未有的规模得到应用。鉴于社会越来越多地依赖机器学习实现常规认知任务的自动化,开发人员、评论家和用户都迫切需要了解人工智能技术的局限和相面这一伪科学的历史,更何况后者如今还披上了一层和现代技术的外衣。
因此,我们在这里面向广泛的受众撰写了这篇深度文章:不仅对研究人员、工程师、记者和政策制定者,任何关心如何确保 AI 技术朝着有利于人类发展的人都是本文的读者。
接下来,我们将首先回顾机器学习技术的底层运作方式,然后讨论机器学习将如何延续人类的偏见。
如何用机器学习了解图像
计算机可以根据某个人的图片进行计算来分析这个人的身体特征。这是很普通的一个图像问题:计算机程序分析照片、根据照片做出一些决定,然后得出某些有意义的判断(比如说,“这张照片中的人很可能在 18 岁和 23 岁之间”)。
照片和计算机反馈之间的关系由一组参数确定,这些参数会在机器学习的阶段进行调整,这就是“机器学习”的由来。机器学习最常见的方法是监督学习,会使用大量带标记的样本工作,也就是样本图像与每个理想输出都进行配对。当参数设置为随机值时,机器只能纯粹凭运气作出回答;但即使给出了一个随机的起点,人可以慢慢地调整一个或多个参数,并问“这种变化是更好还是更差?”这样,计算机就能自我优化,学习任务。通常的训练项目会涉及数百万、数十亿或数万亿的参数选择,计算机在这个过程中稳步提高完成任务的性能。最终,计算机提高的水平放缓并趋于平稳,根据给定任务的固有困难程度以及机器和数据的局限性,预测准确性可能已经达到了最佳状态。
训练时,要避免的一个情况是过拟合(overfitting)。过拟合就是机器能够记住个别训练样本的正确答案,但不能进行泛化,泛化则是适用于不同的数据。避免过拟合最简单的方法是在验证系统时,使用没有在训练中出现过标记数据集。如果系统在验证时性能和训练时大致相同,那么就可以确信系统真的学会了如何发现数据中的一般模式,而不仅仅是记住了训练样本。这实际上和让学生考试的理由相同,测验时考的都是以前没有见过的问题,而不仅仅是重复在课堂上学到的例子。
每个机器学习系统都有参数——否则就没什么可学习的了。简单的系统可能只有比较少的参数。增加参数数量可以让系统学会更复杂的关系,成为更强大的学习者,输入输出间的关系越复杂,系统错误率就越低。另一方面,更多的参数也让系统能够记住更多的训练数据,因而也更容易产生过拟合。这意味着在参数数量和所需的训练数据的数量之间有一个关系。
现代的复杂的机器学习技术,如卷积神经网络(CNN)有数百万个参数,因此需要大量的训练数据避免发生过拟合。获得足够多带标签的数据来训练和测试系统,通常是机器学习研究者面临的最大的实际挑战。
示例:确定照片拍摄时间
卷积神经网络应用十分广泛,性能也非常强大。例如,Ilya Kostrikov 和 Tobias Weyand 提出的 ChronoNet,这个 CNN 可以猜测拍摄照片的年份。他们使用的数据是在过去 100 年间拍摄已知的日期的照片,这些照片都带了某种程度的标签(在这种情况下为日期照片),因此获取标记数据用于训练这个网络相对来说比较简单。
一旦网络被训练好,就可以输入照片,可以看出系统猜测拍摄的那一年。 例如,以下两张照片都是 ChronoNet 猜测1951(左)和1971(右):
深度学习猜测拍摄年份的照片
这些都是很好的猜测。左边的照片在 1950 年在斯德哥尔摩海滨拍摄的,右边的照片则是 1972 年尼克松在亚特兰大州发表竞选演说,旁边是尼克森夫人。
神经网络究竟是如何计算出来的?从机械学的角度来看,数百万个学习参数只是一系列加权平均计算中使用的权重。从原始像素值开始,加权平均值被组合,然后用作相似的计算集合的输入,然后又被用作另一个类似的计算集合的输入,等等——在多层网络中创建一个级联的加权平均计算。[3] 在 ChronoNet 中,最后一层的输出对应的是照片拍摄可能年份的概率值。虽然在技术上是正确的,但这个“概率”是无法解释的;让一位人类专家判断这两张照片的年代,他同样可以说:“我这样回答,是因为我的神经元就是这么连在一起的。”
事实上,像人类专家一样,人工神经网络很可能学到了发现各种细微线索,从低级属性,如胶片颗粒和色域(电影处理技术在 20 世纪得到了长足的发展)到衣服和发型,乃至车型和字体。上面那张斯德哥尔摩照片中的扬声器和婴儿车的风格也可能是线索。自 2006 年以来,所谓的深度学习进一步加快了人工智能的快速发展,与任务(颜色、汽车模型等)相关的特征可以被隐含地学习,为更高层次的目标(比如猜测照片拍摄年代)服务。[4]
以前的机器学习方法也可能已经达到了猜测照片拍摄年代的高级目标,但是需要手工编写计算机代码,从原始图像中提取字体和发型等特征。让计算机能够端到端的学习一个复杂的问题,省去了编码这样的定制工作,大大加快了开发速度,也经常大幅地提高了结果的准确率。
这既机器学习的力量也是这种方法的危险,特别是深度学习。深度学习的力量我们是清楚的:一般的方法可以发现各种不同问题中的隐含关系;系统本身会去寻找去学习的内容。而深度学习的危险则来自于一个科学家或工程师可以轻松地设计一个分类任务,让机器在不了解任务实际测量的内容,或者系统实际发现的模式的前提下,进行很好的学习。这种情况下,机器“如何”或“为什么”做出判断就变得很重要了,尤其是涉及到判断一个人的性格或犯罪情况时。
论文摘要
我们首次进行基于静止的人脸图像自动推测犯罪性的研究。通过有监督机器学习,我们使用 1856 张真实的人的面部照片建四个分类器(逻辑回归,KNN,SVM,CNN),这些人中有近一半是已被定罪的犯罪者,其余是非犯罪者,我们以民族、性别、年龄和面部表情作为控制要素,让计算机区分犯罪者和非犯罪者。四个分类器都表现良好,为根据脸部特征自动预测犯罪性提供了有效性证据,尽管围绕该主题存在历史性争议。此外,我们发现一些可以预测犯罪性的结构上的区别特征,例如嘴角的弧度、眼内角间宽、以及所谓的鼻唇角角度。这项研究最重要的发现是,犯罪者和非犯罪者的面部照片在表情的多样性方面非常不同。犯罪者的面部表情变化明显大于非犯罪者。由两组照片组成的两个流形看起来是同心的,非犯罪者的流形的跨度较小,表现出正常的规律。换句话说,一般守法公民的面貌与犯罪者的面貌相比具有更大程度上的相似性,也就是说,犯罪分子在面部表情上的差异比普通人更大。
通过机器学习来推断一个人是否是“犯罪分子”?
《使用脸部图像自动推理罪犯》要做的,也是 ChronoNet 类似的事情,除了后者是推测任意照片拍摄的年代,而前者则是根据人脸部图像推测一个人是否有犯罪记录。因此,吴和张在论文中写道,这是首次“为自动根据人脸推理罪犯提供了证据”。
为了说明为什么这种说法有问题,接下来我们将更详细地解说其研究方法和结果。
方法和结果
吴和张的数据集是中国政府颁发的身份证照片,一组含有 1,856 张 80x80 像素的中国男性面孔近照(closely cropped)。这些男性年龄介于 18 至 55 岁之间,图像中没有面部毛发,也没有疤痕或其他明显痕迹。图像中的 730 个人被标记为“罪犯”,或者更确切地说,
“……其中 330 人是中国公安部和广东省、江苏省、辽宁省等公安部门公布的犯罪嫌疑人;其他则是由中国一个城市警察部门根据保密协议提供。……在 730 名罪犯中,235 人犯有包括谋杀、强奸、殴打、绑架和抢劫等暴力罪行;其余 536 人被定罪为非法暴力罪行,例如盗窃、欺诈、腐败、伪造和敲诈勒索罪。”
其他 1126 张人脸图像则是:
“使用网络爬虫从互联网获取的非犯罪分子头像,覆盖广泛的专业和社会地位,包括服务员、建筑工人、出租车和卡车司机、房地产经纪人、医生、律师和教授;……大约有一半的人拥有大学学位。”
需要特别强调的是,所有这些人脸图像都来自政府颁发的身份证——这些被视为“犯罪分子”的图片不是犯罪现场照片。
吴和张用这些带标签的样本做监督学习。他们训练计算机看一张脸像,并产生一个“是/否”的回答:这个图片上的人属于“罪犯”组还是“非犯罪分子”组?他们使用了4种不同复杂程度的机器学习技术,也就是参数数量多少不同,更复杂的技术具有更多的参数,因此能够学会图像中细微的关系。其中,一个不太复杂的技术使用自定义代码对图像进行预处理,提取特定已知面部特征的位置(如眼睛和嘴角),然后使用较旧(older)的方法学习与这些面部特征位置相关的模式。作者还使用了 AlexNet,其架构与 ChronoNet 类似。AlexNet 是最现代化的模型和参数最多的 CNN 之一,性能也十分强大,分类精度高达近 90%。不过,即使使用较老的方法,论文给出的精度也远高于 75%。
这带来了几个问题,也许第一个就是“这可能是真的吗?”更确切地说,
这些数字是否可信?机器学习学到的是什么?这与犯罪行为和刑事判决有什么关系?
可能的假象
要看准确率高达 90% 是个什么概念,我们来对比另外一篇论文。计算机视觉研究人员 Gil Levi 和 Tal Hassner 在一篇精心控制的 2015 年论文中发现,具有相同架构的卷积神经网络(AlexNet)在推测快照中人脸性别[5] 时的准确率只有 86.8%[6]。另外,吴和张在论文中声称基于 CNN 方法的“假阳性”(即将“非罪犯”误识别为“罪犯”的错误率)只超过 6% 一点点。新的研究显示,药物检测一般会在 5% 至 10% 的病例中产生假阳性结果,10% 至 15% 的病例中为假阴性。
我们认为论文中声称的准确度高得有些不切实际。一个技术问题是,少于 2000 个样本实际上是不足以训练和测试像 AlexNet 这样的 CNN 而不会过拟合的。论文采用较旧的非深度学习方法给出的较低的准确率(其实还是很高了)可能更为真实。
还应该注意,作者无法可靠地推断出他们从网络获取的身份证图像都是“非犯罪分子”的;如果我们假设这些人是一般人群中抽取的随机样本,根据统计学,其中一部分人也可能从事犯罪活动。
另一方面,论文中使用的数据集都是来自 18 只 55 岁的男性,这可能也有问题,因为法官在判决时可能会首先考虑排除年龄偏见。
同样,论文中所示的 3 个“非罪犯”图像(见下文)中都穿着白领衬衫,而另外 3 名被判别为“罪犯”的都没有。当然,只有 3 个例子,我们不知道这是否代表整个数据集。但是,我们知道,深度学习技术是强大的,并且能够学会所有接收到的线索,正如 ChronoNet 除了图像内容的不同之外,还提取了细节,如胶片颗粒度。
机器学习不会区分因果关系和偶然的相关性。
机器学习究竟学到了什么?
排除可能会影响论文所声称准确度的技术错误和混淆,图像中捕获的人脸外观与“罪犯”组中的成员之间可能确实存在相关性。这些被称为“罪犯”的人脸部有什么独特的特征吗?
吴和张使用了各种技巧对此作了详细的探讨。对于较为简单的机器学习方法,其中会测量标准面部标记(landmark)之间的关系,这是特别容易的。他们总结说,
“……犯罪分子从两边嘴角到鼻尖的角度 θ 平均值比非犯罪者的平均值要小19.6%,差异较大(has a larger variance)。而且,犯罪分子的上唇曲率 ρ 平均比非罪犯大 23.4%。另一方面,犯罪分子内眼角之间的距离 d 比非犯罪分子略窄(5.6%)。”[7]
关于这一点,我们可以从论文中的配图得到直观的了解。下图是论文中的图1,上面一排是“罪犯”,下面一排则是“非犯罪分子”。
上排是“罪犯”,下排是“非犯罪分子”。上排的人脸表情皱着眉头(frowning),而下排没有。深度学习系统可能会“学会”这样表面的区别。
论文作者只公开了上面这 6 个例子,这也有可能是故意挑选的。我们也做了随机调查(包括中国和西方国家的同事),如果必须在二者中选择一组,很多人也认为下面一排的 3 个人是罪犯的可能性小一些。一方面,尽管作者声称对面部表情做了控制,但是底部 3 张图像似乎都是显得在微笑的,而上排的 3 个人则似乎是皱着眉头。
如果这 6 幅图像确实是典型的样本,那么我们怀疑让一名人类法官将图像从微笑到皱眉来排个序,也可以很好地将“非罪犯”与“犯罪分子”区别开来。后面我们会阐述这一点。
人类又从中发现了什么?
值得强调的是,在这种(或任何)机器学习应用中没有超人的魔力。虽然非专家只能大概估计一张照片的拍摄年代,但大多数人[8]在识别人脸方面都非常敏感。我们能一眼就从比较远的距离认出自己熟悉的人,而且这样的人可能有成百上千个,注意到别人的凝视和表情的细微差别,并且所有这些都在十分之一秒内完成。
吴和张并没有声称他们的机器学习技术在识别人脸面部细微特点(cue)方面,比不需要计算机辅助的普通人要强。不过,他们将其工作与 2011 年在心理学期刊发表的一项研究(Valla 等人,基于面部外观推断犯罪分子的准确性[The Accuracy of Inferences About Criminality Based on Facial Appearance])联系在一起,那篇论文也使用人类的判断得出了类似的结论:
“……研究人员给实验参与者展示了一组罪犯和非罪犯的头像,这些图片都控制了性别、种族、年龄、吸引力和情感表现之后,也消去了任何显示图片来源的线索,结果表明,实验参与者都能够可靠地区分这两个群体。”
虽然吴和张使用的身份证 ID 照片而不是犯罪嫌疑人照片(mugshot),我们应该注意,Valla 等人的论文(尽管他们声称已经对摄影条件做了控制),作者比较的是被定罪人的照片和在校园里拍摄的学生的照片。可以认为,被捕后身处威胁和侮辱性的环境中,那时所拍摄的照片看起来与在大学校园里拍摄的照片看上去不同,因而论文的结论也值得商榷。
吴和张也将他们的工作与 2014 年心理学期刊 Psychological Science 发表的一篇论文(Cogsdill 等人,从人脸推断性格:关于发育的研究[Inferring Character From Faces: A Developmental Study])联系起来。这篇论文的其中一位作者就是我们中的一个人。这篇论文发现,即使是 3 岁到 4 岁的孩子,也能准确地区分“善意”(nice)和“不友好”(mean)的脸部图像。但关键是,没有人声称这些这些印象与一个人的性格有关。本文研究的是在人类发育早期对人脸表情类型(facial stereotype)的识别,使用的也是将这些不同类型的表情可视化的照片。[译注:这里指实验中使用的是心理学研究中常用的代表不同表情的人脸照片。]
所谓“友善”和“不友善”的脸看起来是什么样子?过去 10 年有关人脸表情社会感知的研究表明,人对一张脸的印象可以浓缩到一些基本层面,包括强势(dominance)、吸引力(attractiveness)和价值(valence,与“值得信赖”、“外向”等积极评价有关)。科学家开发了各种方法,将这些维度上的典型面部表情可视化。其中一种是,让实验参与者评判随机合成的面孔,是否可靠(trustworthy)和强势(dominance)。由于合成的人脸是根据不同面部特征的相对大小或位置得出的统计模型,所以可以计算出代表“值得信赖”或“不可信任”的人脸的平均特征;对于白人男性,可靠与不可靠的脸分别看起来像这样:
根据儿童和成人的判断,典型的“友善”(左)和“不友善”的人脸
看起来“不值得信任”的脸与吴和张论文中“罪犯”的脸(图3)看起来相似。
客观的谬误
吴和张在论文中并没有危言耸听,将人对一张脸的印象(如“不可信赖”)和所谓的客观现实(如“罪犯”)联系起来,而是声称我们看到的右边的面部特征潜在预示(imply)犯罪行为。这种不正确的断言依赖的是推定的客观性和输入、输出自己算法之间的独立性。
因为吴和张使用的算法是基于一种高度通用的深度学习技术——卷积神经网络,后者可以从任何类型的图像数据中学习模式——这种方法可以说是客观的,也就是说,深度学习/卷积神经网络本身并不对人脸面部特征或犯罪行为带有偏见。
输入被认为是客观的,因为吴和张的论文使用的是标准化的 ID 照片。输出也被认为是客观的,因为它是一种合法的判决(legal judgement)——是独立于输入的,因为在绝大多数文献中“正义”(justice)都被认为是“看不见的”(注释:正义女神经常被造成带眼罩的形象,代表其客观、不徇私、一视同仁的平等精神)。正如作者所说,
“由人类观察者主观判断会导致偏见,而我们是首次在没有任何人为偏见的情况下,研究了根据脸部特征自动推断犯罪分子。”
在这里,论文中声称输入和输出的客观性是具有误导性的。但是,这项工作最令人不安的是,它引用了两种不同形式的权威力量——科学和法律,让人群中存在高低贵贱之分的这种说法再次复苏并且予以证明。那些上唇弧度更加弯曲,眼睛更靠近的人都处于社会较底层,容易出现(用吴和张的话说就是)“一大堆异常(不合群)的个人特征”,最终导致这些人在法律上被判定为“罪犯”的可能性很高。
这种论调与 Cesare Lombroso 的话很相似。在探索面部外观输入与刑事判决输出之间相关性的可能原因之前,我们有必要停下来,回顾这些声称的历史。
“面相学”——科学种族主义
面相学和“类型”理论
“面相学”的根源在于人类倾向于相关地、隐喻地、甚至是诗意地解释一个人的外表。这种想法至少可以追溯到古希腊人,在文艺复兴时期的多米尼加·詹巴蒂斯塔·德拉·波塔的“人类生理学”(De humanaphysiognomonia)中尤其明显,书中展示:一个长得像猪的人就像猪一样:
一半像男人,一半像公猪:摘自 Giambattista dellaPorta的 Dehumanaphysiognomonia(那不勒斯,1586)
要在启蒙运动中理解这样的想法,有必要从中去除诗意的成分,集中精力在更具体的身体和行为特征上。在十七世纪,瑞士神学家约翰·卡斯帕拉夫特(Johann CasparLavater)基于眼睛、眉毛、嘴巴和鼻子的形状和位置来分析人的性格,以确定一个人是否具有“欺骗性”、“充满恶意”、“愚蠢”、还是”疯狂“。