专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

人工智能选特朗普做总统，数据和算法的偏见|人工智能

腾讯研究院 · 公众号 · 科技媒体 · 2016-11-08 17:35

正文

本文经机器之心（微信公众号：almosthuman2014) 授权转载，禁止二次转载。

选自：World Economic Forum
编译：机器之心
参与：李泽南曹瑞

2016 美国大选将至，一些研究者和从业者也趁着这股热潮推出了一些基于数据预测大选结果的人工智能程序，但就像人类自己一样，它们所支持的总统候选人也都不一样（一些俄罗斯人开发的一个人工智能程序会选择特朗普当总统 :O）。未来，如果算法成为了我们日常生活的管家，我们可以让算法来帮助我们选出总统吗？

想象一下 2020 年的普通一天，人工智能助手唤你起床，为你端上已准备好的早餐，都是你最喜欢的食物。在晨跑中，播放器会自动播放符合你喜好的最新歌曲。上班路上，电子助手会根据你过去的阅读品味，自动向你推送新闻以供阅读。

你阅览着新闻，注意到总统选举马上就要来了，人工智能参考了你过去的政治看法和本州其他选民的意见，向你推荐了一位民主党候选人。你的手机上，一条弹出信息询问你是否需要 AI 助手帮你准备投票所需文件，你点击「同意」，然后关掉屏幕，继续自己的生活。

人工智能：呆板的数据机器

AI 个人助手在几年前已经走进现实，对于我们来说，把履行公民义务的重任交与它们还是显得有些不合适——即使人工智能几乎总是知道在特定的时刻给我们最好的建议。通过足量的数据学习，人工智能可以为每个人提供准确的，个性化的建议，甚至比你最亲密朋友的建议更完美。

Alphabet 董事长埃里克·施密特坚信，人工智能的发展会让每个人都会变得更聪明，更有能力，更为成功。人工智能已经展现出了巨大潜力，有希望帮助解决人类社会面临的各种复杂挑战，如气候变暖，人口增长和人类发展。

然而机器展现出的潜力也带来了担忧。有调查显示，34% 的人表示自己害怕人工智能，而 24% 的人认为人工智能会对社会造成负面影响。相比较未知的恐惧，人工智能对于数据的依赖带来了现实的隐患，GWI 的研究表明，63% 的民众担心他们的个人信息被科技公司滥用。最近 Oxford Internet Institute 的研究显示，人们对于让人工智能助手打理自己生活的方式持谨慎态度，特别是当这些助理提出自己的建议，却又不告诉你它推理过程的时候。

在这里，我们没有必要混淆数学与魔法。人工智能并不是在你手机里生活的神秘生物。但我们往往会忘记，人工智能一直在读取我们的个人资料，通过复杂的数学模型，自动推断我们的兴趣、位置、习惯、财务和健康。

开发者的角色

当前关于算法与人类的很多讨论都围绕着设计者在算法中的作用——人工智能创造者的潜在意识和偏差是否会被编码进帮我们做出决定的算法中。很多人担心开发者的个人偏见会被带入算法，其中一点点微妙的歧视就会让部分人群的利益受到侵害——也许还有更坏的结果，科技平台会演变成弱势群体难以逾越的门槛。即使算法和写算法的人没有偏见，没有人能够保证训练算法的数据中一切都是平等的，现实世界本身存在着偏见，数据集中的内容也会对人工智能框架产生影响。

持这一观点的决策者和专家们经常误解人工智能算法出错的原因。他们不断指责开发者，却忽略了自我学习系统的局限性。将错误推给别人是一种自然反应，特别是在你无法理解这些技术时。算法的偏差很少来自于开发它们的工程师。事实上，在大部分情况下，问题的根源出自训练算法的数据，这才是构建未来人工智能社会所要担心的真正危险。

算法决定论

回想一下机器学习到底是怎么工作的，通过应用统计学技术，我们可以开发自动识别数据中特征的算法。为了达到这个目的，系统需要经过巨大数据集的训练，训练模型的数据越多，预测准确率越高。

在个性化数字应用中，这些统计学习技术被用来建立算法，为用户提供个性化服务，计算机阅读了我们的使用模式、品味、偏好、人格特征和社交图谱，随后建立起对于人类的数字观感。计算机形成的社交身份并不基于你的个性或选择，相反，这种虚拟身份来自于你的可统计数据点，和它们的机器解释。这种代替，无论多么复杂，都是人工智能对人类的不完美数字表达。

人工智能只能查找历史数据，为用户所需做出建议。这就是为什么今年 8 月，一个视觉识别神经网络通过 1400 万张照片的训练后预测唐纳德·特朗普将会赢得本届美国总统大选。鉴于这个数据集中并没有女性美国总统，AI 可能判断性别是识别模型的相关特征。但即使排除这一点，如果让这个俄罗斯人训练的人工智能投票的话，它肯定会投特朗普。

这样的推论会导致越来越僵化的推荐系统，它倾向于不断强化现有的看法，就像社交网络中的反射效应一般。「个性化」使每个人都被贴上了标签，让现实生活和网络世界互相割裂。计算机不断地推荐「你喜欢的」内容，用户获得的信息在不知不觉中被算法误导，人类或许在人工智能真正觉醒之前就已深陷其中了。

动态的人生

我们的身份是动态的，复杂而充满矛盾的。根据我们的社会背景，我们总会拥有者几个不同的身份，这意味着我们需要用到几种不同的 AI 助理——在学校或工作中的，在酒吧或教堂里的。

除了通常的自我介绍，我们在网络中可能也需要以不同的身份展现自我，和不同的群体展开互动。我们不希望自己在社交网络中被随意查看，我们也不希望自己在寻找新奇事物时，还要担心朋友和家人的窥视。如果我们想要试试不同的社会身份，会发生什么？4Chan 创始人 Chris Poole 说道：「这不是你在和谁分享的问题，这有关你与他人分享什么样的内容。身份就像一个棱镜，别人通过它来看你会呈现无数不同的面貌。」

区分不同的自我表达阶层，绘制不同社交环境下的身份，对于人工智能而言是一个巨大挑战。很多时候，人类面临的问题不在于算法设计——我们连自己是什么都还没弄清楚。但人工智能助手总会给我们一个答案：关于过去的我们。身份的变化在这样的环境中变得越来越难，我们的生活习惯和信念被自我强化的循环锁定，算法构建的《土拨鼠日》出现了。

我们在日常生活中越依赖于个性化算法，我们的个性就会越被计算所磨灭，我们所读，我们所见，我们生活的方式都将被机器所决定。通过专注于现状，接管探索信息和偶遇陌生人的渠道，用过去发生过的事情试图再一次讨好自己，这就是算法决定论的世界。

当过去照进未来，人类赖以生存的自发性，开放与进取变得逐渐稀缺。温斯顿·丘吉尔曾经的话变成了这样：我们塑造了算法，然后，算法塑造了我们。

如何阻止未来

在今天，现实世界中的人工智能应用已经融入到了日常生活的方方面面——而人们对这一科技的兴趣也是越发浓厚。但是有两个主要的挑战正让未来变得难以触及。从科技进步的角度来讲，不同应用之间的数据交换上缺乏互通性标准，而具备这一点能够防止彻底的个性化。要是想要真正有用的话，机器学习系统需要更多的个人数据——而这些数据现在都被孤立地分散在一些有竞争力的科技公司的专业数据库当中。那些掌握数据的公司就掌握了权利。一些公司，最著名的比如说像 Apple 和 Viv，已经开始通过与第三方服务结合的实验来扩大自己的势力范围。最近，一些最大的科技公司宣布了与人工智能研究的主要合作，这样就可以将益处带给大多数人，而不仅仅是少数人。这将会对今后建立对人工智能的普遍信任至关重要。

从社会的角度来看，人类似乎对人工智能的急速发展有一种莫名的反感。人们担心会失去对人工智能助手的控制。信任是我们控制能力的一种直接表现。试图对生产力进行一些微小的改进，却要赌上关系和名誉，大多数人都不愿意这样做。

当然，在早期，人工智能助手的行为方式可能并不是它的人类制造者所期望的。有先例证明，一些失败的人工智能实验会减少对弱人工智能（narrow AI）解决方案和聊天机器人（conversational bots）的信任。Facebook、微软和谷歌纷纷在 2016 年建立了它们的机器人平台，但过早呈现在人们面前的人工智能科技，因其有限的功能、应用和定制化让用户大失所望。

一直困扰我们的恐惧——人工智能科技的后果，也因为很多科幻小说中所描述的有意识、暴戾的人工智能统治世界的反乌托邦场景而加剧。但是我们所面对的未来，既不会像是人工智慧网络「天网」（Skynet），也不会像乔治·奥威尔的《1984》里一样：而更可能会像是《美丽新世界》（A Brave New World）中所描述的一个享乐主义的社会，在那里，科技的地位仍然是需要为普遍的幸福和自我放纵所服务。

未来导向型机制

科技发展的脚步从未停滞，但希望仍在。2016 年全球杰出青年社区（Global Shapers Community）的年度调查显示，在年轻人眼中，人工智能已经成为了主要的科技发展趋势。此外，21% 的调查对象表示他们支持人形机器人的权利，而且在东南亚，支持的呼声尤为高涨。年轻人们似乎对于人工智能在我们日常生活中所扮演的角色持非常乐观的态度。

在欧洲，欧盟的《一般数据保护条例》（General Data Protection Regulation，简称 GDPR）让用户有机会要求对基于分析的算法决策进行解释，限制了绝对形式的算法决策。该条例有望于 2018 年 5 月之前在所有欧盟国家实施。这样的机制能够限制资料搜集，强调了人类可解释性（human Interpretability）在算法设计中不容忽视的重要性。但是，这是否会对一些大型科技公司现行的算法实践带来主要的变化，还尤未可知。

每天都有关于我们每个人的成千上万个算法决策——从 Netflix 的电影推荐、Facebook 上的好友建议，到保险风险评估和信用评分。就各方面而言，人们自己应该有责任对关于自己的算法决策进行跟踪和仔细审查，或者说我们可能需要将此编码到他们使用的数字平台设计当中？责任是非常重要的一点，准确来说是因为在大范围内进行估量和实施是非常困难的。

因此，在一头栽进这个未知的领域之前，我们需要回答一个问题：我们想让人类和人工智能之间的关系成为什么样子？反思这些问题，我们才会设计出非决策性的、透明并且有责任感的算法，这些算法能够辨别出个体当中复杂、发展和多方面的本质。

微信名：腾讯研究院

微信ID：cyberlawrc

❶ 网聚智慧连接未来
❷ 研究合作：[email protected]

❸ 长按右侧二维码关注

公众号搜索“腾讯研究院”收听研究院及各子中心账号