专栏名称: 极客公园

科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。

揭秘｜那些隐藏在 YouTube 人工智能背后的「临时工」

极客公园 · 公众号 · 科技媒体 · 2017-04-29 20:43

正文

还记得《暴走大事件》里看太阳都是绿色的唐马儒吗？在美国也有做类似工作的临时工。他们中有很多人非常喜欢这份工作，甚至渴望转正，成为「职业看片师」。

编者按：一个多月前，Google 旗下的 YouTube 视频网站爆发了广告危机，多家知名公司发现自己的广告被放在一些宣传恐怖主义和反犹太主义的视频中。这些大公司因此发起了抵制 Google 的行动，纷纷撤下自己投放给 Google 的广告，Google 也因此损失了上亿美元的收入。

广告的分发是交给人工智能来完成的，因此在山景城的 Google 总部，人工智能研究员们最近的日子不大好过，他们加紧了对人工智能的优化。但除了他们以外，还有一群人的工作也因此紧张了许多，他们就是在人工智能背后训练程序模型的工人们。

本文编译自 WIRED（https://www.wired.com/2017/04/zerochaos-google-ads-quality-raters/），原文标题为「The Hidden Laborers Training AI to Keep Ads Off Hateful YouTube Videos」，略有删减。

在美国，有那么一些 Google 的员工，他们每天的任务就是打开电脑上 YouTube 看视频。这些人在视频里寻找暴力元素，在标题里寻找不堪入目的文字。他们有权决定一个视频片段是否带有「人身攻击」或者「敏感信息」。

他们被称为「广告评估员」，是 Google 从外包公司聘用的临时工，主要负责处理一些机器无法独立完成的判断。而现在，Google 似乎亟需这些人的帮助。

Google 旗下的视频网站 YouTube 凭借其海量的用户和视频资源，吸引了无数广告主。广告贴在哪些视频上全靠人工智能的算法决定，因此广告商也不清楚他们的广告具体会出现在哪些视频中。最近，这种广告投放的不确定性成了 Google 的一个大麻烦。多家报告显示，Google 允许广告出现在提倡仇恨和恐怖主义的 YouTube 视频中，这家公司因此而受到了审查。像沃尔玛、百事可乐以及电信运营商 Verizon 这样的广告商渐渐选择离开 YouTube 广告平台，甚至整个 Google 的广告网络，这让主要依靠广告营收的 Google 一度日子很不好过。

从 Google 平台上撤下广告的大公司

Google 一直在努力打压这种说法，它表示媒体过分夸大了在不恰当视频中展示广告带来的问题，「这些视频的观看量还不及所有广告商的十万分之一。」Google 的首席营销官 Philipp Schindler 表示，这个问题只影响到了「非常非常非常少」的视频。但广告评估员们却说 Google 正在大量招募他们以防止问题进一步恶化。

由于 Google 总收入的 90% 都来自广告商，所以他需要迅速定位不合适的内容以防止广告商的流失。但每天在 YouTube 上，用户会上传接近 60 万小时的视频，这几乎需要大半个城市的人昼夜不停地观看才能完成审核。这也就是为什么这家科技巨头强调开发人工智能的内容审查系统，这种审查系统可以一次标出非常多的视频。「这个问题无法由人类来解决，也不应该由人类来解决。」Schindler 说道。

问题是，他们仍然需要有人来训练 AI。因此，Google 仍然需要雇人来识别并标记那些敏感内容，以此来构建供 AI 学习的数据。但有八名现任及前任的广告评估员在接受《连线》杂志采访时说，有一段时间 Google 非常依赖广告评估员的工作，但缺少良好沟通以及工作的不稳定性等原因使他们很难做好这份工作。

「我不是说这是目前危机的全部原因，」一位前 Google 广告评估员说道，Google 并没有授权他在媒体面前谈论这份工作。「但我相信不稳定性是一个原因。我们评估员训练 AI，但人类在做内容评估时是需要深思熟虑的，这一点我们非常清楚。」

工作强度太大

科技公司长期雇佣内容管理员，并且随着用户上传与分享越来越多的内容，这份工作对这些互联网巨头来说就显得越来越重要。接受采访的广告评估员表示他们的工作不仅仅是监管视频内容，他们还要阅读评论区，标出用户不恰当的语言，还要检查所有支持 Google 广告网络的网站，保证他们达到了 Google 设立的质量标准，并将这些网站分类整理，比如零售网站或者新闻网站，然后点击站内广告来检查是否合格。并且，正如他们的职业名称一样，他们还要评估广告的质量。

然而在今年三月份，Google 在受到广告客户的抵制以后发送了一封邮件给评估员们，要求他们暂时放弃其他工作，先处理「高优先级评估项目」。这个新的方案意味着他们几乎要完全专注在 YouTube 上，他们要把所有 YouTube 视频都梳理一遍，找出广告客户反感的内容。「这是一个巨大的变化。」一位评估员说道。

据评论员们所说，他们庞大的工作量导致在工作时，比起准确性他们会更注重效率和速度。在一些情况下，Google 要求他们在不到两分钟的时间里检查长达数小时的视频内容。在匿名的论坛上，这些评估员相互交流节省时间的方法——比如，查看饶舌音乐视频的歌词来快速查找咒骂性的语言，或者 10 秒 10 秒地快进看一个视频片段，这会比完全看完整个视频快很多。Google 给他们弄了一个计时器来监视他们在每个视频上花了多少的时间。虽然这种时间要求并不是硬性的，但评估者说计时器给他们增添了一层压力。「我很担心如果我在一连串的视频上耽误过多的时间，我会因此而被炒鱿鱼。」一位评估员对《连线》如是说。

广告评估员不只是简单地把视频标记为不适。Google 要求他们对视频的标题和内容进行细致的评估和分类。比如，包含像「亵渎」、「仇恨言论」以及「其他」等「不恰当的语言」，又或者「暴力」分类下包括「恐怖主义」、「战争和冲突」、「死亡和悲剧」以及「其他」等分类，同时还有「毒品」和「性/裸露」（包含「虐待」、「裸体」和「其他」等下级标题）。该系统还为广告评估员提供了「其他敏感内容」的选项——假如说，有人分享了极端的政治观点。（AdAge 最近报道说，Google 现在支持客户选择是否要避免在包含「性暗示」、「亵渎和粗俗语言」和「危言耸听」的内容上显示广告。）

评估员们说，有些内容不适合已有的分类。在这种情况下，评估员会给这些内容标上「不可评估」的标签。一位在任的评估员说他不得不评估一场西班牙语的饶舌大战。「我把它分类为『不可评估』，因为它是个外语视频。」他这么告诉《连线》。「我同时也评论说这看起来像是个人们用外语互相侮辱的视频，但我不确定他们是否在说脏话。」（从最近的广告评估的职位招聘来看，Google 正在优先聘用双语评估员。员工们也可以在听不懂视频语言时选择相应的选项。）

视频内容不堪入目

多位评估员表示，他们被要求观看的视频里会有一些触目惊心的内容。「有人在开卡车时尝试自杀，」一个评估员说道，「那个人把卡车发动了，然后下车对着自己的脑袋开了一枪。」在广告评估员经常浏览的论坛上，匿名发帖者说他们已经看了许多对妇女、儿童以及动物施暴的视频。几个帖子上还说他们需要在连续观看这些视频后休息一下。广告评估员说他们不知道 Google 怎样选择需要审查的视频，他们在评估视频之前只能看到视频的标题和缩略图，并没有评估的理由。除此之外，还有一些人们谈论游戏、政治以及阴谋论的视频也需要评估员们观看审查。

总而言之，从 Google 对 YouTube 网站内容审查的范围以及审查工作的细致可以看出，在处理广告投放的问题时，Google 仍然需要人力的帮助。「我们有许多数据来源，但最重要的来源之一就是你们这些员工。」Google 在给评估员的工作描述文件中这么说道。但是，只有人工智能才能解决 YouTube 如此大的体量，正如该公司的高管们一遍又一遍强调的，在 Google 的人工智能——或者其他任何一家的——足够聪明之前，这些令人反感的内容还是得依靠人力来进行辨别和标识。

Google 的发言人 Chi HeaCho 说道：「一直以来，我们都在依靠科技和人力的结合来分析已被标识的内容，因为要理解视频中的信息是非常主观的。最近我们聘用了许多评估员来加速评估。这些评估结果将会帮助改进我们的机器算法。」

评估员上哪招？

广告质量评估的项目始建于 2004 年。它最初是模仿 Google 的搜索质量评估项目建立的。早期它被用于 Google 的核心广告项目：AdWords 和 AdSense，前者可以生成与搜索结果相符的广告，后者则是在其他网站上分发广告。最初雇佣广告评估员的代理机构是 ABE 公司，他们给评估员开出的薪水是每小时 20 美元。评估员可以全职工作甚至加班。到了 2006 年，WorkForceLogic 收购了 ABE，这之后评估员的工作待遇就没那么好了。一家叫做 ZeroChaos 的公司又在 2012 年收购了 WorkForceLogic，并接管了广告评估员。

广告评估的工作经常吸引一些喜欢工作时间灵活的人，其中包括刚刚毕业步入社会的大学毕业生，退休工人，在家看孩子的父母，还有一些身体残疾的工人。广告评估员可以随时随地的工作，只要他们完成每星期 10 个小时的最低工时即可。评估员们只需要使用自己的台式电脑或者移动设备就可以工作。

但这项工作的不确定性可能会对很多工人造成伤害。「我们大多数人很喜欢这份工作，」一个广告评估员说道，「但我们没机会成为全职或者正式的员工。」

大多数接受《连线》杂志采访的广告评估员都是由 ZeroChaos 招聘的。ZeroChaos 只是众多向科技公司提供临时工的代理机构的其中一家，它给广告评估员开出一年的合同，目前来看，还没人能够连续超过两年干这份工作。一些员工认为这种限制会导致有经验的老员工的流失。（四月初，在我们报道这个故事的时候，ZeroChaos 宣布他们取消了两年的工期限制。）

广告评估员没有涨薪水的待遇，他们每小时赚 15 美金，一周最多可以工作 29 小时。如果他们每周至少工作 25 个小时，就可以申请福利，但他们是否能有足够的任务来达到这个门槛还没有保障。员工们表示他们会发现自己突然就被解雇了，没有提前通知也没给个说法。有好几个员工证实了这种情况的存在，其中一个只干了一个星期。据评估员们所说，这家公司只是发封电子邮件就把他们解雇了。

「Google 会尽量与记录良好的代理商合作，」Cho 说道，「当情况严重到引起我们注意时，我们会将员工的顾虑传达给代理商，并同他们一起解决问题。我们会进一步研究这个问题。」然而对于这个问题，ZeroChaos 拒绝置评。

工作不靠谱，没有安全感

评估员们表示，与 Google 之间缺乏明确的沟通使得评估者对这份工作产生了更加强烈的不安全感。他们不会和 Google 的人见面——就算在面试的时候——而 Google 也只会给评估员们一个署名「广告评估管理团队」的普通 Google 邮箱作为联系方式，用以通知他们与工作相关的问题。评估员发邮件到这个邮箱，却只能收到一封自动回复的邮件。「由于收到报告的数量庞大，管理员不会一一回应问题报告：相反，我们会监控收到的报告，以尽快发现系统级的问题。」Google 的回复信里写道。「如果你需要单独回复，或者对你的账户采取特定的操作，请联系你的合同管理员。」

「同 Google 的沟通是完全不存在的，」一个前评估员说道。「Google 的不沟通是出了名的。」

另一位评估员说道：「在山景城的另一端，这些人就像巫师一样躲在幕后。我们当然非常希望能同他们交流，成为真正的同事，可惜没门。」

就 Google 而言，它确实有告诉评估员们他们正在做的事很重要，虽然它没说明原因。

「我们不是总能告诉你每一个任务是为了什么，但一定都是我们认为重要的事情。」该公司在指导教材中向广告评估员解释。「你不会经常听到你工作的反馈。事实上，你可能会觉得你的工作成果被丢进了黑洞里。就算如此，你的工作仍然非常重要，这与很多 Google 员工息息相关。」

但有时却息息相关过头了。Google 将已经评估过的内容列入广告评估员的绩效审查中。「这些考验将与普通的任务没什么区别，你将在常规工作中完成它们。」Google 在给广告评估员的信中说道。「你们不会知道哪些工作内容是要作为考核的。我们通过考核的成绩来评估你的表现。分数过低可能会导致合同的终止。」

根据佐治亚理工大学的研究员 Mark Riedl 的说法，嵌入已知答案的任务是众包方案的常用审查方法。研究员们通过这个方法来确定每一个评估员的工作是否有效，这也经常被开玩笑地称为评估员的图灵测试。

但 Riedl 说他并认为这个图灵测试有多大的参考价值，他说道：「要知道到我们的基层工作者们也是人类，我们有道义上的责任为他们布置有尊严的工作。」

但也不是所有广告评估员都有这些问题。每小时 15 美元的工资仍然会比大多数城市的最低工资要高不少。一位评估员告诉《连线》它很感激 ZeroChaos 给他这份机会。「因为有犯罪背景，麦当劳都会拒绝我，但 ZeroChaos 并不在意。」许多评估员表示，在找到这份工作前，他们已经接近无家可归或者需要靠领政府食物券生活的状态了。

然而也有人说，就算他们依靠这份工作生活，灵活性也不是他们需要的特点。随时随地的工作确实是一种福利，但根据 ZeroChaos 的「常见问题」，广告评估员是禁止同时在其他公司工作的。一位前广告评估员说她现在正在另一家公司工作，但她很想继续做广告评估员的工作来赚点外快，然而因为这项规定她不得不放弃。「如果我可以同时工作，那我将能拿到更多的薪水改善生活。」她说道，「现在，我每周比失业时多挣 40 美元。但这收入很不稳定。」

高流动性其实是训练 AI 的需要

科技行业的大公司常常雇佣临时员工通过重复性的工作来帮助他们训练 AI 系统。一位广告评估员说起多年以前在微软必应的评估工作，那时他们需要在一个小时内阅读多达 80 页的搜索结果。评估员们告诉《连线》，领英和 Facebook 也在雇人做同样的事情——领英需要人为地为数据标注，Facebook 需要评估粉丝页面的「赞助内容」。（对此，微软拒绝评论，而领英无法证实这个项目的存在。Facebook 没有做出回应。）

工作的临时性和庞大的工作量让这些员工感到不安，他们认为 Google 无视了他们的工作经验。「花时间训练新人然后再把他们赶走，这完全是在浪费钱。」一位前广告评估员说道。

但不断地变更评估员也许正好是训练 AI 的最佳方法。「AI 需要更多的视角，尤其是在如何定义令人不适的内容这方面，」人工智能创业公司 NaraLogics 的 CEO Jana Eggers 表示，「就连最高法庭也无法用语言来概述下流行为。赋予机器更多的视角会产生一个更好的结果。」

然而 AI 研究人员普遍认为，员工士气不好不一定会影响机器学习的效果，一个人的工作环境和经验可能会产生更多微妙的影响。「人们经常听到这种说法，大量输入不同的信息是训练 AI 模型的最佳方式，」康奈尔大学的人工智能教授 Bart Selman 说道，「这通常是个不错的办法，但当涉及到道德判断时，不同的人群有着差异明显的偏见，这些偏见根深蒂固。」比如说，男人在某些类型的工作上要比女人擅长一些，反之也是一样。「因此如果你在训练 AI 时使用的是同一组样本，雇佣的是同一类人，那么你将得到的结果也必定有一种潜在的偏见。」并且如果在训练 AI 时使用的全是充满焦虑的临时工，你的 AI 系统恐怕也会被植入这些人独有的偏见。

「让人工智能通过固定的一群人来训练 AI 学习人类的道德是不妥当的。你应该从那些对潜在偏见和道德问题有更深刻思考的人那里获取判断。」Selman 说道。

在 Google 的山景城总部，正式员工们享受着风景如画的校园，免费的自助餐美食，以及壁球和桌上足球这样的室内游戏。但这一切与广告评估员的生活天差地别。现在说起在世界上最值钱的科技公司上班，并不一定会有奢侈的福利和羡煞旁人的薪水，它可能仅仅代表着无休止的工作，机械性地训练着这些大公司的人工智能——直到它们学会做同样的事情，在将来的某一天完全地代替掉自己。

头图来源：tubefilter（http://www.tubefilter.com/）

本文由极客公园原创

转载联系 [email protected]