专栏名称: SegmentFault思否
SegmentFault (www.sf.gg)开发者社区,是中国年轻开发者喜爱的极客社区,我们为开发者提供最纯粹的技术交流和分享平台。
目录
相关文章推荐
OSC开源社区  ·  李彦宏:DeepSeek让我们明白要将最优秀 ... ·  昨天  
OSC开源社区  ·  敢自称Java版PyTorch,EasyAi ... ·  2 天前  
OSC开源社区  ·  如何公正评价百度开源的贡献? ·  3 天前  
程序员的那些事  ·  if微信+DeepSeek=王炸,百度+De ... ·  3 天前  
51好读  ›  专栏  ›  SegmentFault思否

上厕所、洗澡、滚床单……你家里的Siri,可能24小时都在偷听你

SegmentFault思否  · 公众号  · 程序员  · 2019-09-03 11:47

正文



文章来自极果网(ID: JguoJguo)
文末留言领福利


苹果、微软、Google ……海外几家大公司,都先后被曝出 利用智能音箱/手机,偷录用户谈 话, 并将部分含有用户隐私之录音,发送给了负责识别精确度核查的第三方承包商。


这些片段的内容五花八门: 性◾️录音、家庭八卦、亲友之间的通话内容……甚至还有疑似毒品交易现场的谈话。 而外包团队在负责核查之余,还会将含有“笑料”的片段,在公司内部传播取乐。

一个AI背后,到底有多少人在偷听你?


隔墙有耳

第一个倒下的是亚马逊。

今年 4 月 11 日,彭博的一篇报道,拉开了“AI 窃听门”的序幕: 亚马逊为了强化 Alexa 智能助手的表现,在全球范围内雇用了上千名人类员工,对 Alexa 智能音箱录下的声音片段进行人工审查和监听。


一名人类员工,每天最多会听到大约 1000 条亚马逊发来的用户录音。 他们需要将录音转述成文字,为特定的关键词打上标记,最后再将转写下来的文字和音频归档。

问题在于,亚马逊送来的对话里,有时会夹杂一些奇怪的东西: 浴室里传来的跑调歌声、小孩子的尖叫、模糊不清的求助声……这些都是语音助手被误唤醒时录下的片段。 而据报道,负责审核的员工们,似乎并不太在意这些录音的私密性。 遇到特别有意思的片段,还会在公司内部分享,以此取乐。


面对这种丑闻,亚马逊方面迅速做出了回应,称人类员工对录音作出的标记,有助于 Alexa 改善理解能力。 而且公司有着严格的保密措施,员工无法直接获得跟录音相关联的账号信息。 被标记的用户录音,也只是 Alexa 所录片段中极少量的一部分。

7 月份,事情开始失控: Google 的语音助理也被曝出,有人类员工在背后监听智能音箱,和手机 App 的录音内容。 外媒甚至拿到了一段 Google 语音助理录下的片段,轻而易举地找到了这份录音的原主人。


等到月底,苹果的 Siri 也加入了窃听门的行列。 由于 Apple Watch 更容易误触,审核人员听到的内容也更加糟糕: 拉拉链的声音 (显然是刚上完厕所) 、毒品交易现场、以及……不慎被 HomePod/Apple Watch 录下来的滚床单片段。


说好的“What happens on your iPhone,  Stays on your iPhone. ”呢?


8 月份,更过分的来了: 微软被曝出监听用户的 Skype 通话内容,以及跟 Cortana 之间的交谈记录。 据外媒报道,微软这边能听到的内容也是五花八门: 详尽的地址信息、十分露骨的搜索请求、和某些不能详细描述,反正是带点颜色的Skype◾️◾️记录。


至于监听用户 Skype 通话的理由,微软后来回应称,是为了改善那项 2015 年发布的,内置在 Skype 当中的 AI 同传服务。 只不过他们当时没告诉你,除了 AI 之外,听你说话的还有其他人。

最后一个沦陷的是 Facebook。 尽管没有语音助手,但他们还是将旗下Facebook Messenger 中用户发送的语音转文字消息,通过外包方式交给了第三方进行核查。 尽管波及范围不如前面几家公司广泛,但爆料人士依然指出,有部分录音内容“相当敏感”。

大公司们为什么要做这种事? 人工智能,不是挺聪明的吗?


人工智能的 B 面


有多少智能,就有多少人工。


现如今什么产品都讲究一个“增智慧”。 从 AI 摄影到 AI 助手,线上智慧生活无处不在。 但鲜少人知的是,养 AI 跟养孩子差不多。 需要有人不断地教给它们什么是对,什么是错,才能得到越来越精确的结果。

图像分割 、图像识别、语音转文字、语义分割……这些都需要有人类从旁协助。 原始录音就是问题,而人类整理好的誊写内容,就像单词卡片背面的答案。


人工智能越来越热,这些用数据饲喂 AI 的人,也越来越多。 需要让 AI 理解人类语言? 那就让人类把一句话按照规则拆开,再交给程序去学习。 需要让 AI 学会看路? 那就先让真人把照片里的车、人、路灯……统统做好标记,再交给 AI 去慢慢认就好了。


没错,拿脱敏过的用户录音给人类听,再用结果去矫正 AI,其实算是举球通行的惯例。 如果不信,你可以看看 百度 DuerOS 的这份隐私政策:


以及,这是 小爱同学 的:


天猫精灵 的:


换句话说,你有权保持沉默 (或者拔插销) ,但你被录下来的每一句话,不管有意还是无意,都可能成为喂养 AI 的饲料。 而且他们并没有告诉你,“用于改进和提高产品”的潜台词是,你对音箱所说的话,也可能会有人类工作人员听到。


严格来说,这些信息应当只在企业内部分享,而且员工对录音内容负有保密义务。虽然你不小心被AI录下来的黄段子 (或者别的什么更糟糕的东西) 有一定概率会被人类听到这件事非常让人不爽,但平心而论,这算不上什么隐私泄露事故。

当然了,这不代表这些做法没问题,我们等会儿再说这个。


“饲养 AI”曾经一度催生了庞大的下游产业。 智能音箱最火热的时候,甚至出现了大量专做数据标注的外包团队。 不需要学历,不需要经验,经过简单的培训,一个人很快就能学会给图片拉框,给人脸加点,把语音转成文字……

不知道有没有人意识到这当中的荒谬: 从诞生的第一天起,这份工作的最高目标,就是消灭自身。

(这种验证码本质上也是数据标注)

还有一些公司,将这种“时间密集型”工作,做成了谁都可以在家赚外快的网络任务。 他们需要做的可能是教 AI 听懂人话、识别人类的骨骼点,或者是给聊天机器人编写一些有意思的回复。

被制作的素材,和标注数据的人一样,都只是完成AI所必须的工具而已。


大数据 = 无隐私?

欢迎来到 21 世纪。

收集数据-脱敏-分析,是当代大数据应用的通行做法,也被多国监管部门认可。 但是有研究表明,这种做法其实没什么作用。


英国伦敦帝国理工学院的研究人员,利用公开的匿名数据训练了一个 AI,结果只用到了生日,性别,居住地邮编和子女数量,就能从匿名数据集中,定位出整个马萨诸塞州 79.4% 的人口。 如果特征量进一步增加,准确度甚至能达到 99% 以上。


换句话说,即使拿掉了姓名、电话和身份证号,还是有办法从大数据中找出特定的某个人。 何况根据之前的报道,审查人员还是能听到用户亲口说出的私密内容。 所谓的隐私把控,好像从数据脱敏这一步开始就已经失灵了。

更可怕的是,集中存放的隐私数据,本身就是一块闪光的肥肉: 海外一间指纹锁公司 Suprema 由于安全漏洞,被人摸到了超过 100 万人的指纹和人脸识别数据,且关键信息大多未经加密。 密码泄漏可以再改,人脸识别数据被人偷走,恐怕只有换脸才能解决。

(泄漏出来的后台数据截图)






请到「今天看啥」查看全文