专栏名称: 脑极体
你的困惑,来自于无路贴近未知。我们在技术、思想、传播的异界,贩来极限脑量下的TMT。
目录
相关文章推荐
包头晚报  ·  颠覆传统模式!包头这所学校开启AI智能教学 ·  13 小时前  
包头晚报  ·  颠覆传统模式!包头这所学校开启AI智能教学 ·  13 小时前  
幸福东台  ·  考试通知 ·  昨天  
网信江苏  ·  今天14:00!江苏省2025年全国硕士研究 ... ·  昨天  
长安街知事  ·  75岁姜昆:跟头是翻不动了,但脑子不能老 ·  昨天  
半月谈  ·  品读 | ... ·  2 天前  
51好读  ›  专栏  ›  脑极体

被遗忘权的崩塌:当AI可以通过你的朋友了解你

脑极体  · 公众号  ·  · 2019-01-28 19:10

正文

在智能推荐无处不在的今天,相信我们每个人都或多或少患上了隐私焦虑症。平时和朋友说话聊天都疑神疑鬼觉得手机在偷听,很多人也因此越来越不喜欢在社交媒体上发布信息了。


不说、不转、不点赞,看起来似乎是非常合理的“隐私三连”——如果我不留下任何数据痕迹,机器学习自然也没办法对我的喜好进行分析了。


可事实真的如此吗?


精准预测你的社交媒体行为,

只需要9位互关好友


最近在《自然》杂志中,来自佛蒙特大学的数据科学家们公布了这样一项研究,在推特上无需查看个人用户数据,而是通过对个人用户互相关注好友的推文数据分析,就能实现对个人用户社交媒体行为的精准预测。


换句话说,就算你删号退网,机器学习仍然可以通过你的好友列表来分析出你的用户画像。


在研究中,研究人员收集了一万三千余个推特账号,这些用户分别都拥有150-200个好友。在好友中找到互动率最高的前9位并进行分组,将用户好友组中好友的行为数据以时间为线索进行分析。


数据科学家们通过研究得出,一般社交媒体用户,只要不是专注某一领域的KOL,通常在社交媒体上使用的词汇不超过5000个。如果用中文来比喻,大概就是“哈哈哈哈”“不转不是中国人”“我家哥哥太帅了吧”这些常规词汇。



而通过对用户好友的常用词分析,基本可以圈定该用户的兴趣范围。研究者提到,很多专注于某一领域的用户(比如政治),其实在社交媒体用词量上只有几百个单词。在兴趣范围内的词汇量中引入代表个人行为变化的熵率,再与建立在时间序列上的文本生成算法相结合,就能够实现通过社交关系来预测个人社交媒体行为。


而当好友组中的好友数量越多时,这种预测也越准确。但值得注意的是,一旦好友数量超过150人,预测的准确率反而会下降——因为好友数量过多时往往双方的关联度降低,脱离了一个本来的兴趣圈子,在行为上也很难形成映射关系。


也就是说,如果你微博好友都是战狼团,那么你也会和大家一起“虽远必诛”,如果你的微博是追星阵地,那么你也会深夜和姐妹们一起为idol打榜。一个人的网友圈子,决定了他的认知范围,也进而使得其行为可以被预测。


看来,人类的本质是复读机无误了。


圈层竖立起高墙,

隐私在内部塌陷


这一研究虽然展示了自然语言处理能力的进步,却也证实了两个我们担忧已久的问题。


首先,通过推特好友的言行对于用户的言行进行精准推测,无疑是为信息茧房理论投了一张成立票。


自从桑斯坦的信息茧房假设被传播开以来,关于这一假设的认可程度其实长期处于不稳定的状态之下。尤其是近些年来社交媒体和个性化信息流的火热,更让很多人常常把信息茧房四字挂在嘴边。支持者认为算法推荐会源源不断的把符合用户兴趣的信息推荐给用户,最终导致用户认知闭塞,缺乏对世界的完整化理解。


其反对者认为,人天生就会对所接受的信息表现出兴趣趋向,即使是报纸和书本时代,人们也会选择自己感兴趣的内容来阅读。而这种选择并不会形成所谓“信息传播阻碍”“对外部世界的认知疏离”,所谓的茧房假说也不能成立了。


可佛蒙特大学在这次研究中提出了观点——人之于信息,很多时候不仅是兴趣选择,还存有社交选择。社交媒体上朋友的兴趣、语言风格、活跃时间与个人用户社交媒体行为存在的强关联,意味着一个人信息茧房是通过社交圈层搭建起来的,而这种茧房已经直接作用在用户的表达能力上,例如在研究中出现的一个有趣现象,越是对政治话题感兴趣的用户,在社交媒体上发言的词汇量越匮乏。某种程度上,这证明了信息茧房下的传播圈层障碍越来越明显,长期浸淫在某一圈层的人,不仅仅失去了接受其他圈层信息的机会,也失去了接受其他圈层信息的能力。



更可怕的是,通过互关好友摸清用户喜好这种技术,终于让我们失去了个人隐私的最后一片领地。


奥地利法学家舍恩伯格曾经出版过一本名为《删除:忘记是在数字时代的美德》的书,讲述的是个人信息在互联网上的被遗忘权,那些关于个人用户的信息,个人用户应有权要求网站和平台从服务器端彻底删除或者限制访问。


一开始人们对被遗忘权的要求还只停留在强制拍卖、失信名单这一类个人负面信息上,但很快相关需求开始变得越来越广泛。例如2013年左右曾经很流行一种工具,可以根据用户主页链接找到那些曾经被用户删除微博、豆瓣等信息,当时被很多人用来进行人肉搜索,以至于再次激起了人们对于被遗忘权的强烈需求。


到今天被遗忘权已经被写进欧盟的GDPR,注销账号、删除一切已经成了我们捍卫网络隐私的最后一条防线。可“好友算法”的出现意味着,只要对方能找到你的好友关系,即使你删去了一切内容,依然可以会将自己赤裸的展示在算法面前。







请到「今天看啥」查看全文