二十一世纪以来,随着社交媒体和社交网络的兴起,网络发生了翻天覆地的变化。以前,我们在网站上得到的信息绝大部分是B2C的,而现如今信息则更多是C2C的。既有Youtube视频,也有个人文章;既有产品评论,也有个人公众号。与此同时,互联网成为了一个有更多互动的地方,人们在这里互相交流、互相评论、互相分享,而不只是阅读信息。
人们在网络中创建着各种不同的角色,这并不需要太多的计算机技能。不过在这些过程中,人们在网上输入大量个人信息。这样的结果是,网络公司拥有了数以亿计网民的行为信息、喜好信息以及人口数据资料。这在历史上前所未有。
演讲者Jennifer Golbeck
直言道
,作为计算机科学家,这些海量的数据意味着她能够建立模型来预测各种各样的你,或许能够挖掘你完全没有意识到的,与自己所分享的信息相关的隐藏信息。科学家利用这些信息给上网者提供便利,而有的商业公司则利用数据牟取私利。
Jennifer 讲述了塔吉特利用大数据分析引发的趣事。这家百货公司通过分析顾客的历史购买记录得出了“怀孕分”,不仅能知道一个女性是否怀孕,而且还能计算出她的分娩日期。
Jennifer的实验室
已经开发了一些机制来较为准确地推测一些事情,比政治立场、性格得分、性别、性取向、宗教信仰、年龄、智商,另外还有对认识的人的信任程度以及人际关系等。强调一遍,这种推测基于那些在你看来显而易见的信息。
Jennifer举了一个自己最喜欢的例子。这项来自2013年发表在美国国家论文集上的研究,仅仅研究了人们在Facebook上的“赞”,来预测之前所说的所有特性甚至其他。
与志愿者对自我的评价比较,电脑仅需分析10个“赞”便能比其同事更准确预测其性格;通过分析70个“赞”,电脑就能超过其朋友或室友;150个“赞”超越其家人,而300个“赞”则能“击败”其配偶。
在文章中列举了最能够显示高智商的五个“赞”,而赞“炸扭薯”页面的是其中之一。炸扭薯很好吃,但喜欢吃炸扭薯并不一定意味着你比一般人聪明。那么为什么喜欢某个页面就成为显示你智商的重要因素,尽管该页面的内容和所预测的属性与此毫不相干?
其中应用的一个基本理论就是社会学的同质性理论,俗话就是「物以类聚,人以群分」。这是数百年来公认的理论,这也是信息在网络上传播的途径之一。
其实,对于一般用户来说,我们很难知道自己喜欢的事情反映了自己的什么特征,况且这个特征还可能和自己喜欢的内容毫不相干。用户其实没有太多的能力去控制这些数据的使用。这才是将来的真实问题。
Jennifer认为,要是想让用户拥有使用这些数据的能力,有几条可选的路径需要探究。在分析了政策以及法律路径不可行之后,她认为,更有效的途径以及更加科学的途径,是开发一种技术让我们能够首先处理自己的个人信息资料。比如在Facebook上点“赞”
或者分享一些私人信息之前,用户说明“这样做你需要承担那样的风险”。这样做,起码给人们分享提供了选择:是要保持私隐,还是在网上只字不提。