利用机器学习从社交媒体中了解你的五个秘密

Python新手营 · 公众号 · AI · 2017-04-24 19:42

正文

我相信这么优秀的你

已经置顶了我

翻译|吴博韬选文|小象
转载请联系后台

大型数据公司，如剑桥Analytica，他们声明列出2016年选举结果这件事成为了头条新闻。此公司致力于从社交媒体简介和第三方数据公司来推断一个人的人格特征，并提供高度操纵性的广告来推动社会舆论的发展。从一系列数据点出发，例如你的购物习惯，杂志订阅情况，Facebook的收藏，以及多达5,000个其他投入等等，Analytica公司基于此为美国2.2亿成年人建立了预测性的个人个性模型。

这些高度详细的个人档案使Analytica能够根据你的个性进行“微观行为定位”。但并不是只有这一家公司这样做，财富500强品牌营销人员，数字广告商和各种规模的分析公司都会分析社交媒体和公共消息，以获取赢得消费者更好的机会。早期研究表明，个性化目标在Facebook商业活动上获得的点击次数高达总数的63%。

如果你在Twitter或Facebook上活跃，你可能要确切了解你的社交媒体需求对广告商可能存在的潜在利用。宾夕法尼亚大学计算机科学教授Lyle Ungar使用他的职业开发统计和机器学习方法，从文本中提取重点，即提取Twitter和Facebook中与用户的健康和幸福相关联的文字。在最近的AI By Bay大会上，他将他的见解分享给了全神贯注的观众们。

经过多年对大量的社交媒体行为的研究，这里有5项预测，Ungar和他的团队可以基于此从你的从你社交媒体的发言中了解你和你身边的情况。

1. 你的年龄和性别

性别导致差异，男性和女性就像火星和金星一样，而在分析男性和女性社交用语的差异时，这种由于性别不同而产生的差异就更加明显。、

另一方面，男人更倾向于大量地使用脏话和游戏术语，他们还喜欢使用类似“我的妻子”和“我的女朋友”这种体现占有欲的语言，而女人仅仅说“丈夫”和“男朋友”而已。此外，年龄不同，表达方式也随之改变，即使是类似的短语，如“精彩”和“兴奋”等，其表达方式也随着一个人的成长而发生相应的变化。

Ungar和他的团队在MyPersonality研究项目中分析了7.5万个Facebook上的个人资料。如果你对此好奇并敢于尝试，可以尝试在Ungar的网站上进行性别和年龄预测，并可将此预测模型和真实情况在准确程度上进行对比。

2. 你的个性特征

虽然迈尔斯·布里格斯（Myers-Briggs）可能会受欢迎，但开放，自觉，外向，兼顾和神经质（也称为OCEAN）的5大人格特征则显示出了对实际行为的更高预测价值。个性不是物理学，你可以在其中计算多个小数点精度的答案。研究人员最多发现与实际预测相关的弱正或负相关性。人的个性特征并不像物理学那样可以将计算精度精确到好几个小数点，而是像研究人员发现的那样，充其量能是与实际预测相对照之下或正或负的弱相关性。

如果你想知道如何在OCEAN进行分数测试，则IPIP-300是网络中的更全面的可用测试方法之一。或者你可以让Ungar分析你的社交媒体资料。

与性别和年龄一样，个性特征的不同在我们使用的语言上得以体现：显然不能让外向在约会的时候等着别人，而内向者则痴迷于动漫，漫画，互联网，当然还有口袋妖怪。

即便我们个人资料和头像也在体现着我们的个性特征，但开放程度较高的人很可能添加艺术照或者作怪搞笑的图片作为个人资料照片或头像，而并不是他们的脸，不过他们确实也具有更好的审美意识，选择的照片大多是高对比度、锐度和饱和度的高品质照片。相反的是，高度认真的人则倾向于做出正常预期的事情比如张贴正面脸的的照片，即只有脸部的证件照；外向的人则倾向于放出与他人的合照。

3. 你从事的工作

如果你没有在职业社交网站LinkedIn上与某人联系，你可能无法看到他们的个人资料和当前所从事的职业。事实证明，他们在Twitter上公开社交过程中使用的词语可能隐晦地包含着这些信息。

然而这并不能达到令人震惊的程度。其实高管们通常就会谈论商业或财务新闻等话题，而较少的高级员工们却也会花更多时间谈论个人兴趣而不是与工作相关的话题。Ungar的同事Daniel Preotiuc-Pietro和他的团队通过对twitter上用户们所用的各种词语进行聚类分析，在对职业进行分类方面取得了在准确性上明显优于其他方法的进展。

4. 一个人“自恋”和其他心理问题的程度

原来一个人的社交媒体语言是可以被筛选的，以带给人们不愉快情绪的语言为甚。对于自恋者们，他们极力寻求众人之中的声望，地位以及来自众人的拜服；精神病患者则缺乏悔改之心，于事敏感，抛弃道德；阴谋论者为达成自己的目的而有意地操纵和利用他人，所谓的“黑社会”即成长于人类行为的阴暗面。正如预期的那样，精神病患者倾向于使用更为激进和暴力的语言，如“死亡”或“愤怒”等明显能够体现出负面情绪的语言，而阴谋论者们的垃圾邮件或广告帖子较多。

也可以分析行为与这些特征的相关性。自恋者们更有可能拥有炫耀自己所在地理位置的动态，并且不太可能拥有重复的帖子或主题，表明他们每发一条twitter动态之前都经过了认真的思考。

5.一个人死于心脏病的可能性有多大

在2015年的一篇研究论文中，Ungar和他的团队提出了一种仅使用Twitter数据的模型，该模型可以比所有传统因素（如人口、社会经济情况和以吸烟，糖尿病、高血压、肥胖为例的健康危险因素）更精确地预测死亡率。恶性竞争关系和慢性压力会加重心脏病。 Ungar和他的团队跟踪分析了反映社会互动负面情绪，消极情绪（比如愤怒和避世的情绪）所对应的语言，这些具有消极、负面情绪特征的语言可以被证明能够更好地预测一个社区人们的心血管死亡率。

译者介绍

吴博韬

“闷声挖大数据，这是最好的。”——一名沉迷于机器学习和数据挖掘的本科生。