专栏名称: CTO肉饼
robbin是前JavaEye网站创始人,现在是丁香园CTO。如果你是技术人员,正在创业或者希望加入创业,关注互联网产品、研发、运营、创业管理,请关注我。
目录
相关文章推荐
51好读  ›  专栏  ›  CTO肉饼

川普落选-大数据能否操控政治?

CTO肉饼  · 公众号  · 程序员  · 2020-11-08 18:52

正文

请到「今天看啥」查看全文


2020年的美国大选这场戏,实在是跌宕起伏,非常精彩,几经转折,民主党候选人拜登最终当选。但是民调数据却继2016年美国大选被打脸之后,再次惨遭打脸。以至于很多搞统计学的专业人士悲哀的慨叹:这个行业实在搞不下去了!

在大选投票之前,美国各路民意调查机构的公布数据来看,民主党候选人拜登都大幅度领先共和党候选人川普,拜登差不多领先了10%左右。民调机构给出的拜登获胜概率超过了95%。这意味着拜登将毫无悬念的、以压倒性的优势战胜川普才对。

然而实际的竞选过程非常焦灼,两个候选人的选票差距并没有民调看起来那么大。拜登固然破了美国有史以来最高投票数,达到了 7500万票 ;然而川普也破了美国有史以来最高投票数,达到了 7000多万票 。如果说拜登最终能够获胜,主要也是赢在3个摇摆州:宾夕法尼亚、密歇根和威斯康辛州,而这3个州的票数差距,非常非常微弱。

那么为何美国民调机构会失准的这么严重呢?我们再回到四年前的2016年美国大选:希拉里 vs 川普。

2016年,希拉里希拉里几乎是一边倒的得到了精英阶层以及主流新闻媒体的支持。以至于在投票之前,希拉里在民调机构的胜率超过了80%。但是最终大选唱票结果却令大多数媒体大跌眼镜,川普以306票 vs 232票获胜。

为什么民调数据居然失灵成这个样子?为什么传统媒体和社交媒体一边倒的声量完全不能代表真实的民意?美国大选最后选出了黑天鹅?在2016年之后,有很多关于民调失灵的讨论和反思。一个相对共识的观点是:

美国社会非常强调 政治正确 ,川普是一个以 政治不正确 著称的人,真正支持川普的很多选民是不敢公开站出来支持川普,表达自己真实的意愿的。例如硅谷著名的VC,Paypal的创始人,Facebook的早期投资人Peter Thiel公开支持川普,就被舆论群起围攻了。因此民调数据也好,社交媒体声量也好,并不能代表真实的情况。

但是川普作为现任美国总统已经四年了,支持川普已经成为一种非常主流的声音,甚至声势浩大。加上民调机构吸取了4年前的教训,在数据调查抽样,以及数据模型上做出了非常多的挑战和改进,然而依然被打脸了,而且严重打脸。

为什么会这样?我认为: 在移动互联网下的社交媒体时代,用统计学的抽样调查去做民意预测,已经过时了,不可能靠谱了

移动互联网时代,人手一个智能手机,随时在线;社交媒体时代,人手一个实名ID,网络身份和社会身份高度重合。人和人之间的交流被拉得无限近。政治人物不再是高高在上的遥远存在,而是直接沟通了。政治人物对选民的触及维度,远远超过了过去。特别是川普,几乎就是一个大号的网红。

所以从技术术语去描述的话,就是总统候选人和选民之间的 链接关系变得异常庞大和复杂 ,并且产生了海量的数据,不再是传统的统计抽样模型可以准确描述的了。在这种情况下,必须用大数据的处理方式去应对了。

在这里,我们拿人工智能领域的语音识别技术的发展历史来做个对比吧:

用机器来进行语音识别,已经有好几十年的历史了。最早的解决办法是请一群语言学家,总结出某种人类语言的语法规律,然后软件根据语法规律来建模。这种「总结规律」-> 「用规律去套用」的解决问题模式,就是人类最自然的方式。然而这种方式在语音识别方面并不成功。

后来在上世纪九十年代,一群卡耐基梅隆的计算机科学家(包括李开复博士),采用统计学的方法实现语音识别。也就是不管人类语音的语法规则了,只是把语料按照统计学进行分类识别,结果效果非常好,接近了90%。其中IBM的Viavoice软件就是其中最著名的。

如今的民意调查实际上也是在用统计学的办法做小样本的抽样,企图用小样本量来预测整体的情况。其实就是用小样本的抽样调查,企图了解整个大的人群当中的真实倾向性。

这在传统的平面媒体和电视媒体时代,只要抽样方式比较科学,还是准确的。因为总统候选人和选民之间互动很少,产生的数据量不够庞大和复杂。然而在如今移动互联网下的社交媒体时代,总统候选人和选民之间互动太多了,产生的数据量非常庞大,而且异常复杂。这意味着用统计学方式抽样,不得不丢弃很多数据的维度。而丢弃的任何数据维度,都很可能成为扰动大选结果的那只蝴蝶。自然结果就不可能靠谱了。

回过头继续说语音识别技术的发展。在2010年以后,语音识别的准确度飞速的提升。如今不要说英文语音识别了,就是中文语音识别,无论是科大讯飞、还是搜狗、百度或者腾讯,准确率至少都在98%以上,甚至可以相当精准的识别方言。语音识别和语音控制已经成为我们很常用的基础功能之一了。

如今语音识别的这么好,是怎样做到的呢?其实答案很简单:就是用海量的数据喂出来的。在移动互联网时代,产生了海量的语音数据,有了这些语音数据,用深度神经网络去不停的尝试,寻找最适合的数据处理模型,在如今强大的算力支持下,就变成了小菜一碟。

所以民意调查也是一样的。要做到的并不是抽样那么一丢丢样本数据,那没啥用。得尽可能的采集到更多的选民数据,然后交给计算机用算法去跑就好了。

事实上,川普在2016年 vs 希拉里的大选中,非常聪明的利用了这一点。

当时川普的竞选团队雇佣了剑桥分析(Cambridge Analytica)公司来帮助赢得选举。而剑桥分析公司干了什么事情呢?

他们在网上搞了个大型心理测试,标榜是剑桥大学讲师所出的。大家一看是剑桥大学的心理专家所出的心理测试题,于是纷纷参与。而这个心理测试的最后,要求你Facebook账号,心理测试结果会通过Facebook发给你。

但实际上,在你授权登录Facebook的时候,就已经读取了你的姓名,生日,婚姻状况,所在位置,还有你在Facebook发的文章,以及你所点赞的文章。于是乎,你的心理特征就能被分析出来,再结合你平时发布、浏览和点赞的文章分析出你这个人的性格和特质,从而建立一个快速,准确,且有效的「心理模型」。

在2016年,有高达8700万名Facebook用户的大数据,到了剑桥分析手中。最后利用这些大数据所制成的个人心理模型,几乎遍及了全美国三分之一的选民。针对不同选民的倾向性,川普就可以精准的针对不同的选民分类、打标签,采取不同的竞选宣传策略。

这恐怕也是川普在2016年,在不被看好的情况下一鸣惊人当选总统的原因之一: 通过大数据精准的实施了针对将近1/3选民的竞选策略 。那你说为什么川普在2020年大选中,不继续如法炮制呢?

这是因为在2017年,剑桥分析公司东窗事发了,连带Facebook都被质疑隐私权,扎克伯克上了美国司法部的听证会。剑桥分析公司声名狼藉,2018年就宣布关门了。

其实从这个事情当中,就可以看出来「大数据」的重要性,在AI时代,基本上是得数据者得天下。在一个非常庞大和复杂的、源源不断的产生海量数据的系统中,千方百计的获取全量的数据,一定会立于不败之地。

例如,某互联网巨头的金融科技公司最近在上市前突然被叫停了。其主营业务模式,本质上就是银行的信用卡和消费贷,但是其分期贷款利率远高于商业银行,而且其贷款资金也不是自有的,而是来自商业银行贷款,以及贷款的再证券化。其估值简直上天了。

为啥它就可以小博大 ,几乎空手套白狼?让商业银行、证券机构乖乖为其打工,还只能吃点残羹冷炙?说到底还是因为它手里掌握着中国好几亿人口的消费信用数据呗。有了这个海量且精准的数据在手,传统的金融机构,无论是银行也好,证券公司也好,都只配给它提鞋了。

说到这里,我也想表达一个观点:在如今的互联网时代,以至于未来的AI智能时代,其实国家的命脉将越来越被掌握到几个超级互联网公司的手中。就像Facebook如果想操纵美国大选的话,是非常容易做到的;而某金融公司未来也会对中国金融的掌控能力越来越强。

所以,超级互联网公司,特别是掌握了海量用户数据的超级公司,会越来越成为国家基础设施的一部分。超级公司的掌舵人如果想「作恶」,实在是很容易的事情。我想,这恐怕也是现在国内的超级互联网公司越来越被政府监管重视的原因之一。

最后,人类历史上的超级垄断的公司,无论是上个世纪初的摩根银行、美孚石油公司、以及后来的AT & T,PC时代崛起的IBM,微软,乃至于今天的Google和Facebook,尽管在公司创业之初都怀着理性主义的价值观,但走到垄断的阶段,都成为了人类社会核心资源的掌控者, 昔日的勇者变成了今天的恶龙 。而在今天以及未来,毫无疑问是「得数据者得天下」,垄断数据的公司就具备了极强的政治操控能力。而这一点,正是我们中国社会更加应该警惕的地方。







请到「今天看啥」查看全文