专栏名称: InfoQ

有内容的技术社区媒体。

为什么2016美国大选大数据预测普遍失灵

InfoQ · 公众号 · 科技媒体 · 2016-11-13 09:14

正文

请到「今天看啥」查看全文

“

2016美国大选，政治家关注各方力量博弈，新闻工作者专注挖掘背后秘辛，技术人关注的，自然就是隐藏在后的技术细节了。

本文素材来源于互联网。

引言

这是目前为止，史上最为科技化、数字化的一届选举。

2016年这场美国总统竞选被媒体称作“第一次数字化竞选”，特别是希拉里组建了庞大的技术团队，将大量资金花在获取和使用投票者的信息上。

在这场沸沸扬扬的、比《纸牌屋》更引人入胜的政治宫廷大戏的事件中，我们不难看到许多频繁出现的关键词：大数据、社交网络、软件机器人、邮件、黑客，甚至维基解密爆料。

今天的候选人们已经意识到，以互联网为基础的信息技术可以在政治角逐中起到决定性的作用。人们将自己的信息放在网上，让各种网站记录自己的个人和财产信息，在社交网络上公开发表观点。这些公开的信息可以用来描绘出特定用户的面貌，其准确程度远远超过人口普查的结果。在这些数据中，蕴藏着商业、经济和政治的新机会。

大数据基因浓厚的选举

希拉里真正可怕的选举机器——一支来自于硅谷的 “科技天才们” 组成的超级团队。他们确实为希拉里的竞选立下了赫赫战功。

在小布什之前，互联网对于总统竞选团队来说还只是一个 ATM 机——他们不知道互联网除了做一个系统来让选民填写支票，提交捐款之外还有什么别的作用。这次大选，为希拉里选举服务的科技团队拥有 50 余人，相当于一家小有规模的硅谷科技创业公司。他们开发的核心产品就是希拉里·克林顿本人。这支科技团队至今给希拉里带来了 2.4 亿美元的募资额。

50多人科技团队出身硅谷，希拉里·克林顿的竞选有着浓厚的“硅谷风”

这支超级科技团队拆为三块：技术开发部（Techonology）、数字媒体部（Digital）、数据分析部（Analytics）。

数字媒体部负责所有竞选相关的内容：网站、社交媒体、线上广告、电邮、宣传视频、基层筹款与线上活动组织，更加偏向营销职能。
数据分析部负责收集和分析竞选中的数据，以实时监测和准确预测民意动向，精准投放募资和竞选广告，尤其是争取“摇摆州”的选民。
人员最多、最受媒体追捧的，是技术开发部。他们的主要职责是为希拉里开发竞选所需的所有形态的互联网产品。

核心成员清一色来自互联网大公司：有 4 人曾任 Google 高级工程师，其余的来自 Facebook、IBM、Adobe以及 A/B 测试公司 Optimizely、一线数据公司如 Bluelab、Blue State Digital。

在这支团队里，最值得一提的是副 CTO、前端开发负责人：卡尔·拉什（Kyle Rush）。他是 A/B 测试的专家，也是美国权威 A/B 测试公司 Optimizely 的负责人。他接受 7 位前端工程师和 6 个产品经理汇报，完成了大部分产品的优化。

卡尔·拉什作为专家参加 Velocity论坛，发表关于“更快更强的网络”的演讲

团队在成立后的近两年时间里，开发了大约 50 项后端框架，服务于 20 个前端应用。建立了 237 个 Github 项目，维护了一个为数据科学家和分析师团队服务的密集型数据仓库（大小为 15 TB）。产品矩阵包括一个希拉里竞选 APP，一个希拉里竞选主页（美国竞选史上最完备的网站与第一个 APP），和一个在危机中四小时建立的希拉里竞选邮箱系统。

如何进行大数据预测

希拉里挟名流、主流媒体和大数据的威势，在大选中似乎一直占据上风。但实际竞选结果与此前无数民调机构的调查结果都大相径庭。就连两次成功预测大选结果的538网站的Nate Silver预测大神也失算了。

Nate Silver被称为预测大神，是因为他对2008年和2012年美国大选的成功预测。2007年，Silver建立了“538”博客（后改为fivethirtyeight.com，因美国大选有538张选举人票），独树一帜地靠数据分析进行时政预测。2008年大选，Silver预测对了50个州选举结果中的49个。2012年，他预测奥巴马胜出概率高达9成，和一般专家说的奥巴马与罗姆尼五五开的预测很不同，最后结果出来全部50个州都预测对了。

2016年美国大选，Nate Silver又在538网站上不断更新对大选的预测。那么大数据到底是如何精准预测美国大选的？

数据来源

首先，Nate Silver进行预测并不是靠所谓的“直觉”，而是纯粹地靠数据，对众多的数据用算法进行处理。所以他做的是一个预测算法，编程实现的，报告的是计算结果，是“胜率80.7%”这种精确的数值，不是“希拉里优势明显”这种模糊的话。

在美国大选这个事件上，算法依靠的主要基础数据就是各种各样的“poll”，即大选民意调查。美国大选历时数月之久，全国以及每个州都有各种机构主办的不同规模的大选民意调查，一个州对一次大选可能有多达上百次的民调。如对佛罗里达州，538网站共收集了68次民调数据。（佛罗里达州的68个民调的详细数据在： http://projects.fivethirtyeight.com/2016-election-foreCAst/florida/ ）

这就是Silver需要的“信号”。但是由于各种民调的机构背景、立场倾向、覆盖人群、举办时间差异极大，参考意义肯定各有不同，如何处理就是真正的技术了。这相当于要从一堆“信号”中，排除掉“噪声”，得到真正有效的信息。

基础技术

Nate Silver依靠的基础技术叫“贝叶斯理论”，是关于概率的理论。这听上去有些高深，特别是写成概率论里的P（A|B）这样的数学形式时，容易让人“不明觉厉”。其实并不难解释，原理很简单。

在没有任何信息时，可以认为希拉里和特朗普的胜率各为50%。这时出了一个州的民调，说问了1000个人，支持希拉里的有600人，投特朗普的有350人，还有50人两人都不喜欢，会投给独立参选人约翰逊。这么点人，应该决定不了最终的结果，但是据此上调希拉里的获胜概率，如调到50.1%，似乎有点道理。如果全美有几千个这样的民调，全部考虑进来，有的让希拉里胜率增加，有的会提升特朗普的胜率，最后综合下来，就会有一个最终的胜率报告出来。

Nate Silver的分析方法好处是，随着最终大选的时间点临近，他的有效数据信息越来越多，算法预测会越来越准，最终和大选真实结果差不多了。如2012年对50个州的结果全部预测正确。而一般专家很难充分利用有效信息，多少会凭感觉去蒙，不会这么准确。

Nate Silver的方法揭示了一个深刻的道理，预测并不是一下子的事，而是一个概率序列，是需要不断收集信息更新认识的。一开始预测粗略或者改变倾向都是正常的，只要最终收敛向真实结果，这种方法就是科学的。只要细心收集数据、处理数据，这种方法是可以重复的。

当然，对于每一个民调数据，如何影响计算出来的概率，这是需要仔细考虑的，是预测算法真正的细节。这些民调差异极大，有时甚至给出完全相反的结果，如何解读确实不容易。538网站进行了细致的解释，如根据过去12次大选的历史记录，对发布民调机构的权威性进行分级，计算时分配不同的权重。针对民调覆盖的人群进行调整，如西裔会更倾向希拉里一些，不能代表全国的情况，要相应下调。

除了民调数据，经济数据也可能被考虑进来，因为经济数据好，会对在任党派有利，是重要影响因素。

这样的调整非常多，需要精心的数据观察，也需要对美国大选的具体过程很了解，是非常专业的。这也是可以不断改进的，538网站从2008年到2016年三次大选，都有一些小调整，2012年就加进了几个调整项。

由于各种民调的机构背景、立场倾向、覆盖人群、举办时间都有差异。所以Silver会根据拟投票选民、会后弹升、忽略第三党候选人、趋势走向、党派倾向五个因素对数据进行调整。

Nate Silver将概率学中的贝叶斯决策理论应用到大选预测中，用数学方法对未知事件进行概率分析。最后一步就是对所有不准确性作出解释，并对最终大选反复模拟测试，调整误差。随着大选日接近，不准确性会愈发降低。538给出了希拉里与川普各自的胜选可能性以及在几个月内的变化趋势。

Nate Silver可以解释清楚每天预测的胜率是怎么来的，公开给出复杂而精确的算法，对时政预测领域这是革命性的思想变革。 Nate Silver实际给出了几种算法，虽然不同算法的区别并不太大。如有一种算法考虑了经济数据，另一种不考虑，最终二者算出的数值会在大选前夜重合。

我们甚至发现，Nate Silver预测过程中的概率波动，与谷歌围棋程序AlphaGo和李世石对弈过程中的胜率曲线很类似！AlphaGo在对弈过程中也是每一步都不断更新双方胜率，高低起伏。但到棋局定型的时候，就会给出80%之类的高胜率，实际上胜负已定。

不确定的数据

值得注意的是，Nate Silver的预测方法非常依靠数据。所以，与其说他是“预测大神”，不如说他是“数据大神”。美国大选可以搞这种精确的胜率计算，因为各种媒体与机构报告了海量的民调数据。

可以肯定地说，没有一个民调是完全靠谱的，都会有偏差，有意或者无意。但是几千个民调提供的原始数据是很有意义的，因为可以对这些数据进行建模，无论误差是有意还是无意，都可以根据数据背景以及历史表现，进行有道理的调整。具体的调整方法太复杂，一般人不用去研究，但不难认识到这种方法的先进性。

如果没有足够的有效数据，那么Nate Silver就不能进行精准预测了，从他的方法来看会如此。这时某些直觉良好的专家可能就有用武之地了，这也是可以想象的。也许专家通过梳理逻辑，抓住了事情的关键，给出了方向性的预测并最终成功。这种情况肯定还会有，依靠数据预测并不能包打天下。

但是在数据足够的情况下，需要对Nate Silver引入的这种方法足够重视。从方法论来说，对数据进行越来越精确的建模，将各种因素尽可能多地考虑进来，是更科学更先进的。

但是，Silver自己解释了，他计算出来的是一个概率，并不是一个肯定的事。希拉里10月1日以67.3%领先特朗普的32.7%，这并非排除了特朗普的胜利可能。实际上算法会进行20000次模拟，其中有6000多次是特朗普获胜。因为离大选还有一定时间，会有不确定性，会带来“误差”。

主要有三种不确定性。一种是全国性的波动，会对每个州的数据都产生影响，如选举人丑闻爆出，所有州的数据都下调。一种是特定人群或者特定区域的州会受影响，如希拉里对中部地区人群出言不慎。一种是单一的一个州的波动。

对可能的波动建模，Silver没有用正态分布，而是用了更为平滑的t-分布。有的波动对希拉里有利，有的波动对特朗普有利，各种波动都模拟下。最终模拟出来希拉里在67.3%的情况下获胜。实际特朗普也有不小的获胜次数，差距并不大。

这并不是说希拉里的民调有67.3%的支持率。在20000次模拟中，希拉里的得票率预测值是47%，只领先特朗普的43.9%三个点，所以才会在模拟中有6000多次被“波动”翻盘。每一次模拟会对50个州都分别给出两人的得票率，高的人会占有这个州全部的“选举人”票，50个州加起来是538张选举人票。

如佛罗里达州，模拟中即使希拉里只以47%领先特朗普的46%，这个州所有27张选举票也全归她，而不是按比例分。模拟中总共得到270张或者更多选举人票的就胜利了。美国大选的这种“赢家通吃”的特殊制度，使得占优的候选人的胜出概率，要远高于群众支持率几个点的差别。在大选前夜，可能Nate Silver会给出90%这样的获胜概率，即使两人的支持率差距仍然只是几个点。

其实，Nate Silver能在2012对50个州的结果全部预测正确，并没有想象中这么神奇，这不是50个独立事件，是有关联的。因为很多州的结果是早早确定的，预测并不难。如亚拉巴马州，特朗普的胜率99.4%，一直接近100%，没有人会预测错误。其实这个州的民调数据，特朗普预期得票率只是以56%领先希拉里的36%，但特朗普的获胜概率足够大，近100%了。只有一些“摇摆州”的预测有些难度，但也不是神迹，可以用下面这个图来解释。

这张图代表了10月1日的情况，蓝色是希拉里占优的州，红色是特朗普占优的的州，颜色越深优势越大。长度代表一个州的选举人票的多少，中间的虚线是各得269张选举人票的平衡点。可以看出，希拉里的“优势”其实只有两三个州，颜色不深，可能会被翻盘。如在佛罗里达州，希拉里的预测胜率56.2%领先特朗普的43.2%，但预期得票率只是46.7%，领先特朗普的45.7%很小，可能一个小事件就被翻盘了。

如果Silver大选前夜计算时，对中间的分界点算得极准，那就可能50个州全对，因为后面的一长串都是对的。2012年就全对了，2008年错了一点位置，有一个州没预测对，但由于奥巴马优势够大不影响全局。2016年的选战从图中也有能看出，比较胶着，Silver也说很接近。

国庆长假结束后，选战又有发展，按538网站10月7日的最新数据，希拉里的胜率达到了80.7%。在蛇形图上，希拉里占优的州又增加了三个，变成了下图这样。Nate Silver说得票率差距扩大到5%-6%，第一次电视辩论后，特朗普的数据持续恶化。

大数据最大受害者

那么，到底是什么原因，导致这次预测普遍不准确？

数据不会说谎，但是从数据源和数据处理过程来看，这两个关键因素出问题就会造成不一样的结果。据说有网友查看了《纽约时报》网站竞选预测指针的源代码，发现其指针变化并非来自实时数据，而是随机摇摆。

数据统计原理大家都明白。第一，需关注数据源，包括数据报告出处以及数据来源、数据采集面向的对象、数据的时效性和相关性。第二，是数据统计过程。虽然原始的数据相同，但是数据处理的过程不同，具体情况通常可分为四种：抽样方法、样本选取、离群值处理及统计指标设置。抽样方法、样本选取等都与结果紧密相关。

首先，大选民调的抽样点不够均匀分布，支持川普者表示沉默或者说假话，导致了数据一边倒。就像，只去华尔街、硅谷来统计人均收入，必然浮夸；只去贫民窟统计收入，必然悲惨。

其次，预测模型也没有充分考虑“州民调会同时出错”的可能性。民调出错，一般是因为民调机构没有接触到某类选民或错误估计了某类选民的投票率。在这种情况下，人口组成相似的州很有可能同时出现民调错误。

这次大选的中西部州（威斯康星、爱荷华等）就是这样——民调很可能没有接触到部分乡村/白人选民，或者低估了他们的投票率，而这类族群又更有可能支持特朗普。根据目前的粗略数据，这类族群有可能是白人、没有受过大学教育的人、蓝领，这是一群被“低估”的中西部蓝领阶级。

如果民调出错，数据来源就出错了，也就是说，再厉害的预测模型也不会预测出特朗普获胜（预测模型完全来自民调）。数据如同金矿，需要人使用工具来开采、提炼、加工，当对这些数字进行解读，从获取到分析，这个过程就可能出现问题，即使每个步骤看起来都合乎逻辑。

最后，更重要、也更容易被忽略的，就是“参数问题”。事实上一些有识之士早已发现，“发言者”和“投票者”往往并非同一群人。在许多国家里，热衷于网络和造势活动上“秀存在”的是年轻人，而投票率最高的却是中老年人，而“大数据”最突出的特点，却是依托网络和终端进行原始参数的采集，出现如此偏差也就不难理解了。

不仅如此，长期以来，在欧美社会言论开放的氛围里，“另类的声音”往往更容易被听见，并被误认为“政治正确”、“主流意见”，但实际情况往往相反——绝大多数人对这种意见并不以为然，但他们却往往选择保持沉默，一旦这些“沉默的大多数”认定再沉默下去就会损及自身关键利益时，他们会选择用选票来“纠错”，而不会选择自己不擅长的发声方式。

具体到此次大选，非法移民问题、“第三性厕所”问题、“亚裔细化分”问题等，都是较典型的“沉默多数悖论”问题。

如果说，8年前的奥巴马巧妙地利用方兴未艾的网络平台、大数据，让自己在最合适的时候、对最合适的受众说出最合适的话，从而成为著名的“零售总统”和“大数据最大受益者”。那么8年后他极力为之站台的希拉里，却因为直到最后一刻都不明白“大数据”惟有选对了参数才能靠谱，成为“大数据最大受害者”，并可能就此永远断绝重返白宫的希望。

大数据最大受益者

事实上，特朗普的数据科学团队并不是吃素的，很早就侦测到了被大家忽略的信号——就好比飓风来临前下降的气压，选对了参数。而正是这些信号把特朗普送入了白宫，特朗普就此也成为“大数据最大受益者”。

大选三周前的10月18日，特朗普团队的选情模拟器“胜利之路战场优化器”（Battleground Optimizer Path to Victory）显示，特朗普的胜选机率只有7.8%。按照模型设定，在左右大选的大多数州，包括至关重要的佛罗里达州，特朗普都落后于希拉里，但差距并不大。在弗吉尼亚等州，他领先希拉里，尽管民调结果并非如此。

特朗普团队的数字与众不同，因为和特朗普一样，其分析师着眼的选民群体，完全不同于其他民调机构，也不同于几乎所有媒体。他们关注的选民年龄更大，肤色更白，居住地更集中于乡村地区，思想上更偏民粹主义，对“有权有势”的精英阶级恨之入骨。之后三周，特朗普在辗转各地拉选票时，便顺着这股怒气煽风点火，有时甚至有些收不住。

特朗普的分析师们越发觉得，就连他们自己的模型，都没有充分体现这部分选民的力量。选举前最后一周，作了重大调整，重新权衡所有的民调，因为他们认为，民调机构在进行抽样调查时，对这个大选季的选民认识有误。如果特朗普胜选，他借助的将是一种类似于英国脱欧运动的心态，以及一个不同于常规划分的选民群体。

特朗普团队之所以着眼于这个群体，一定程度上也是考虑到，这是他们唯一有望的胜选途径。但在科米出面之后，年纪较大的白人选民群体才开始显现。于是，为争取更多的州，在最后两周时间里，特朗普跑遍了宾夕法尼亚、威斯康辛和密歇根。谁都不信他能拿下那些州（只有自由派制片人迈克尔·摩尔是个例外，他称这些为“脱欧州”）。直到大选前夜，特朗普的模型还是预测说，他胜选的可能性只有30%。

10月下旬，经过对模型的调整，在密歇根州的铁锈地带（Rust Belt），特朗普的支持率立刻窜升——密歇根州2个百分点，宾夕法尼亚州2.5个百分点。顿时，“战场优化器”真的给他们指明了胜选之路。

这种趋势变成了现实。在中西部小县，特朗普的表现超越2012年的米特·罗姆尼，横扫锈带州。要知道，自20世纪80年代以来，这些州就没有投过共和党。在选举夜，在佛罗里达这个关键州（无论特朗普选择哪一条道，要获得胜选所需的270张选举人票，他都绕不过佛罗里达这道坎），乡村地区的投票比特朗普团队的乐观假设高出10个百分点。综观特朗普拿下的所有州，我们可以看到，以农村为主的力量强势崛起，将矛头直指城市——财富与权力日益归集的地方。

结束语

最后，在The Secret World of US Election中，阿桑奇说美国的政治高层以及背后的银行、财团、跨国企业、媒体等，早已组成了一个庞大的利益圈层，实际上都在协力将希拉里推上总统宝座。

我们每个人都会有自己的偏见，对别人的解释倾向于怀疑。因为数据是最客观的东西，于是，用数据说明就变成了最好的说服别人的方法。所以，有时候我们分析数据的目的，可能还不是为了解释现象获取信息，其实仅仅是为了说服别人或者说服自己。

今日荐文

点击下方图片即可阅读

11.11电商大战背后的技术支持

喜欢我们的会点赞，爱我们的会分享！