专栏名称: 知乎日报
提供最好的资讯评论,兼顾专业与趣味。
目录
51好读  ›  专栏  ›  知乎日报

特朗普「逆袭」取胜,为什么所有预测机构都出错了?

知乎日报  · 公众号  · 问答  · 2016-11-10 17:54

正文

题图来源:Yestone.com 版权图片库

知友|Yiqin Fu

微软的 PredictWise、《纽约时报》的 The Upshot、普林斯顿的 Sam Wang 在选举当天早上给出的特朗普获胜概率都在 10% 上下。

唯一一个不同声音来自 FiveThirtyEight。该网站主编 Nate Silver 给出的概率是 29%,这也差不多是博彩市场开出的赔率。

有意思的是,选举前 29% 这个数字引发了巨大争议,许多政治评论员和其他做预测的分析师都认为 Silver 的模型高估了特朗普。


现在看来,无论哪一家预测机构都不同程度上 「出错」了。Silver 过去两届大选对 100 个州的预测只错了一个(2008 年印第安纳),而这一届错了六个 **。

民调错误导致预测错误:被「低估」的中西部工人阶级

为什么所有的预测都错了?这得怪预测模型依赖的民调。在复杂的模型背后,其实就是每天新闻里播报的民调结果,不同预测机构只是采用不同方法把民调结果加权综合。所以如果民调出大错,预测也一定跟着错。

下图可以看出,民调在许多州偏差了四个百分点以上,偏差最大的分别是俄亥俄、威斯康星、爱荷华、宾夕法尼亚、明尼苏达、北卡、密歇根。


打开地图,我们发现问题显而易见。这六个州,有五个都位于中西部锈带(Rust Belt)。

所谓「锈带」,是美国上世纪因工业繁荣起来的地区,如今它们因为全球贸易的发达而辉煌不再。这里有大量对全球化持负面态度的工人阶级。

今年民主党初选,坚决反对贸易协定的桑德斯也在密歇根州意外获胜,尽管此前民调一直显示希拉里领先。


民调机构出错,在于他们的取样或投票率(turnout)模拟出了问题。

虽然好的民调机构都会从已登记选民中随机取样,但他们在拿到原始数据以后还是要对不同族群的投票率做一个估计,即到底有多少人确实会去投票。

假设 30 岁以下选民在原始的调查样本里占 10%,但根据上一届选举的结果,调查机构可能会认为 30 岁以下选民只会占这次选举的 5%,那么机构就会减少这类人在调查中的权重。

但究竟应该参考哪些因素来估计投票率,没有谁能给出完美答案,所以各家机构发布的民调其实都有各家自己的假设(assumptions)。

这次的 2016 年大选中,中西部的民调一定是估计错了某个 / 些族群的投票率,或在调查中没有接触到某类人群,而这类族群又更有可能支持特朗普。

根据目前的粗略数据,这类族群有可能是白人、没有大学教育的人、蓝领。


威斯康星是一个非常典型的例子。选举前两周,没有一家民调显示特朗普领先。


也就是说再厉害的预测模型也不会预测出特朗普获胜(预测模型完全来自民调)。


下图的九个预测机构,投票日当天全部显示希拉里有很大可能赢下威斯康星。


但最终结果是特朗普以一个百分点的优势获胜。

这种民调错误导致的预测错误是毁灭性的,因为美国大选制度是「赢家通吃」——即不管特朗普赢过希拉里一票还是一百万票,该州的选举人票全归特朗普——所以预测「希拉里(以五个百分点优势)赢下威斯康星」和「特朗普(以一个百分点优势)赢下威斯康星」的差别是非常大的。

为什么出口民调(exit polls)不靠谱

在阅读分析大选的文章时请警惕对出口民调的过度解读。出口民调是投票当天在投票站外对选民的调查,很多分析文章(错误地)认为出口民调数据可以很好反应整个大选的情况,例如出口民调显示特朗普的西语裔得票率超过罗姆尼 2012 年的得票率,因此文章认为整个大选的情况必然也是这样。

但出口民调本身有非常多的问题,并不可信。这次最早公布的出口民调显示希拉里在摇摆州大幅领先,最终结果完全相反。

出口民调不靠谱的原因前人已经总结得很详细,这里不再赘述。简单说还是预估投票率的问题。你不知道真正的选民中有多少是 60 岁白人女性,所以当你采访到一个 60 岁白人女性的时候,你该如何给她答案加权?加权的多少一定包含了很多假设(assumptions)。

那究竟应该如何分析大选呢?一种方法是找每个郡投票数据和人口普查数据的相关性,这个在投票当天就可以做。

另一种是等到若干年月以后,拿更详细的选民信息做更细致的族群分析(有多少亚裔投了票、有多少 65 岁以上老年人投给了特朗普)。

样本小,预测未来总是很难

预测美国大选或其他社会事件的最大难题在于样本太小。实验可以重复多次,但社会事件不常发生。现在普遍运用的预测模型完全依赖民调,而美国大选民调从 2000 年以后才开始比较靠谱,所以样本大小是四。

如果把条件放宽,最多可以找到 1972 年的数据,样本是 11,且这里又多了很多假设(assumptions)。

人们为什么支持特朗普?怎样鼓励支持者出门投票?一些假设的推翻

网上许多从事相关行业的人都在说,这次大选对政治学的震撼就像 2008 年对经济学的震撼一样。此前政治学界的许多主流理论在现在看来似乎并不适用。

例如在「人们如何决定投给谁」这个问题上,主流理论包括「选民追随党内精英的信号投票」、「选民根据意识形态投票」等等,但似乎这次选举,「体制外 / 体制内」是选民重要的投票依据。

民主党初选时,许多分析师对桑德斯的评价是他的意识形态太激进,脱离美国主流观念,如果拿到民主党提名进入十一月的大选,一定会输。不过现在想想,说不定他「体制外」的形象可以足够让选民忽略他非常激进的政策提议。

再例如「怎样让更多支持者去投票」(GOTV)这个问题,先前的研究发现电视广告、邮寄选民信件的效果微乎其微,甚至多数时候是「亏本」买卖,但是地面部队挨家挨户敲门相对有效。

希拉里团队花了大量精力和资源组建地面部队,且继承了帮助奥巴马两次当选、被媒体宣传的神乎其神的团队。而特朗普除了利用现有的共和党网络,并没有大规模组建自己的队伍。

临近大选日,媒体经常讲到希拉里团队组织少数族裔、年轻人积极投票,各地提早投票的数量远超往届,但最终,没有组建自己地面部队的特朗普反而在中西部意外让很多支持者走出家门。

希拉里整个竞选周期的花费是特朗普的很多很多倍。


再讲到社会分歧(social cleavage),传统理论说阶级投票(class voting)在很多发达国家已经连续下降很多年了,但这次的美国大选,阶级是最好的预测指标,即如果知道一个人是蓝领,可以很好地预测他是否支持特朗普。

另一个社会分歧性别(gender),反而在这次大选中没有预期的明显,尽管这次大选双方是美国历史上第一个女性候选人和一个被曝出不雅言论的男性候选人。

#什么都没用 #NothingMatters

出人意料的事件发生后,整天看民调、看预测的人们(应该只有我...)很容易产生「什么都没用」的想法。

好像希拉里花了这么多钱、雇了这么多人去敲门并没有什么用?民调机构做这么多调查、预测机构建复杂模型并没有什么用?

对这种疑问,一种回复是「我们永远不知道如果希拉里没花这些钱会怎样」,也就是说「说不定她输得更多」。

另一种回复是,每一次投票、每一次民调错误和预测错误,都是珍贵的样本,可以帮助我们在未来更接近真相。

接下来看什么:绝对票数 (popular vote)vs. 选举人票数(electoral college)

虽然希拉里已经承认败选,但大选还是有很多可以看。最有意思的应该就是希拉里是否能赢下绝对票数,目前各预测机构还是看好她在绝度票数上超过特朗普。

因为民主党选民很多集中在几个州(加州、纽约),所以如果希拉里在加州把奥巴马 2012 年的优势提高一个百分点,那么绝对票数就会比对手多几万。

但因为加州一直是民主党拿下,所以希拉里在那里拉大优势并没有用,反而是特朗普在宾夕法尼亚等州超出以往共和党水平的表现给他带来了关键的选举人票。

如果最终希拉里真的赢下绝对票数,那么最近五届美国大选将有两届的绝对票数获胜者最终落败。

点击「阅读原文」下载知乎日报 App