我们永远也无法知道世界的真相

歪理邪说 · 公众号 · 科技自媒体 · 2016-11-14 14:11

正文

最近和Nana学会了使用 tl;dr 的办法，也就是说，如果觉得太长，你可以翻到结尾去看最后一段的 tl;dr （太长，不想读）版本。

最近遭到了我的朋友和菜头（槽边往事公众号: bitsea）的无情嘲笑，原因是我一直到美国大选当天，还相信希拉里应该能获胜。之前英国退欧的事我猜对了，但这次我猜错了。和菜头嘲笑我主要是因为我相信了媒体的民调数据，他认为从各种社交媒体和网上调查就可以得到川普一定当选的结论，他认为民调远远脱离实际情况，没参考意义。猜错了结果我接受嘲讽，但是这个原因我不认同。这是一个相当复杂的话题，从数据到历史到互联网和社交媒体，很难说清。不过我还是觉得应该试着写一下。先亮明态度，我不喜欢希拉里也不喜欢川普，当然这两者比起来，更不喜欢川普，虽然他成功了。我不是美国人，如果非要问我的态度，如果我可以投票，在眼下的状况下，我想大概我会投桑德斯吧。

先说民调失灵这件事。民意调查受很多因素干扰，它本身也不可能非常准确，如果说美国总统大选前的民意调查失灵，这也不是新鲜事，最著名的一次民调失灵是1948年美国总统大选，那一次民调偏差比这一次厉害的多。所有民调都显示杜鲁门总统大败，但最后情况不仅杜鲁门大胜，而且选举人票和公众都票都是多数，顺便还夺回了两院控制权。对比这一次，希拉里输了选举人票但公众投票数反而取胜，双方选举人票差距也没有1948年那么大。如果民意调查错了就会死，1948年就死了，等不到今天。

民意调查错得这么厉害，它还可不可信，这个问题甚至可以放大到，传统方法的统计数据是否都变得没有价值？是否应该像和菜头那样，通过社交媒体上双方谁的转发和评论多来确定谁胜率更大？这两个问题我都回答“不是”。猜对一个事件结果并不足以到改变方法论，何况这道选择题只有两个选择，就算是扔硬币决定也有50%的准确率。社交媒体在这个过程中当然起了很大作用，这个一会再说。先看一份更好玩的数据：

这些数据来自美国众议院投票结果，红色和蓝色分别代表共和党和民主党。因为投票是记名的，所以就很容易分析出来他们分属什么党派。上面这张图是最新的112届国会(2012)结果。

可见，两党差距已经非常大，大到中间没有任何交集了。这个现象是从哪一年开始的？往前拖一下，可以看到近期是从108届国会开始的双方完全没有交集的，那是2003年。两个主要党派之间区别已经如此之大，社会上对他们提出的各种议题支持者也应该有如此大的差距才是正常的。再看之前的年份，会发现双方重合度一度很高，上一次和现在这样完全没有交集的时候，是一战之前，再往前一次这样的情况，是南北战争。

如果看90年代的结果，图是这样的。

因为对这些情况的了解，我从来没认为过希拉里“一定”能获胜，而是“应该”能获胜。美国两党的社会共识已经越来越少，又各有足够的拥护者，造成的结果肯定是双方胜负差距不会太大。而且无论谁当选，也不可能代表所谓“多数人”，这次选举的投票率算是比较高的，也只有大约58%的选民真正投了票，两个候选人的实际得票率都只有26%多一点。26%多的人能代表大多数，甚至沉默的大多数吗？而且如果说多数人的选择，按照一人一票计算，希拉里得票率是高于川普的（到我写这篇文章时候NOV. 14, 2016, 1:02 AM ET，希拉里大众选票高出对方63万多票），但因为选举人团制度她反而做不了总统。真正的民意是什么？我们可能永远也无法探知到，最多是从各个方向逐渐试图接近它。

看下图，本次候选人得票率是20年最低水平，所谓的大多数根本不存在。

我不想讨论这个制度是否合理，因为它一直都充满了争议。维基百科上说“截至2000年12月共有1028份建议修改选举团制度的国会议案，几乎占了修宪案的十分之一，而最早的提案还可以追溯到第一届国会”，甚至川普自己在2012年大选的时候做为旁观者也表示过选举人团制度是美国的灾难…然而最终还是这个最烂的制度送他做了总统，在美国历史上，输了大众选票而赢了选举人票的情况，这是第五次。

要预测人的行为非常困难，预测在一个事件中大量人口的行为更加困难。民调数据可能不准确，但这不是放弃它的理由。现在所有媒体和研究机构都在研究为什么这次民调偏差较大，这并不是给自己的错误找理由，而是在未来修正误差。科技发展到今天，人工智能和大数据应用已经太广了，我们不会因为各家网站的“猜你喜欢”猜的不准而嘲笑它，也不应该一次结果错误就认为民意调查毫无价值。当然，数据的采集和解说有各种各样的办法，用数据骗人的把戏更是无穷无尽，只看数据也未必就会得出正确结论，但看总比不看好一些。对比网上调查（就是我们常见的网站提供的那种投票），民意调查的数据可靠性还是高的太多了，至少网页投票和社交媒体转发评论任何人都可以参与，中国人俄罗斯人都可以去玩一下，而民意调查仅限于可以投票的人。前者连数据采样范围都错了。虽然通过错的论据仍然有可能得到正确的结果，但那并不是一件值得夸耀的事。

美国总统选举背后有诸多因素，比如，美国有29个州从来没选出来过任何一位女性议员，这些保守的地区自然也不会因为希拉里改变立场。对比2012年选举看，大多数地方的投票结果都和2012年结果差距不大。最大的变化发生在所谓的摇摆州。每次美国总统选举，改变历史的只是来自摇摆州中很少一部分人，有时候是年轻人，有时候是老人，有时候是退伍军人或者失业工人。最关键的摇摆州之一，2012年选了奥巴马，这次选了川普。但我事先就认为佛罗里达一定会倾向共和党，因为佛州近年来非常反对气候变化论，川普不承认气候变化正对他们的口味。但非常讽刺的是，佛州是遭受气候变化损失最严重的地区之一。气候变化是佛州的一种政治正确，州长甚至禁止环保部门工作人员使用“气候变化”、“全球变暖”、“海平面升高”之类的词… 中国人反气候变化论的人不算多，就算有往往也是出于经济原因，即“发展中国家不能顾及那么多，以免影响发展”，而不是完全认为这个理论是骗局。但在美国，反对气候变化论的人非常多，其中最大的原因是宗教原因，即“气候变化是上帝的事，人类不应该去研究它”。

如果考虑到这些因素，川普当选实在算不上是“黑天鹅”事件，他成功的概率一直很大。我确实曾经认为受过良好教育的美国选民是理性的，会降低这种概率。但很遗憾，他们生活的区域都集中在城市，在选举人票的制度下，他们人数占有，但最终选举人票数仍然会吃亏。华尔街日报统计了目前已知的投票结果，重新做了统计，你猜多少票翻转就可以改变选举结果？只需要10万人。这个结论更清楚的告诉我们，无论任何一方当选，赢的一方都是“少数人的支持”而不是多数人。当然，这就是美国大选的游戏规则，没什么可说的，双方都在一个游戏规则下玩了200多年，也分别占过便宜。把历史上所有选举结果看一遍，确实有几次是得票率极高的选举可以称作“多数人的选择”，比如2008年的奥巴马选举。但这次无论结果是谁获胜，都只是少数人的选择。

我们永远也无法知道世界的真相

正文

请到「今天看啥」查看全文