沸沸扬扬大半年的美国大选在今天终于落下了帷幕,共和党候选人川普战胜了民主党候选人希拉里,成为下一届美国总统。这一届美国大选非常戏剧性,希拉里几乎是一边倒的得到了精英阶层的支持:
此外美国几乎所有的主流新闻媒体一边倒的支持希拉里,就是在普通网民都可以发言的社交媒体Twitter,Facebook,Quora,YouTube上,希拉里的呼声也遥遥领先于川普,乃至于希拉里败选之后,Twitter上很多人如丧考妣。
最后美国各种选举民意调查机构的数据显示,希拉里的民调一直遥遥领先于川普,甚至于今天开票的时候,希拉里还有超过了80%的胜率。但是最终大选唱票结果却令大多数媒体大跌眼镜,川普以相当大的优势获胜。
为什么民调数据居然失灵成这个样子?为什么传统媒体和社交媒体一边倒的声量完全不能代表真实的民意?美国大选最后选出了黑天鹅?
说到这里,我们插播一条有趣的新闻,在美国大选之前,记者采访义乌小商品市场:
「浙江义乌的小生产商接了美国大量的订单,生产支持川普的旗子和希拉里的旗子,老板说,川普的旗子很好卖,没有订金都敢大量的生产,肯定可以卖出去,最后一批发货20万件到美国,而希拉里的旗子卖不出去,订金不到手绝对不会生产。」
这段采访视频还可以在网络上搜到,有兴趣的朋友可以看看。从义乌生产商的出货量来看,川普早就遥遥领先了嘛。
回过头来看,美国的民调数据之所以失真,社交媒体的声量之所以失真,恐怕背后的原因还是在于
数据分析体系建立错了
。
因为美国社会非常强调
政治正确
,而川普又是一个以
政治不正确
著称的人,真正支持川普的很多选民是不敢公开站出来支持川普,表达自己真实的意愿的。例如硅谷著名的VC,Paypal的创始人,Facebook的早期投资人Peter Thiel公开支持川普,就被舆论群起围攻了。
因此民调数据也好,社交媒体声量也好,并不能代表真实的情况。以这些方式建立的数据分析体系就错了。而义乌老板的出货量看似不靠谱,却真实的反映了美国选民的意愿:
你愿意不愿意掏出真金白银支持你的候选人,这才是赤裸裸最有效的数据
。
建立数据分析体系,根据数据寻找能够反映真实情况的结论,是需要很强的逻辑思维和归纳能力的。我再举一个例子,百度CEO李彦宏就曾经闹了一个大笑话:
他在百安保险公司成立仪式上声称:「百度大数据部跑出来的数据表明,喜欢去低端足疗店的人是最健康的,大数据得出的结论和我想象的差不多」,「做足疗是否真的对健康有帮助,这个问题可以用大数据来解决,百度每天有110亿次的定位请求,可以算出那些经常去足疗店的人是不是更少去医院。」
这个数据的误读特别典型,从数据上经常去低端足疗店的更少去医院,数据是客观的,但是这个数据你怎么解读呢? 是不是意味着这个群体用户更少生病呢?