专栏名称: CTO肉饼
robbin是前JavaEye网站创始人,现在是丁香园CTO。如果你是技术人员,正在创业或者希望加入创业,关注互联网产品、研发、运营、创业管理,请关注我。
目录
相关文章推荐
华商报  ·  学校食堂被指使用预制菜,校方回应→ ·  昨天  
华商报  ·  学校食堂被指使用预制菜,校方回应→ ·  昨天  
河南发布  ·  新设济源东站!焦洛平高铁即将开工建设 ·  昨天  
长江云新闻  ·  “500元已到账!”不少人已收到这笔钱…… ·  3 天前  
51好读  ›  专栏  ›  CTO肉饼

从美国大选看数据分析师的重要性

CTO肉饼  · 公众号  · 科技自媒体  · 2016-11-09 20:20

正文


沸沸扬扬大半年的美国大选在今天终于落下了帷幕,共和党候选人川普战胜了民主党候选人希拉里,成为下一届美国总统。这一届美国大选非常戏剧性,希拉里几乎是一边倒的得到了精英阶层的支持:

  • 现任总统奥巴马以及很多美国政要积极的到处拉选票;

  • 美国硅谷精英包括苹果,Google,Facebook等业界领袖公开支持希拉里;

  • 美国文艺界大咖,歌星麦当娜,Lady Gaga,众多好莱坞影星,甚至包括体育界NBA球星勒布朗詹姆斯,斯蒂芬库里纷纷呼吁给希拉里投票

此外美国几乎所有的主流新闻媒体一边倒的支持希拉里,就是在普通网民都可以发言的社交媒体Twitter,Facebook,Quora,YouTube上,希拉里的呼声也遥遥领先于川普,乃至于希拉里败选之后,Twitter上很多人如丧考妣。

最后美国各种选举民意调查机构的数据显示,希拉里的民调一直遥遥领先于川普,甚至于今天开票的时候,希拉里还有超过了80%的胜率。但是最终大选唱票结果却令大多数媒体大跌眼镜,川普以相当大的优势获胜。

为什么民调数据居然失灵成这个样子?为什么传统媒体和社交媒体一边倒的声量完全不能代表真实的民意?美国大选最后选出了黑天鹅?

说到这里,我们插播一条有趣的新闻,在美国大选之前,记者采访义乌小商品市场:

「浙江义乌的小生产商接了美国大量的订单,生产支持川普的旗子和希拉里的旗子,老板说,川普的旗子很好卖,没有订金都敢大量的生产,肯定可以卖出去,最后一批发货20万件到美国,而希拉里的旗子卖不出去,订金不到手绝对不会生产。」

这段采访视频还可以在网络上搜到,有兴趣的朋友可以看看。从义乌生产商的出货量来看,川普早就遥遥领先了嘛。

回过头来看,美国的民调数据之所以失真,社交媒体的声量之所以失真,恐怕背后的原因还是在于 数据分析体系建立错了

因为美国社会非常强调 政治正确 ,而川普又是一个以 政治不正确 著称的人,真正支持川普的很多选民是不敢公开站出来支持川普,表达自己真实的意愿的。例如硅谷著名的VC,Paypal的创始人,Facebook的早期投资人Peter Thiel公开支持川普,就被舆论群起围攻了。

因此民调数据也好,社交媒体声量也好,并不能代表真实的情况。以这些方式建立的数据分析体系就错了。而义乌老板的出货量看似不靠谱,却真实的反映了美国选民的意愿: 你愿意不愿意掏出真金白银支持你的候选人,这才是赤裸裸最有效的数据

建立数据分析体系,根据数据寻找能够反映真实情况的结论,是需要很强的逻辑思维和归纳能力的。我再举一个例子,百度CEO李彦宏就曾经闹了一个大笑话:

他在百安保险公司成立仪式上声称:「百度大数据部跑出来的数据表明,喜欢去低端足疗店的人是最健康的,大数据得出的结论和我想象的差不多」,「做足疗是否真的对健康有帮助,这个问题可以用大数据来解决,百度每天有110亿次的定位请求,可以算出那些经常去足疗店的人是不是更少去医院。」

这个数据的误读特别典型,从数据上经常去低端足疗店的更少去医院,数据是客观的,但是这个数据你怎么解读呢? 是不是意味着这个群体用户更少生病呢?







请到「今天看啥」查看全文