专栏名称: 飞总聊IT
飞总,从事大数据的基础构架研发10余年。本公众号的主要目的是和大家交流我在大数据基础架构,IT前沿发展,职场经验的方面的观点和看法。本公众号仅代表本人的观点,不代表公司观点。
目录
相关文章推荐
生态梦网  ·  滨海新区幼儿园将免费?专家回应来了 ·  5 小时前  
格上财富  ·  全面拆解!梁文锋和王兴兴的底牌 ·  昨天  
生态梦网  ·  总投资超6.86亿!北塘古镇又有新动作 ·  昨天  
生态梦网  ·  21个专业!生态城区域首家民办高校来了 ·  3 天前  
51好读  ›  专栏  ›  飞总聊IT

快跑!数据他又来唬人了!

飞总聊IT  · 公众号  ·  · 2020-04-05 09:59

正文



“世界上有三种谎言: 第一种,谎言; 第二种,该死的谎言; 第三种,统计数据”


当年马大爷(马克吐温)肯定没少受统计数据的糊弄,让他一气之下把统计数据和谎言相提并论。


这么多年过去,数据越来越走向前台,走向大众。 大家想要表达一个观点,仿佛不用数据来论证,就总觉得少点儿什么。


在这个大背景下,关于数据的陷阱和基于数据构成的谎言,糊弄和影响范围也是空前的。


这不,最近小z就抓了 三个典型的数据谎言 ,和旁友们一起看看数据是怎样说谎的,以及我们如何识破这些谎言。



用标准来解决数据问题


随着基础生活条件的不断改善,越来越多美国人胡吃海喝,与之对应的是肥胖率不断攀升,大有放飞之趋势。



假如你是政策制定者, 怎样才能够快、准、狠地降低全国肥胖率呢?


普通玩家,会呼吁大家注意饮食,吃更多的绿色健康食品。


土豪玩家,会鼓励大家减肥,比如减掉一斤肉奖励XX元。


但真正的高手,是完全不屑于这些常规操作的, 用标准解决数据问题 ,才立竿见影。



我们先来看看肥胖率这个指标来龙去脉,再膜拜高手的神之操作。


肥胖率是根据体重指数(BMI)来算的。


体重指数(BMI) = 体重(kg) / 身高(m)的平方


例如小z体重65kg,身高1.82m,那BMI = 19.62,标准认为,BMI在18.5~24.9时属正常范围,BMI大于25为超重, BMI大于30为肥胖


肥胖率也 就是BMI>30的人数占总人口的比重。


到这里问题就很简单了旁友们!


真正的高手从数据标准入手,把原本BMI > 30就属于肥胖,改成 BMI > 40才属于肥胖就好了!


通过提高肥胖的门槛,来减少肥胖人数,真是天才!


只一瞬,美国肥胖率直接从22%降低到12%了! (这个数字是我胡诌的,大家get到精髓就好)



歪瑞古德! 我们成功的遏制了肥胖率的飙升!


笑完之后认真脸: 生活中的数据问题,还真有不少数据标准学家来这样忽悠大众。 为了避免被忽悠, 一定要先了解数据的统计口径和各项定义



相关和因果性的诱惑


躲过了数据标准学家的套路,我们来到了第二关。


坦白讲,数据分析er看到下面两条光滑同频的诱人曲线,很难拒绝思考他俩之间的因果性。



再加上已经备注出“相关系数99.26%”,强强强强相关啊朋友们!


于是赶紧开始思考,是A指标波动影响了B吗?


不要吐槽上面图例不完整,我故意不截全的。 毕竟,上图黑线代表“人造黄油消费量”,红线是“缅因州离婚率”。



难不成缅因州的黄油有感情破裂成分,让食用家庭为之付出代价?


还是说离婚的人们都去囤黄油了?


在数据逻辑发明家小z看来:

  • 买黄油回来是做饭,买的多说明做饭频率高!

  • 做饭频率高,代表夫妻在一起的时间久!

  • 而夫妻在一起时间久,摩擦自然多了起来,所以导致了离婚率的上升!


Emmm,我瞎掰一通,差点连我自己都说服了。


不过,这个人造黄油消费量,并不只是缅因州的。所以,因果关系的思考还是一眼看出是扯淡。


然鹅,在现实中遇到类似的数据问题,一些同学的思想还是会滑坡,不自觉的基于相关性,思考虚无缥缈的因果性。



图表坐标轴上的文章


老板! 您看看! 咱们Z公司最近销售趋势真不错啊!



嗯! 果然没辜负我的期望! 突破了季节性影响,节节攀升! 话不多说! 相关同学一人一块劳力士!


销售额真的这么高吗? 他给老板汇报的图表,纵坐标并不是从0开始,而是从237万开始,故意夸大不同月份销售额之间的差距。


如果把纵坐标起点改为0:







请到「今天看啥」查看全文