这两天看了一部电影《萨利机长》,讲的是萨利机长在发动机失效的情况下,成功迫降拯救155名乘客和机组人员的故事。
这部电影取材于真实发生的故事,为英雄鼓掌的同时,有一点让我在意——机长面临危机时没有一丝怯懦和恐慌,却在面对调查人员用数据质疑他的判断时感到心累和无力。
拥有多年经验的英雄差点被冰冷的数据击垮,这显然有点可笑。但其实,被数据绊住脚跟的例子在生活中屡见不鲜。
数据纵横的时代,人们太想通过数据获取安全感,从而误把它当成标准答案而忽略了眼前的实际情况。
且不说盲目迷信数据会让我们做出错误决定,导致无法挽回的后果;生活中,那些看似权威却又感觉并不靠谱的数据,更是引起我们的质疑;信还是不信?毕竟我们不是专业的,真不知道如何判断......
本期TED演讲《甄别不可信统计数据的3种方法》,数据记者莫娜·查拉比分享了几点实用的建议,它将帮助你质疑、解释并且真正理解这些统计数字的含义。
有些人说, 这些统计数据很重要, 我们需要它们来理解整个社会, 进而脱离情感喜好、偏见等, 以一种客观的方式衡量发展程度。
另一方面,有一些人说这些数据有可能是被操纵的;
它们没什么意义,也不能真正反映
人们的日常生活中发生了什么。
尽管大数据在如今已经相当普及了,并被运用在不同领域。但作为个体而言,当你每天面对各种各样的数据的时候,还是会对之产生一些质疑:这些数据是真的吗?还是商家为了诱导人们去购买商品的一种手段?
那么,人们到底如何去评定数据可信与否呢?以下介绍了3个方法。
方法一:你能发现不确定因素吗?
莫娜:
许多的可视化数据会夸大可信度,事实也确实如此——这些图表能够麻痹我们的大脑,导致我们无法进行批评。当你听到一个统计数据时,你可能会有所怀疑,当数据以图表形式呈现出来时,它看上去就像是某种客观的科学。
然而事实并非如此。这些弯弯曲曲的线旨在让人们记住数据是不准确的,同时,他们也不是非得知道精确的数字,不过他们会记住那些重要的事项。
其中最典型的一个案例就是平均数,人们会经常在新闻中看到各个城市的平均月薪,像是“2018年北京平均工资是10712元,排在全国第1位”。当面对这个数据的时候,那些月薪不过万的人就开始焦虑了,觉得自己是穷人。
但是事实真是这样的吗?其实,平均数和中位数是不一样的。平均数是一组数据,用这组数据的总和除以总分数,得出的数就是这组数据的平均数,会受较大数和较小数的影响。
而中位数则是
将一组数据按大小依次排列,把处在最中间位置的一个数(或最中间位置的两个数的平均数),
不受偏大和偏小数的影响。
按照平均工资来算,很大程度上会受到最高和最低收入人群的影响。很可能这个城市并不富裕,但贫富差距比较大,得出的平均数也会比较高。所以,
平均工资并不能最好地体现出这个城市的平均收入水平,现实情况是工资在平均值以下的人,远远多于在平均值以上的人。
就整个城市的情况而言,更为合理的数据是中位数。那些月薪1万的人在北京已经超越70-80%的人,在全国范围内就更不必说。只是这样统计
结果肯定会比平均数低,因此媒体不会选择公布这个数据。
第二个问题, 我能在数据中看到自己吗?
并不是每种数据都必须和你扯上点关系,看看你自己对应其中哪种情况。这样做的目的是尽可能多地了解背景。所以我们要从某个数据点上抽身出来。比如失业率是5%,然后看看数据是如何随着时间推移而变化的,或者如何随受教育程度而改变——这就是父母一门心思让你上大学的原因。
或者看看性别对失业率的影响,如今男性失业率高于女性失业率。直到80年代初 ,它是完全相反的,这是发生在美国社会中具有最大变化之一的故事。一旦你考虑平均值,所有的都在那张图表中了。轴线就是一切。一旦你改变了刻度, 你就可以改变这个故事。
这就是说你可以根据自身或是周围朋友的情况对数据进行判定。比如亚马逊刚刚公布了2018年的阅读榜单,其中《月亮与六便士》夺得2018Kindle年度付费电子书畅销榜及Kindle Unlimited电子书包月服务年度借阅书榜的榜首。
那么,你就去看看自己是否阅读过这本书或者朋友们是否读过这本书,当然这其中有一个前提,那就是你们都是Kindle电子书的重度用户。如果其中有不少人都读过
《月亮与六便士》,那么或许这个榜单的真实度就比较高。
方法三:数据到底是怎么收集的?
在很多时候,人们会被数据“套路”,那是因为数据统计的样本存在着问题。就像视频中所提到的那样:
一份民意调查可能有数百人参与,甚至一千人,但是你在欧莱雅公司, 想要在2005年销售护肤产品, 那么你只需要调查48名 认为此产品有效的女性就行了。