专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据原统计网

对待数据,你为什么不如老司机?

爱数据原统计网  · 公众号  · BI  · 2016-12-07 17:16

正文

先来一个小笑话:科学家卸掉了螃蟹的左腿,并对它喊道“走”,螃蟹迅速爬走了。科学家又卸掉了螃蟹的右腿,仍对它喊道“走”,螃蟹没有爬走。因此聪明的科学家得出结论,螃蟹的耳朵是长在右腿上的。


再来看一个简单的例子:


经济危机时,根据统计,某国家50%人的财富增长了10%,另一半人则减少了50%。

新手是这样解读的:整个国家的财富减少了40%。

  

而老司机这样问:增长的人财富基数是多少,减少的人基数又是多少?

  

没错,如果增长的那一半人原有财富是100,而减少的人原有财富是2,那么整体来看,财富不仅没有减少,反而增加了8%。

  

别被数据给骗了。

  

对待数据,如果你还不是老司机,那你应该怎么做?怎样才能做好大数据分析? 

 

1、明确分析数据的目的

咱们要分析一个数据,首先要明确自己的目的,为什么要收集和分析这样一份数据,才能够把握好接下来应该收集哪些数据,应该怎么收集数据,应该分析哪些数据等。

2、到哪里获取数据

当你制定了目标,那么现在会很明确要找哪些数据。这些数据在从内部资源获取不到的情况下,可以通过下面的几种方法:1.花钱购买(有专门的机构出售数据,如果你并不需要十分精细的或大篇幅的,或许可以看第二种方法)。2.网站下载(统计局官网、行业网站如房地产交易网等、大海洋数据超市)。3.自行获取(网页爬虫、网页采集器)。

3、数据处理

无论你通过什么方式获取数据,最终都要经过符合你需求的处理,删除不相干的干扰项,但也别忽视相关项。

  

例子:某二手车交易网的用户数据调查发现,有13%的用户月交易数量评价达到9次,且多为年龄在40-50岁之间的男性。

  

因此你得出结论,中年男性最爱频繁换车。但实际上,这13%的用户很可能是二手车行的老板,相信再喜欢换车的人也不能一个月更换9辆车。

  

所以用户的工作性质不可忽视,存在相关性的因素更不能轻易刨除。

4、记得你的立场

数据的因果关系和相关性非常迷人,导致许多数据分析者做着做着就忘记了自己的初衷和立场。你不需要挖出全部的数据相关性,只需要记得你在做以什么研究为目的的数据分析。

 

例子:你在做公司的业绩分析,需要从数据的角度提出员工业绩的影响因素,在挖掘的过程中,你进而发现公司盈利逐年变低是支出的不断超额,你的老板会对你说声谢谢,不过他需要你操心的只是业绩。


End.