专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据原统计网

最基础的描述性统计,你学好了吗?

爱数据原统计网  · 公众号  · BI  · 2017-08-13 17:00

正文


大家好,我是零一。我是一名数据分析师,8年的电商从业经验,擅长电商领域的数据分析和挖掘,常用的工具有Excel、PowerBI、Python、R等。

今天是第四篇,给大家介绍下描述性统计。


所谓描述性统计,就是在描述数据。 上一篇我们讲了数据可视化,将数字转变成图表,其实图表也是对数据的一种表述。


一组数据基本的描述指标有: 最小值,1/4位数,中位数,3/4位数,最大值 ,这就是所谓的五数总括。


最小值很简单了,直接在excel里面敲入=min(),就能算最小值。有时候我们需要找出我们最低的销量是多少件,最低的转化率是多少?


最大值也是一样的道理,在excel里面是=max(),就能算出最大值。


接着是1/4位数丶中位数和3/4位数。如果没有接触过统计学的朋友会比较晕,不知道这个是什么来的。这三个数将数据切成4个等分的小数据集。


大家看下面的数列

1,50,10,100,2


最小值是1,最大值是100,1/4位数是50

中位数是10,3/4位数是100。


下面我们再看个例子,假如是8个人的业绩数据

1,2,3,4,5,6,7,8


最小值是1,最大值是8,1/4位数是2.25

中位数是4.5,3/4位数是6.75


而我们用得最多的是均值6.5,这里刚好跟中位数一样。




但是,我们再看下面另一组数据

1,2,3,4,5,6,7,100


最小值是1,最大值是100,1/4位数是2.25

中位数是4.5,3/4位数是6.75


除了最大值不一样,其他跟前面是一样的。我们看下均值,这里的均值是16,跟前面的不同了,这个100这么大的值可能是活动的效果,那这个时候,如果我拿均值来作为指标衡量前面8个人的业绩,就只有最后一个数据达标。当数据整体平稳,但前后有很大的异常值的时候,我们用均值来做指标参考就不靠谱了,这种情况更适合的是用中位数来作为指标。




在Excel里面,用MIN、QUARTILE.EXC、MAX,就可以得到这5个数。数据放在A1:A8 8个单元格中,利用下图的函数计算结果。



另一个指标,众数。


大家看下面这个数列,假如是客服的业绩


1,3,5,5,5,5,5,5,5,5,10,20


我们先算一下平均值,是6.167,如果用这个指标,这里12个数据里面,只有10和20这两个人达标。那么,这个时候,就要用众数了。所谓众数,就是出现的最多的一个数字,毋庸置疑,这里的众数是5,那么,就会有10个人达标了。


众数在excel里面是MODE.MULT。



非常简单就能算出来,特别是数据量大的时候,不用目测。


以上的指标是根据数据的分布情况来选用的,一般用散点图看一下,然后就能判断要使用哪个指标来作为参考。用散点图可以非常直观地发现离群点。将我们上面的一组数据画出散点图,如下图就会发现一个异常值。







请到「今天看啥」查看全文