大家好,我是零一。我是一名数据分析师,8年的电商从业经验,擅长电商领域的数据分析和挖掘,常用的工具有Excel、PowerBI、Python、R等。
今天是第四篇,给大家介绍下描述性统计。
所谓描述性统计,就是在描述数据。
上一篇我们讲了数据可视化,将数字转变成图表,其实图表也是对数据的一种表述。
一组数据基本的描述指标有:
最小值,1/4位数,中位数,3/4位数,最大值
,这就是所谓的五数总括。
最小值很简单了,直接在excel里面敲入=min(),就能算最小值。有时候我们需要找出我们最低的销量是多少件,最低的转化率是多少?
最大值也是一样的道理,在excel里面是=max(),就能算出最大值。
接着是1/4位数丶中位数和3/4位数。如果没有接触过统计学的朋友会比较晕,不知道这个是什么来的。这三个数将数据切成4个等分的小数据集。
1,50,10,100,2
最小值是1,最大值是100,1/4位数是50
中位数是10,3/4位数是100。
1,2,3,4,5,6,7,8
最小值是1,最大值是8,1/4位数是2.25
中位数是4.5,3/4位数是6.75
而我们用得最多的是均值6.5,这里刚好跟中位数一样。
1,2,3,4,5,6,7,100
最小值是1,最大值是100,1/4位数是2.25
中位数是4.5,3/4位数是6.75
除了最大值不一样,其他跟前面是一样的。我们看下均值,这里的均值是16,跟前面的不同了,这个100这么大的值可能是活动的效果,那这个时候,如果我拿均值来作为指标衡量前面8个人的业绩,就只有最后一个数据达标。当数据整体平稳,但前后有很大的异常值的时候,我们用均值来做指标参考就不靠谱了,这种情况更适合的是用中位数来作为指标。
在Excel里面,用MIN、QUARTILE.EXC、MAX,就可以得到这5个数。数据放在A1:A8 8个单元格中,利用下图的函数计算结果。
另一个指标,众数。
大家看下面这个数列,假如是客服的业绩
1,3,5,5,5,5,5,5,5,5,10,20
我们先算一下平均值,是6.167,如果用这个指标,这里12个数据里面,只有10和20这两个人达标。那么,这个时候,就要用众数了。所谓众数,就是出现的最多的一个数字,毋庸置疑,这里的众数是5,那么,就会有10个人达标了。
众数在excel里面是MODE.MULT。
非常简单就能算出来,特别是数据量大的时候,不用目测。
以上的指标是根据数据的分布情况来选用的,一般用散点图看一下,然后就能判断要使用哪个指标来作为参考。用散点图可以非常直观地发现离群点。将我们上面的一组数据画出散点图,如下图就会发现一个异常值。