专栏名称: 互联网分析沙龙
为您提供专业的商业模式、产品、数据、用户、电子商务、社会化媒体、移动互联网等深度分析的信息网站!秉承“信息交流、深度分享”的理念,是为用户缩短获取信息途径,提升阅读质量的深度分析网站。
目录
相关文章推荐
新浪科技  ·  【#iPhone17Air手机壳曝光#:长条 ... ·  2 天前  
新浪科技  ·  【#腾讯2024年全年营收超6600亿元## ... ·  2 天前  
涵江时讯  ·  早安!涵江! ·  3 天前  
51好读  ›  专栏  ›  互联网分析沙龙

解锁数据分析的正确姿势:描述统计(2)

互联网分析沙龙  · 公众号  · 科技媒体  · 2017-04-01 18:39

正文

|沙龙精选自公众号秦路(ID: tracykanc

文|秦路


本文是 《如何七周成为数据分析师》 的第十三篇教程,如果想要了解写作初衷,可以先行阅读七周指南。温馨提示:如果您已经熟悉统计学,大可不必再看这篇文章,或只挑选部分。


描述统计学,往往研究数据的集中和离散。其中,各数据出现次数的情况,也是重要的一个研究方向。


频数分布表示互不重叠的组别中每一组项目的个数。在分类型数据中,频数分布就是各个分类类目的总数。




上图就是数据分析师的岗位,按城市统计出的频数表,即各个城市的岗位数量。从应用角度看,数据透视表是专门用来计算频数的。我们也能把频数转换成百分比占比,这更直观。


如果将其转换成图表,叫做条形图。饼图也可以描述频数,但是不常用。



数值型数据也适用于频数分布。以薪资数据为例,因为薪资千差万别,若粗暴地转换成条形图,就会丧失可读性。


数值型数据必须经过分组转换,将数据划分到一个个区间范围内,可以间接认为把数值其转换成了分类数据。从业务角度理解,18和18.1、17.9的差异并不大,为什么不视为一组呢?


组数划分一般选择5~20组,数据量越大,划分的组数就能越多。划分的不同区间范围叫做组宽,组宽是人为定义的,组宽最好等距。用1~80与81~100计算两组的频数,没什么意义。


组宽和组数的选择相辅相成,组数多,组宽相对小,反之亦然。组宽=(最大值-最小值)/组数。我们将案例数据的组宽定义为5,即0~4,5~9,10~14……


用Excel函数 = int(( salary +1)/5)即可正确获得分组后的结果,0代表0~4,1代表5~9。另外一种方式是用frequency( )函数,以数组形式输出。数据分析工具也能绘制频数表。



因为每一个数据只能属于一个组,所以要规定组的上下限。上文划归的0~4组宽,实际是零到除五之间的数值,包括4.99这类。因为数值型数据可以连续地划分,分类数据没有这顾虑。


分组的过程也叫数据分桶bin,它是常见的一种数据清洗过程。在机器学习中,能提高模型泛化能力。


将汇总的结果生成条形图,调整系列样式,系列重叠和间隙宽度均为0。它的正式名字叫直方图。



条形图和直方图最大的区别在于矩形的间隔。直方图的矩形没有间隔,之间完全重合( 图中的白线是为了显示清楚才加上的 )。因为数值型数据的特点是连续性,不能有空档造成断开。


图中的直方图并不标准,横坐标的数字应该为[0,5,10,15,20…]且位于白线下方。我这里略过了。


频数既能用相对数表示,也能用百分比表示。区别在于纵轴。后者用于方便对比。


直方图的一个重要应用是提供了分布信息。不同直方图代表的业务意义不同。需要注意的是,分组将直接影响直方图的外形。



标准型的形态往往是中间高,两边低,呈中间的集中趋势。它代表一种稳定正常的形态。



双峰型,一般是混合了多种数据源或者类别数据造成的。



锯齿型,一般是观察数据的手段和方法不稳定,才会造成直方图的波动。



孤岛型的直方图,一般是业务上的非正常错误,比如工程零部件出了问题、产品出现了某Bug,造成凸出一块。



陡峭型,往往是数据源缺失,或者被剔除一部分后,造成这种断崖式的折断。









请到「今天看啥」查看全文