专栏名称: 小蚊子数据分析
数据分析知识、培训、招聘分享。
目录
相关文章推荐
新京报书评周刊  ·  DeepSeek刷屏之后:人机共创年代,还有 ... ·  3 天前  
上海书评  ·  何贝莉 ... ·  2 天前  
疯子与书  ·  //@栝-cheetahs-每天吃一个西红柿 ... ·  昨天  
悦读文摘  ·  7A抗菌+椰香味保暖背心你见过吗?自带bra ... ·  5 天前  
51好读  ›  专栏  ›  小蚊子数据分析

跟小白学Python数据分析——描述性统计分析

小蚊子数据分析  · 公众号  ·  · 2020-01-21 09:01

正文

Mr.林: 小白,我们已经学会了数据导入,那么今天就来学习如何进行 基本统计分析

小白: 好啊!

Mr.林: 基本统计分析,又叫描述性统计分析,它是指运用制表、分类、图形以及计算概括性数据来描述数据特征的各项活动,以发现其内在规律的统计分析方法。
描述性统计分析主要包括数据的集中趋势分析、数据的离散程度分析、数据的频数分布分析等,常用的统计指标有:计数、求和、平均值、方差、标准差等。

在Pandas 中,使用describe 函数进行描述性统计分析。

我们继续使用导入使用的案例数据进行学习,输入以下代码:


1import pandas
2data = pandas.read_csv(
3'D:/D/data.csv',
4 engine='python',
5 encoding='utf8'
6)


Mr.林: 执行后,在变量浏览窗口中就可以看到刚导入的data变量了,双击打开data变量,就可以得到下面这张表

然后输入以下代码


1# 对数据框进行描述统计分析
2data.describe()


执行后,直接在输出窗口中可以查看结果


1                  id           age
2count   59101.000000  59101.000000
3mean   149829.546471     27.228862
4std     28772.846683      5.389559
5min    100000.000000      3.000000
625%    124850.000000     24.000000
750%    150032.000000     26.000000
875%    174773.000000     29.000000
9max    199501.000000     87.000000


可以看到 describe 函数 仅对id、age这两列数据进行描述统计分析,小白,你知道为什么吗?


小白: 因为只有这两列才是数值型数据。
Mr.林: 是的,我们继续看,给出的结果有count(计数)、mean(平均值)、std(标准差)、min(最小值)、25%(第一四分位数)、50%(中位数) 、75%(第三四分位数) 、max(最大值),这样我们就可以对数据有个基本的了解。
小白: id这列数据其实统计 mean(平均值)、std(标准差)、25%(第一四分位数)、50%(中位数) 、75%(第三四分位数) 这几个指标好像意义不大。
Mr.林: 哈哈,不错呦!确实没什么意义。如果只要对age列进行统计,还可以这样写代码
1data.age.describe()
执行后,直接在输出窗口中可以查看结果
1count    59101.000000
2mean        27.228862
3std          5.389559
4min          3.000000
525%         24.000000
650%         26.000000
775%         29.000000
8max         87.000000
如果仅仅需要统计某个指标,可以这样写
1# 统计用户数
2
data.id.count()
统计结果:59101
1# 平均年龄
2data.age.mean()
统计结果:27.228862
1# 年龄最大值
2data.age.max()
统计结果:87
1# 年龄最小值






请到「今天看啥」查看全文