Mr.林:
小白,我们已经学会了数据导入,那么今天就来学习如何进行
基本统计分析
。
小白:
好啊!
Mr.林:
基本统计分析,又叫描述性统计分析,它是指运用制表、分类、图形以及计算概括性数据来描述数据特征的各项活动,以发现其内在规律的统计分析方法。
描述性统计分析主要包括数据的集中趋势分析、数据的离散程度分析、数据的频数分布分析等,常用的统计指标有:计数、求和、平均值、方差、标准差等。
在Pandas 中,使用describe 函数进行描述性统计分析。
我们继续使用导入使用的案例数据进行学习,输入以下代码:
1import pandas
2data = pandas.read_csv(
3'D:/D/data.csv',
4 engine='python',
5 encoding='utf8'
6)
Mr.林:
执行后,在变量浏览窗口中就可以看到刚导入的data变量了,双击打开data变量,就可以得到下面这张表
。
然后输入以下代码
1# 对数据框进行描述统计分析
2data.describe()
执行后,直接在输出窗口中可以查看结果
。
1 id age
2count 59101.000000 59101.000000
3mean 149829.546471 27.228862
4std 28772.846683 5.389559
5min 100000.000000 3.000000
625% 124850.000000 24.000000
750% 150032.000000 26.000000
875% 174773.000000 29.000000
9max 199501.000000 87.000000
可以看到
describe 函数
仅对id、age这两列数据进行描述统计分析,小白,你知道为什么吗?
Mr.林:
是的,我们继续看,给出的结果有count(计数)、mean(平均值)、std(标准差)、min(最小值)、25%(第一四分位数)、50%(中位数)
、75%(第三四分位数)
、max(最大值),这样我们就可以对数据有个基本的了解。
小白:
id这列数据其实统计
mean(平均值)、std(标准差)、25%(第一四分位数)、50%(中位数)
、75%(第三四分位数)
这几个指标好像意义不大。
Mr.林:
哈哈,不错呦!确实没什么意义。如果只要对age列进行统计,还可以这样写代码
1count 59101.000000
2mean 27.228862
3std 5.389559
4min 3.000000
525% 24.000000
650% 26.000000
775% 29.000000
8max 87.000000