专栏名称: 小蚊子数据分析
数据分析知识、培训、招聘分享。
目录
相关文章推荐
女神汇  ·  男朋友消失一整晚说是躲春? ... ·  5 天前  
佑子爸爸育儿  ·  当年选择不要孩子,30年后“丁克”怎么样了? ... ·  2 天前  
佑子爸爸育儿  ·  当年选择不要孩子,30年后“丁克”怎么样了? ... ·  2 天前  
宛央女子  ·  申公豹是被毁掉的小镇做题家 ·  3 天前  
51好读  ›  专栏  ›  小蚊子数据分析

菜鸟学Python笔记

小蚊子数据分析  · 公众号  ·  · 2020-03-24 12:10

正文

眼过千遍不如动手一遍,在用中学、在学中用。今天练习一下Python读取csv数据集,并做简单分组描述统计。

有一个两个班级考试成绩的数据,我把它另存为csv格式,放到指定的G:/py文件夹,文件名称2cj.csv。首先我需要使用pandas把数据读进来。

资料1→ 跟小白学Python数据分析——数据导入1

看完这个资料基本了解如何读入一个数据,可以照搬文章的代码段并执行:

import pandasdata=pandas.read_csv( 'G:/py/2cj.csv',        engine='python')

预览一下data数据长啥样吧。


bj班级,1代表1班,2代表2班,score考试成绩,数据很好理解,一看就懂。

接下来我想知道两个班级考试成绩的平均水平,需要用到分组描述统计,

资料2→ 跟小白学Python数据分析——描述性统计分析

资料3→ 跟小白学Python数据分析——分组分析

跟这两篇文章学两段代码,按班级拆分数据并输出相应的成绩平均值。

data.groupby('bj').mean()

结果:


用习惯了SPSS,总觉得这种输出不带表格格式,实在有些看不下去。1班平均63.6分,2班平均73.6分,肉眼可见差别还是蛮大的。

只看mean有点单调,我还想了解一下更多的统计指标,比如频数、标准差等。再写一段命令。

data.groupby('bj').describe()

结果:


现在很清晰了,2班不但成绩比1班的高,而且还很集中,标准差小于1班(10.6<13.5),总之就是成绩高而且总体表现向高分集中。

动手练习的好处很多,可以熟悉pandas函数,可以在实践中发现一些问题。下期再见。



-----------------

希望系统、快速学习 Python数据分析 知识,可以学习

数据分析专家@文彤老师

跟文彤老师学Python数据分析 》系列 视频课程

包含以下三门课程







请到「今天看啥」查看全文