专栏名称: 数据分析1480
积土成山,积水成渊!!定期与大家分享数据分析和挖掘方面的干货,包括分析工具R与Python的使用、数据分析的案例、及最新的数据领域资讯。
目录
相关文章推荐
华商报  ·  张伟丽再度卫冕金腰带! ·  2 天前  
华商报  ·  张伟丽再度卫冕金腰带! ·  2 天前  
51好读  ›  专栏  ›  数据分析1480

Pandas数据可视化怎么做?用实战案例告诉你!

数据分析1480  · 公众号  ·  · 2020-04-22 08:20

正文


数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。


常见的数据可视化库有:


  • matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。

  • seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib。

  • pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。


但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做:


  • 数据采集 :如何批量采集网页表格数据?

  • 数据读取 :pd.read_csv/pd.read_excel

  • 数据清洗 (预处理) :理解pandas中的apply和map的作用和异同

  • 可视化 ,兼容matplotlib语法(今天重点)



准备工作


如果你之前没有学过pandas和matpltolib,我们先安装好这几个库


!pip3 install numpy!pip3 install pandas!pip3 install matplotlib


已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子


#jupyter notebook中需要加这行代码%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd#读取天气数据df = pd.read_csv('data/london2018.csv')df




plot最简单的图


选择Month作为横坐标,Tmax作为纵坐标,绘图。


大家注意下面两种写法


#写法1df.plot(x='Month', y='Tmax')plt.show()


  • 横坐标轴参数x传入的是df中的列名Month

  • 纵坐标轴参数y传入的是df中的列名Tmax



折线图


上面的图就是折线图,折线图语法有三种


  • df.plot(x='Month', y='Tmax')

  • df.plot(x='Month', y='Tmax', kind='line')

  • df.plot.line(x='Month', y='Tmax')


df.plot.line(x='Month', y='Tmax')plt.show()


#grid绘制格线df.plot(x='Month', y='Tmax', kind='line', grid=True)plt.show()




多个y值


上面的折线图中只有一条线, 如何将多个y绘制到一个图中, 比如Tmax, Tmin。


df.plot(x='Month', y=['Tmax', 'Tmin'])plt.show()




条形图


df.plot(x='Month',        y='Rain',        kind='bar')#同样还可以这样画#df.plot.bar(x='Month', y='Rain')plt.show()




水平条形图


bar环卫barh,就可以将条形图变为水平条形图


df.plot(x='Month',        y='Rain',        kind='barh')#同样还可以这样画#df.plot.bar(x='Month', y='Rain')plt.show()


多个变量的条形图


df.plot(kind='bar',        x = 'Month',       y=['Tmax', 'Tmin'])plt.show()




散点图


df.plot(kind='scatter',        x = 'Month',        y = 'Sun')plt.show()





饼形图


df.plot(kind='pie', y='Sun')plt.show()


上图绘制有两个小问题:


  • legend图例不应该显示

  • 月份的显示用数字不太正规


df.index = ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']df.plot(kind='pie', y = 'Sun', legend=False)plt.show()




更多数据


一开头的数据只有12条记录(12个月)的数据,现在我们用更大的伦敦天气数据


import pandas as pddf2 = pd.read_csv('data/londonweather.csv')df2.head()


df2.Rain.describe()count    748.000000mean      50.408957std       29.721493min        0.30000025%       27.80000050%       46.10000075%       68.800000max      174.800000Name: Rain, dtype: float64

上面一共有748条记录, 即62年的记录。




箱型图


df2.plot.box(y='Rain')#df2.plot(y='Rain', kind='box')plt.show()




直方图


df2.plot(y='Rain', kind='hist')#df2.plot.hist(y='Rain')plt.show()


纵坐标的刻度可以通过bins设置


df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175, 200])#df2.plot.hist(y='Rain')plt.show()




多图并存


df.plot(kind='line'






请到「今天看啥」查看全文


推荐文章
华商报  ·  张伟丽再度卫冕金腰带!
2 天前
华商报  ·  张伟丽再度卫冕金腰带!
2 天前
花边阅读  ·  我才不会一直丧下去
7 年前