【GIS教程】Tableau平台下省域客运数据的统计分析与可视化

数读城事 · 公众号 · · 2017-07-24 18:46

正文

对于主页菌准时更新大家是不是很惊喜！！！

我都被自己感动到了呢！！！

主页菌已经入职半个多月了

深深地感到

更新公众号真的是很困难才能挤出时间呢，哎

今天的废话同样也不多

马上就开始正题吧~

﹀

今天的数据就用上一篇公众号提到的网站—— 交通部出行数据云 里面下载的山西客运班次数据。

这个数据是可以直接下载的！吼不吼！棒不棒！（废话真多）

数据的初步分析

我们首先来看看这个数据，打开 「山西班次表」

密密麻麻啊！虽然有到达站和出发站的字段，但是好像数据有点问题，没事，线路名称这个字段还是很健康的，我们用分列把这个字段分成两栏，分别是 出发和到达 ，好，然后把一些没用的都给删了！，因为好麻烦。那我们首先分析一下这里面的信息吧。

1.打开Tableau，导入excel数据，额，导入的时间有点长啊，这不科学啊，不就11万条数据么！不就11万条嘛！！！

我们来看看出发站点的分布情况：

前三名分别是 太原、运城、长治 ，简单猜测下在山西省内城市规模的队列前三应该就是他们了吧。

2.看一下到达城市的数量分布情况：

太原、长治、运城 还是稳居前三。

主页菌发现这个数据里面还有发车时间和发车日期的数据，我们可以把这两个字段在excel里面合并成一个字段，然后在Tableau里面用时间钻取对日期时间进行钻取，从年—月—周—日，依次钻取，最后建立两个筛选器，分别是出发城市和日期，筛选出太原、长治和运城三个城市在1月1日这天的数据，看下这一天这三个城市发出的班车在不同时间段的分布情况~

我们可以看到，三个城市最早的客运班车都在 上午六点 ，随着时间推移发班数量显著增加，在八九点左右达到上午的第一个小高峰，然后是中午可能是大家都要休息吧，有所减少，在下午两三点又是一波高峰，好，描述完毕，接下去干别的事了，关于Tableau的教程，主页菌有别的计划~

数据清洗

上一节什么清洗都没做就开始分析其实是！很不正确的！主页君那是在给你们做错误示范！比如「到达城市」这一个字段，有到达城市是「运城」的，也有到达城市是「运城（高速）」、「运城高速」和「运城市」这样的名称，我们数据清理首先就是要把这些字段属性之类的统一，这真的是！非常非常的费事的呢，除此之外还要把一些没用的、数据不全的，不知道为什么有了等于没有的字段给 删掉！删掉！

在数据清洗的差不多的时候，可以另外做一个 「山西省市县列表」 的表格来作为最后字段连接的依据。