对于主页菌准时更新大家是不是很惊喜!!!
我都被自己感动到了呢!!!
主页菌已经入职半个多月了
深深地感到
更新公众号真的是很困难才能挤出时间呢,哎
今天的废话同样也不多
马上就开始正题吧~
﹀
﹀
﹀
今天的数据就用上一篇公众号提到的网站——
交通部出行数据云
里面下载的山西客运班次数据。
这个数据是可以直接下载的!吼不吼!棒不棒!(废话真多)
数据的初步分析
我们首先来看看这个数据,打开
「山西班次表」
密密麻麻啊!虽然有到达站和出发站的字段,但是好像数据有点问题,没事,线路名称这个字段还是很健康的,我们用分列把这个字段分成两栏,分别是
出发和到达
,好,然后把一些没用的都给删了!,因为好麻烦。那我们首先分析一下这里面的信息吧。
1.打开Tableau,导入excel数据,额,导入的时间有点长啊,这不科学啊,不就11万条数据么!不就11万条嘛!!!
我们来看看出发站点的分布情况:
前三名分别是
太原、运城、长治
,简单猜测下在山西省内城市规模的队列前三应该就是他们了吧。
2.看一下到达城市的数量分布情况:
太原、长治、运城
还是稳居前三。
主页菌发现这个数据里面还有发车时间和发车日期的数据,我们可以把这两个字段在excel里面合并成一个字段,然后在Tableau里面用时间钻取对日期时间进行钻取,从年—月—周—日,依次钻取,最后建立两个筛选器,分别是出发城市和日期,筛选出太原、长治和运城三个城市在1月1日这天的数据,看下这一天这三个城市发出的班车在不同时间段的分布情况~
我们可以看到,三个城市最早的客运班车都在
上午六点
,随着时间推移发班数量显著增加,在八九点左右达到上午的第一个小高峰,然后是中午可能是大家都要休息吧,有所减少,在下午两三点又是一波高峰,好,描述完毕,接下去干别的事了,关于Tableau的教程,主页菌有别的计划~
数据清洗
上一节什么清洗都没做就开始分析其实是!很不正确的!主页君那是在给你们做错误示范!比如「到达城市」这一个字段,有到达城市是「运城」的,也有到达城市是「运城(高速)」、「运城高速」和「运城市」这样的名称,我们数据清理首先就是要把这些字段属性之类的统一,这真的是!非常非常的费事的呢,除此之外还要把一些没用的、数据不全的,不知道为什么有了等于没有的字段给
删掉!删掉!
在数据清洗的差不多的时候,可以另外做一个
「山西省市县列表」
的表格来作为最后字段连接的依据。
可视化分析
一切准备就绪,我们选取2017年1月前7天的数据,分析下
客运分布情况
。
首先是城市发车数量:
咦,这和我想得不一样啊,为什么运城那么高,总觉得有问题。不管了,先这么着吧。
再看看山西省出发到达省份的数据:
从这个情况来看,山西与河南的联系很强,强到远超河北一大截,这里面,山西与河南交接的运城可是贡献了很大的一部分数据量。从到达城市的数据来看,山西与各省发生联系并不都通过省会城市,譬如邯郸之于河北,德阳之于四川。
以省内出发省内到达作为考察省内各城市联系的前提,分析陕西省内城市之间的联系情况。
从每个出发城市到达的终点城市的客运班车数量来看,就!知道!问题!出在哪!了!
运城到运城的数量太多,超出了正常情况,也就是说,原始数据中,还有一部分数据有问题,运城的数据包括了很大一部分市内、或者是县内的客车,==不说了,我要去重新整理数据了。