专栏名称: 数读城事
和城市有关的数据运用与分享
目录
相关文章推荐
最红安  ·  古朴而美丽的传统村落——红安祝家楼 ·  12 小时前  
最红安  ·  古朴而美丽的传统村落——红安祝家楼 ·  12 小时前  
重庆之声  ·  二十四节气丨雨水落,万物生 ·  昨天  
福州日报  ·  错过再等一年!周末福州这里人人人 ·  3 天前  
福州日报  ·  错过再等一年!周末福州这里人人人 ·  3 天前  
51好读  ›  专栏  ›  数读城事

【GIS教程】Tableau平台下省域客运数据的统计分析与可视化

数读城事  · 公众号  ·  · 2017-07-24 18:46

正文

对于主页菌准时更新大家是不是很惊喜!!!

我都被自己感动到了呢!!!

主页菌已经入职半个多月了

深深地感到

更新公众号真的是很困难才能挤出时间呢,哎

今天的废话同样也不多

马上就开始正题吧~


今天的数据就用上一篇公众号提到的网站—— 交通部出行数据云 里面下载的山西客运班次数据。

这个数据是可以直接下载的!吼不吼!棒不棒!(废话真多)


1

数据的初步分析


我们首先来看看这个数据,打开 「山西班次表」


密密麻麻啊!虽然有到达站和出发站的字段,但是好像数据有点问题,没事,线路名称这个字段还是很健康的,我们用分列把这个字段分成两栏,分别是 出发和到达 ,好,然后把一些没用的都给删了!,因为好麻烦。那我们首先分析一下这里面的信息吧。


1.打开Tableau,导入excel数据,额,导入的时间有点长啊,这不科学啊,不就11万条数据么!不就11万条嘛!!!


我们来看看出发站点的分布情况:

前三名分别是 太原、运城、长治 ,简单猜测下在山西省内城市规模的队列前三应该就是他们了吧。


2.看一下到达城市的数量分布情况:


太原、长治、运城 还是稳居前三。


主页菌发现这个数据里面还有发车时间和发车日期的数据,我们可以把这两个字段在excel里面合并成一个字段,然后在Tableau里面用时间钻取对日期时间进行钻取,从年—月—周—日,依次钻取,最后建立两个筛选器,分别是出发城市和日期,筛选出太原、长治和运城三个城市在1月1日这天的数据,看下这一天这三个城市发出的班车在不同时间段的分布情况~



我们可以看到,三个城市最早的客运班车都在 上午六点 ,随着时间推移发班数量显著增加,在八九点左右达到上午的第一个小高峰,然后是中午可能是大家都要休息吧,有所减少,在下午两三点又是一波高峰,好,描述完毕,接下去干别的事了,关于Tableau的教程,主页菌有别的计划~



2

数据清洗


上一节什么清洗都没做就开始分析其实是!很不正确的!主页君那是在给你们做错误示范!比如「到达城市」这一个字段,有到达城市是「运城」的,也有到达城市是「运城(高速)」、「运城高速」和「运城市」这样的名称,我们数据清理首先就是要把这些字段属性之类的统一,这真的是!非常非常的费事的呢,除此之外还要把一些没用的、数据不全的,不知道为什么有了等于没有的字段给 删掉!删掉!


在数据清洗的差不多的时候,可以另外做一个 「山西省市县列表」 的表格来作为最后字段连接的依据。



3

可视化分析



一切准备就绪,我们选取2017年1月前7天的数据,分析下 客运分布情况

首先是城市发车数量:



咦,这和我想得不一样啊,为什么运城那么高,总觉得有问题。不管了,先这么着吧。


再看看山西省出发到达省份的数据:



从这个情况来看,山西与河南的联系很强,强到远超河北一大截,这里面,山西与河南交接的运城可是贡献了很大的一部分数据量。从到达城市的数据来看,山西与各省发生联系并不都通过省会城市,譬如邯郸之于河北,德阳之于四川。



以省内出发省内到达作为考察省内各城市联系的前提,分析陕西省内城市之间的联系情况。



从每个出发城市到达的终点城市的客运班车数量来看,就!知道!问题!出在哪!了!


运城到运城的数量太多,超出了正常情况,也就是说,原始数据中,还有一部分数据有问题,运城的数据包括了很大一部分市内、或者是县内的客车,==不说了,我要去重新整理数据了。








请到「今天看啥」查看全文


推荐文章
重庆之声  ·  二十四节气丨雨水落,万物生
昨天
气质女人  ·  一伊丨你可能嫁了个假老公
8 年前
山西老乡俱乐部  ·  十句话送给晚上睡不着觉的人(精辟)!
7 年前