首先,数据来源于国家统计局国家数据查询页面,如下:
然后通过爬虫把数据抓下来(当然,你通过选点页面,复制黏贴也可以做到),爬虫脚本见文章最后的地址,然后我也就
不解释
如何实现的了,因为——
大家也可以直接用我给出来的数据,数据地址直接看最后……
这段时间,需要参与一个有关时间序列分析的项目,所以用这种
20
年数据来练练手,找找感觉的。
不同省份的旅游外汇收入,基本上能够反映出中国改革开放和对外交流的程度,我们可以从这些数据中去发现一些有趣的问题,有兴趣研究的同学可以深入研究,本文仅介绍几种可视化的技术,首先,对于时序分析,当然第一分析图就是折线图咯,所以我就做了一个默认效果的折线图:
相信大家看到,感觉和我是一样的:
根本就没法看不是,也不知道谁是谁,所以,这种数据打堆放一起的时候,还是有一个交互效果比较好,比如我可以采用
pyecharts
来做折线图:放出动图如下:
如果你是
javascript
高手的,这种当然是小儿科,
but
,我们是用Python来做,所以百度家的Echarts号称中文JS免费第一可视化工具包,还是做了很多好事滴,特别是改造成Python的之后,对于我这种JS盲,那是绝对的福音啊。
代码还是见文末地址。
无聊的时候,我还做了一个相关性分析,得到了一个很有意思的结果:
甘肃这是要逆天啊……所有省份之间的旅游收入,都是正相关,但是甘肃与其他所有省份的旅游情况,恰恰是负相关,具体看看甘肃的情况:
恭喜甘肃,获得全国旅游外汇收入波动最大省份……
以上都是属性可视化,下面介绍一种有关地图的可视化模型:
分位数地图
,先看图:
分位数地图,是利用箱线图的分位数方法,将数据分成六类(不算缺失值),然后映射到地图上面的方法
,这本来是
geoda
的拿手技术,比如我用geoda实现中国2009年人口的分位数地图如下:
现在我们可以用Python来进行实现了,实现的方法如下:
具体代码,可以从文末地址下载,最后,我们分别来做几个不同时间段的分位数地图看看:
首先看看
2000
年:
2000
年的时候,宁夏是异常低值,而北京江苏都是异常高值……
2000
年时候的分布,基本上与经济情况相仿。
然后看看
2008
年:
2008
年北京奥运年,所以北京依然是异常高值,宁夏依然是异常低值,但是浙江和福建对调了。
2012
年:北京的旅游收入增长放缓,进入了第二梯队,江苏和广东依然异常高值。
2016
年:异常高值只剩下了广东,而异常低值变成了甘肃。
最后重复以前的一个观点:
可视化不是分析结果,可视化只是数据本身表现出来的某些特征,这里面的分析结论以及后面的意义,就需要各位同学和专家们深入探索和研究了。
最后,代码与数据的位置如下:
https://github.com/allenlu2008/PythonDemo
里面的
014
时序分析,欢迎大家下载。