数据挖掘入门与实战 公众号: datadw
上周领了新任务,做国内高校改名历史的统计,这个挺有意思,以下是我任务完成过程,和大家分享。
一. 数据收集
数据需求:目前已有高校校名,各高校改名历史记录
高校校名数据来源:尝试从高校排名网站(iPIN)http://www.wmzy.com/api/rank/schList ,中国教育和科研计算机网 http://gkcx.eol.cn/等抓取,但高校名不全,前者709,后者1394,最后从教育部找到一份名单:“2015年全国高等学校名单”,http://www.moe.gov.cn/srcsite/A03/moe_634/201505/t20150521_189479.html
基于教育部的信息比较权威可靠,本人想法是抓取教育部发布的教发函来收集高校改名信息。
高校改名数据来源:教育部信息综合搜索,
http://www.moe.gov.cn/jyb_xxgk/moe_xxgk/xxgk_left/nfo_search/
鉴于教育部发布的信息众多,且教发函格式不一,本人分成几个类别抓取:合并,更名,建立,在xx基础上建立,转设。然后根据搜索跳转的URL,抓取不同类别,大概情况如图:
从截图可以观察到跳转的URL,所以更换掉关键词部分,重新查询便能获得新的结果,再根据页数跳转抓取所有有关通知。具体实现细节比较繁琐,有兴趣同学可以看源代码:
在datadw 公众号里回复:高校 获取。
最后数据结果如下:
1. 高校校名:普通高等学校2553所
2. 更名历史:教育部1995-2015发布的教发函,约665份,教育部公示1990-2006年5月高校合并情况,431条记录。
二. 数据分析
接下来就是对数据进行清洗,规则处理的过程,虽然没用到什么算法,但满满都是泪啊~~基本大家都能看懂。大概流程如下:
三. 分析结果
标记结果:原文件学校2554个,增加至2690个,总共标记828个学校。很多专科学校也添加进去了~基本上完成任务。估计做成列表也是挺壮观的,下面是部分结果:
数据挖掘入门与实战
搜索添加微信公众号:datadw
教你机器学习,教你数据挖掘
长按图片,识别二维码,点关注
公众号: weic2c
据分析入门与实战
长按图片,识别二维码,点关注