专栏名称: 大数据挖掘DT数据分析
实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
目录
相关文章推荐
天池大数据科研平台  ·  3步,0代码!一键部署DeepSeek-V3 ... ·  18 小时前  
数据派THU  ·  独家|人工智能值得信任吗(附链接) ·  2 天前  
数据派THU  ·  白话版Scaling Laws for ... ·  4 天前  
大数据文摘  ·  让英伟达暴跌17%,特朗普“敲响警钟”,De ... ·  5 天前  
51好读  ›  专栏  ›  大数据挖掘DT数据分析

数据分析:中国高校更名历史 Pythonhttp://www.wmzy.com/api/rank/schList

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2017-05-16 22:29

正文



数据挖掘入门与实战  公众号: datadw



上周领了新任务,做国内高校改名历史的统计,这个挺有意思,以下是我任务完成过程,和大家分享。


一. 数据收集

  数据需求:目前已有高校校名,各高校改名历史记录

  高校校名数据来源:尝试从高校排名网站(iPIN)http://www.wmzy.com/api/rank/schList ,中国教育和科研计算机网 http://gkcx.eol.cn/等抓取,但高校名不全,前者709,后者1394,最后从教育部找到一份名单:“2015年全国高等学校名单”,http://www.moe.gov.cn/srcsite/A03/moe_634/201505/t20150521_189479.html


基于教育部的信息比较权威可靠,本人想法是抓取教育部发布的教发函来收集高校改名信息。


  高校改名数据来源:教育部信息综合搜索

http://www.moe.gov.cn/jyb_xxgk/moe_xxgk/xxgk_left/nfo_search/


鉴于教育部发布的信息众多,且教发函格式不一,本人分成几个类别抓取:合并,更名,建立,在xx基础上建立,转设。然后根据搜索跳转的URL,抓取不同类别,大概情况如图:


  

从截图可以观察到跳转的URL,所以更换掉关键词部分,重新查询便能获得新的结果,再根据页数跳转抓取所有有关通知。具体实现细节比较繁琐,有兴趣同学可以看源代码

在datadw 公众号里回复:高校 获取。


最后数据结果如下:


  1. 高校校名:普通高等学校2553所

  2. 更名历史:教育部1995-2015发布的教发函,约665份,教育部公示1990-2006年5月高校合并情况,431条记录。


二. 数据分析

  接下来就是对数据进行清洗,规则处理的过程,虽然没用到什么算法,但满满都是泪啊~~基本大家都能看懂。大概流程如下:


 

三. 分析结果

  标记结果:原文件学校2554个,增加至2690个,总共标记828个学校。很多专科学校也添加进去了~基本上完成任务。估计做成列表也是挺壮观的,下面是部分结果:



  

数据挖掘入门与实战

搜索添加微信公众号:datadw


教你机器学习,教你数据挖掘


长按图片,识别二维码,点关注



  公众号: weic2c   
据分析入门与实战

长按图片,识别二维码,点关注