专栏名称: 城长数据

ArcGIS for Urabn planning.主要面向城市规划专业，通过全方位的ArcGIS技术与方法讲解，达到高效运用ArcGIS ，以辅助城市规划设计及研究的目的。

高铁余票数据抓取及分析

城长数据 · 公众号 · · 2018-06-02 07:06

正文

请到「今天看啥」查看全文

2016 年年中的时候，我读到一篇论文《基于高铁余票的客流行为特征及其效应分析 —— 以沪宁沿线高铁站点为例》（《城市规划》 2015-07 ）。对其中分析方法比较感兴趣，也对其数据的获取方法比较感兴趣。后来听说研究团队编写的程序是到铁路部门的系统中去运行，从而抓取余票数据（未核实）的，那么如果这样的话，这对普通研究者而言，基本上无可行性。后来，我看到 12306 网站上有余票查询的链接（ https://kyfw.12306.cn/otn/leftTicket/init ），可以准确获取实时余票数量。

（目前，该网址已无法查询实时数据，超过一定的余票量将仅显示“有”。因此，按本文的方法抓取的数据，恐将无太大意义。如无研究必要性，请不要去抓取余票数据，避免对 12306 网站服务器造成影响。分析数据地址：链接：https://pan.baidu.com/s/1MlrhIOti3RdfzesBa8Nv4Q 密码：rxvz，包括3个CSV文件。）

于是，我就在想，可不可以用 Python 编写抓爬程序？经过实践，方法可行，并获得最终如论文所示的结论。

一、数据抓取

爬虫程序编写的关键与步骤是，（ 1 ）理解论文作者的方法；（ 2 ）找到余票数据源；（ 3 ）抓取该站点该车次发车前 30 分钟的余票数据；（ 4 ）程序要全天运行（后来了解到车票有发售时间，不需要 24 小时运行）。

对于步骤 1 ，看懂论文的描述，实在看不懂，可以去看作者团队的软件著作权说明中的具体解释。步骤 2 对但凡有点爬虫基础的人，都能找到。步骤 3 ，涉及到较复杂的判断，要去判断车次、车站及时间。我采用的是偷懒的做法，不去爬取 30 分钟前的数据，而是去把一天中每一秒、所有车站、所有车次数据全下载下来（仅下载了 2016 年 12 月 21 日星期三沪宁线上的余票数据），后面再来对数据进行清洗。步骤 4 ，用 schedule 库来实现。