专栏名称: 爬虫俱乐部

Stata技术控，编程技术咨询，数据讨论与分享，编程和实证培训。

我国两市融资融券历史数据

爬虫俱乐部 · 公众号 · · 2017-12-13 14:50

正文

今天，是每一个中国人都不应该忘记的日子，今天与每一个中国人有关，勿忘国耻，守望和平，1213！

有问题，不要怕！点击推文底部“ 阅读原文 ”下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱 [email protected] ,我们会及时为您解答哟~

ps:（1）爬虫俱乐部将于2018年1月20日至28日在武汉举行两期Stata编程技术定制培训。详情请戳《爬虫俱乐部Stata编程技术定制培训班——2018年1月武汉专场》

（2）爬虫俱乐部的github主站正式上线了！我们的网站地址是：https://stata-club.github.io，粉丝们可以通过该网站访问过去的推文哟~

今天小编要为大家介绍一下如何获得我国两市融资融券的历史数据，我们首先在网页上找到我们需要的数据，可以在东方财富网上找到该数据，网页链接为： http://data.eastmoney.com/rzrq/total.html ，数据如下图所示：

但是，在这里我们发现点击下一页按钮时，网页链接是不变的，因此我们需要找到真实的网页链接。打开网页右击检查，点击最上方的Network，再按F5键刷新网页，这时工具列表中会出现许多与网页相关的链接，如下图所示：

一般而言，工具列表中有一栏 Status ，其中显示的值为 200 的是正常的网页链接；同时，gif、jpeg、png等格式一般没有我们需要的信息，按照这样的筛选方式可以找到真实的网页链接。点击下一页我们可以在链接的底端找到网页对应的真实链接。如下图所示：（具体详见往期推文《一起来揪出网页真实链接！》）

在此，我们得到其真实网页链接为： http://dcfm.eastmoney.com//EM_MutiSvcExpandInterface/api/js/get?token=70f12f2f4f091e459a279469fe49eca5&st=tdate&sr=-1&p=2&ps=50&js=var%20pfcLzjXE={pages: (tp),data:%20(x)}&type=RZRQ_LSTOTAL_NJ&mk_time=1&rt=50437988

注意到链接中 p=2 ，代表第二页。我们为了更加快速的找到网页的真实链接，在前边操作时点击了下一页，所以在链接底部新生成的那个链接就是第二页的真实链接（如上图所示）

因此，我们可以通过更改p来获得所有页面的信息。另外网页的请求方式为GET，由于该网页的数据量比较小，抓取时间相对较短，在抓取过程服务器封IP的可能性很小，因此这里网页请求方式为GET时，我们可以不进行模拟浏览器，直接用 copy 进行抓取数据。

输入以下命令抓取数据：

clear

cap mkdir "E:\爬虫\东方财富-融资融券"

cd "E:\爬虫\东方财富-融资融券"

copy "http://dcfm.eastmoney.com//EM_MutiSvcExpandInterface/api/js/get?token=70f12f2f4f091e459a279469fe49eca5&st=tdate&sr=-1&p=2&ps=50&js=var%20pfcLzjXE={pages:(tp),data:%20(x)}&type=RZRQ_LSTOTAL_NJ&mk_time=1&rt=50437988" temp.txt , replace

这样我们就将网页数据放入到一个txt文件中，现在我们对数据进行处理，

输入以下命令：

clear

set obs 1

gen v = fileread("temp.txt") //使用fileread将temp.txt文件中的数据读入到v中

split v, p(`"{""')

drop v v1

sxpose, clea r //将数据转置，得到数据如下：

split _var, p(",") //以,分隔开_var

drop _var1

得到数据如下图所示：

注意分割后的变量有很多个，如果分别对每一个变量进行重命名的话是十分繁琐的，这里我们可以看到，以_var11-_var14为例，对于_var11它的变量名对应的是tdate、_var12的变量名对应为AGSZBHXS…可以发现，每一个变量的名称都是观测值中左边一个双引号（"）和右边一个双引号加冒号":之间的内容，但是同时我们发现，_var11这一列的tdate前是没有双引号的，因为我们可以通过正则表达式"*(.+?)":去匹配，其中子表达式(.+?)即为变量的名称，然后我们可以通过 ustrregexs(1) 将其提取出来，并放到一个局部宏中，最后进行重命名，具体程序如下：

foreach c of varlist * {

if ustrregexm(`c',`""*(.+?)":"') local newname = ustrregexs(1)

rename `c' `newname'

replace `newname' = ustrregexra(`newname',`".+?":"*|"|\}"',"")

}

compress

save 1,replace

以上是对单个网页进行处理，下面我们介绍如何获得所有网页上的数据，我们只需对页码循环即可。

命令如下：

clear

cap mkdir "E:\爬虫\东方财富-融资融券"

cd "E:\爬虫\东方财富-融资融券\"

forvalue i = 1(1)38{

copy "http://dcfm.eastmoney.com//EM_MutiSvcExpandInterface/api/js/get?token=70f12f2f4f091e459a279469fe49eca5&st=tdate&sr=-1&p=`i'&ps=50&js=var%20pfcLzjXE={pages:(tp),data:%20(x)}&type=RZRQ_LSTOTAL_NJ&mk_time=1&rt=50437988" temp.txt , replace

clear

set obs 1

gen v = fileread("temp.txt")

split v ,p(`"{""')

drop v v1

sxpose,clear

split _var1,p(,)

drop _var1

foreach c of varlist * {

if ustrregexm(`c',`""*(.+?)":"') local newname = ustrregexs(1)

rename `c' `newname'

replace `newname' = ustrregexra(`newname',`".+?":"*|"|\}"',"")