附完整代码
clear
cap mkdir e:/推文合集
cd e:/推文合集
forvalue i = 1(1)500 {
if `i' == 1 {
dis "第`i'页"
cap copy "https://stata-club.github.io/categories/%E6%8E%A8%E6%96%87/" temp.txt,replace
}
else {
dis "第`i'页"
cap copy "https://stata-club.github.io/categories/%E6%8E%A8%E6%96%87/page/`i'/" temp.txt,replace
if _rc != 0 {
dis "一共`=`i'-1'页,抓取完毕"
continue ,break
}
}
clear
set obs 1
gen v = fileread("temp.txt")
split v ,p(`"
sxpose ,clear
drop in 1/2
gen title = ustrregexs(1) if ustrregexm(_var1,"/(.+?)/")
gen url = "https://stata-club.github.io/推文/" + title + "/"
drop _var1
save `i',replace
}
clear
fs *.dta
foreach c in `r(files)' {
append using `c'
}
export excel using 推文合集.xlsx ,replace firstrow(variables)
注:此推文中的图片及封面(除操作部分的)均来源于网络!如有雷同,纯属巧合!
以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。
另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!
应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~