有问题,不要怕!点击推文底部
“阅读原文”
下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱
[email protected]
,我们会及时为您解答哟~
喜大普奔~爬虫俱乐部的github主站正式上线了!我们的网站地址是:
https://stata-club.github.io
,粉丝们可以通过该网站访问过去的推文哟~
爬虫俱乐部已推出研究助理供需平台,如果您需要招聘研究助理(Research Assistant or Research Associate),可以将您的需求通过我们的公众号发布;如果您想成为一个RA,可以将您的简历发给我们,进入我们的研究助理数据库。帮我们写优质的推文可以提升您被知名教授雇用的胜算呀!
screening
是一个检查复杂文本的内容,识别一个或多个用户定义的关键词,在数据清洗方面具有很大的用处,并且可以将原始数据直接转换为用户定义的编码方案,其筛选的灵活性也可以促进不同来源的数据进行合并。其选项丰富,功能很多,我们将会分为几篇推文进行介绍。
screening
另一个强大的地方在于能结合
正则表达式
使用,这大大增强了其文本处理的能力,但同时也有其局限性,该命令编写是使用的是Stata14之前正则表达式字符串函数。我们多次提到Stata14之前的版本只能使用以下正则表达式元字符:
“[]”、“a-z”、“.”、“*”、“+”、“?”、“^”、“$”、“|”、“()”
,其他元字符只能在Stata14、Stata15中使用。然而瑕不掩瑜,screening仍然是一个文本处理的好工具。
命令下载:
findit screening
,然后再点击链接下载即可。
screening [if] [in], sources(varlist[, sourcesopts]) keys([matching_rule]"string" [[matching_rule] "string" ...]) [options]
screening
具有比较丰富的选项,本篇推文只介绍以下几个:
(1)
sources(varlist[,sourcesopts])
:指定要筛选的变量,其中
[, sourcesopts]
包括:
lower
,指的是不区分大小写匹配,该变量下的所有英文字母均为小写;
trim
,指的是删除变量开头和结尾的空白字符匹配关键词;
removeblank
,指的是删除变量中所有的空白字符匹配关键词;
removesign
,指的是删除下列字符:* h+ ? / \ % ( ) [ ] { } | . ^ - _ # $后匹配关键词等等。这个选项是必须指定的。
(2)
keys(...)
:指定与
sources()
中变量匹配的正则表达式;
(3)
letters(#)
:指定要匹配关键词字母的数量;默认是匹配整个关键词;
(4)
explore(type)
:导出
screening
的结果。type包括:
tab
,指的是tabulate所有匹配到关键词的变量;
count
指的是display变量中匹配到关键词的观测值总数;
(5)
cases(newvar)
:生成一系列的变量(变量个数等于关键词的个数),用来显示每个关键词在源变量中出现的次数。
1. tabulate指定关键词的变量
(1)利用auto.dta数据,tabulate变量make;
sysuse auto,clear
screening, sources(make)keys(Buick) explore(tab)
我们还可以同时指定多个关键词:
screening, sources(make, lower) explore(tab) keys(amc buick) letters(2 4)
sources(make, lower)
指定要筛选的变量为
make
,并且匹配时不区分大小写,该变量下的所有英文字母均为小写;
explore(tab)
指以
tabulate
的形式输出筛选的结果;
keys(amc buick)
指定两个关键词;
letters(2 4)
指定匹配第一个关键词字母的数量为2,即am,匹配第二个关键词字母的数量为4,即buic。
2.display变量中匹配到关键词的观测值总数
sysuse auto,clear
screening, sources(make,lower)keys(buick amc) explore(count)
通过指定选项
explore(count)
,得到变量
make
中匹配到关键词“buick”和“amc”观测值的总数和百分比。
注:此推文中的图片及封面(除操作部分的)均来源于网络!如有雷同,纯属巧合!
以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。
另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!
应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~