专栏名称: 爬虫俱乐部
Stata技术控,编程技术咨询,数据讨论与分享,编程和实证培训。
目录
相关文章推荐
南国早报  ·  刘德华方紧急发布! ·  昨天  
南国早报  ·  刘德华方紧急发布! ·  昨天  
青岛新闻综合广播FM1076  ·  热搜!知名歌手,传来喜讯 ·  2 天前  
江苏新闻  ·  “声”入人心!周深这四首歌被纳入教材! ·  2 天前  
江苏新闻  ·  “声”入人心!周深这四首歌被纳入教材! ·  2 天前  
唐诗三百首  ·  四大名著最全插曲,重温时代经典之音! ·  4 天前  
51好读  ›  专栏  ›  爬虫俱乐部

screening(一)花式tabulate

爬虫俱乐部  · 公众号  ·  · 2018-03-09 14:11

正文

有问题,不要怕!点击推文底部 “阅读原文” 下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱 [email protected] ,我们会及时为您解答哟~

喜大普奔~爬虫俱乐部的github主站正式上线了!我们的网站地址是: https://stata-club.github.io ,粉丝们可以通过该网站访问过去的推文哟~

——爬虫俱乐部

爬虫俱乐部已推出研究助理供需平台,如果您需要招聘研究助理(Research Assistant or Research Associate),可以将您的需求通过我们的公众号发布;如果您想成为一个RA,可以将您的简历发给我们,进入我们的研究助理数据库。帮我们写优质的推文可以提升您被知名教授雇用的胜算呀!

screening命令


screening 是一个检查复杂文本的内容,识别一个或多个用户定义的关键词,在数据清洗方面具有很大的用处,并且可以将原始数据直接转换为用户定义的编码方案,其筛选的灵活性也可以促进不同来源的数据进行合并。其选项丰富,功能很多,我们将会分为几篇推文进行介绍。

screening 另一个强大的地方在于能结合 正则表达式 使用,这大大增强了其文本处理的能力,但同时也有其局限性,该命令编写是使用的是Stata14之前正则表达式字符串函数。我们多次提到Stata14之前的版本只能使用以下正则表达式元字符: “[]”、“a-z”、“.”、“*”、“+”、“?”、“^”、“$”、“|”、“()” ,其他元字符只能在Stata14、Stata15中使用。然而瑕不掩瑜,screening仍然是一个文本处理的好工具。

命令下载: findit screening ,然后再点击链接下载即可。

一、screening的语法结构如下:

screening [if] [in], sources(varlist[, sourcesopts]) keys([matching_rule]"string" [[matching_rule] "string" ...]) [options]

screening 具有比较丰富的选项,本篇推文只介绍以下几个:

(1) sources(varlist[,sourcesopts]) :指定要筛选的变量,其中 [, sourcesopts] 包括: lower ,指的是不区分大小写匹配,该变量下的所有英文字母均为小写; trim ,指的是删除变量开头和结尾的空白字符匹配关键词; removeblank ,指的是删除变量中所有的空白字符匹配关键词; removesign ,指的是删除下列字符:* h+ ? / \ % ( ) [ ] { } | . ^ - _ # $后匹配关键词等等。这个选项是必须指定的。

(2) keys(...) :指定与 sources() 中变量匹配的正则表达式;

(3) letters(#) :指定要匹配关键词字母的数量;默认是匹配整个关键词;

(4) explore(type) :导出 screening 的结果。type包括: tab ,指的是tabulate所有匹配到关键词的变量; count 指的是display变量中匹配到关键词的观测值总数;

(5) cases(newvar) :生成一系列的变量(变量个数等于关键词的个数),用来显示每个关键词在源变量中出现的次数。

二、实例说明

1. tabulate指定关键词的变量

(1)利用auto.dta数据,tabulate变量make;

sysuse auto,clear

screening, sources(make)keys(Buick) explore(tab)

我们还可以同时指定多个关键词:

screening, sources(make, lower) explore(tab) keys(amc buick) letters(2 4)

sources(make, lower) 指定要筛选的变量为 make ,并且匹配时不区分大小写,该变量下的所有英文字母均为小写; explore(tab) 指以 tabulate 的形式输出筛选的结果; keys(amc buick) 指定两个关键词; letters(2 4) 指定匹配第一个关键词字母的数量为2,即am,匹配第二个关键词字母的数量为4,即buic。

2.display变量中匹配到关键词的观测值总数

sysuse auto,clear

screening, sources(make,lower)keys(buick amc) explore(count)

通过指定选项 explore(count) ,得到变量 make 中匹配到关键词“buick”和“amc”观测值的总数和百分比。

注:此推文中的图片及封面(除操作部分的)均来源于网络!如有雷同,纯属巧合!

以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。 另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!

应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~

文字编辑 :王凯丽

技术总编 :刘贝贝




往期推文推荐:

1. 高校学术大神:你的导师上榜了吗?

2.中国高校财经、管理与综合类期刊灌水排行榜

3. 命令 sum2docx 输出统计量表到 docx 文件

4. reg2docx 报告你的实证结果吧!

5. 爬虫俱乐部又出新命令了 ——wordconvert 转换你的 word 文件

6. putdocx+wordconvert— 将实证结果输出到 Word .docx )文档

7. Stata 15 Markdown—— 没有做不到,只有想不到!

8. 矩阵和宏的故事

9. shellout open anything

10.







请到「今天看啥」查看全文