专栏名称: 爬虫俱乐部
Stata技术控,编程技术咨询,数据讨论与分享,编程和实证培训。
目录
相关文章推荐
调研纪要  ·  Figure:Hello,Helix! ·  2 天前  
调研纪要  ·  Figure:Hello,Helix! ·  2 天前  
调研纪要  ·  下一个宇树? ·  3 天前  
调研纪要  ·  下一个宇树? ·  3 天前  
51好读  ›  专栏  ›  爬虫俱乐部

正则表达式之POSIX字符类元字符

爬虫俱乐部  · 公众号  ·  · 2018-03-12 10:34

正文

有问题,不要怕!点击推文底部“ 阅读原文 ”下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱 [email protected] ,我们会及时为您解答哟~

喜大普奔~爬虫俱乐部的 github 主站正式上线了!我们的网站地址是: https://stata-club.github.io ,粉丝们可以通过该网站访问过去的推文哟~

好消息 :爬虫俱乐部即将推出研究助理供需平台,如果您需要招聘研究助理(Research Assistant or Research Associate),可以将您的需求通过我们的公众号发布;如果您想成为一个RA,可以将您的简历发给我们,进入我们的研究助理数据库。帮我们写优质的推文可以提升您被知名教授雇用的胜算呀!

POSIX 表示可移植操作系统接口( Portable Operating System Interface of UNIX ,缩写为 POSIX ), POSIX 标准定义了操作系统应该为应用程序提供的接口标准, POSIX 字符类是许多正则表达式都支持的一种简写形式( JavaScript不支持在正则表达式里使用POSIX字符类 ),经测试,以下11个 POSIX 字符类是可以在 Stata14 Stata15 中实现的( Stata14版之前,不可以使用POSIX字符类 )。

POSIX语法与我们之前见过的元字符不太一样,POSIX字符类必须在[:和:]之间,也就是说[和]字符是POSIX字符类本身的组成部分。为了演示POSIX字符类的用法,我们看下边的例子:

(1) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:alnum:]", "X")

XXXXX,XXXX XXXX! XXXXXX X.

注释 :POSIX字符类"[:alnum:]"可以匹配任何一个英文字母或数字(等价于[a-zA-Z0-9]),在Stata14、Stata15中还可以匹配汉字。这里将字符串中的英文字母、数字和汉字都替换为X。

(2) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:alpha:]", "X")

XXXXX,XXXX XXXX! XXXXXX 1.

注释 :POSIX字符类"[:alpha:]"可以匹配任何一个英文字母(等价于[a-zA-Z]),在Stata14、Stata15中还可以匹配汉字。这里将字符串中的英文字母和汉字都替换为X。

(3) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:blank:]", "X")

爬虫俱乐部,veryXgood!XNumberX1.

注释 :POSIX字符类"[:blank:]"可以匹配空格和制表符。这里将字符串中的空格都替换为X。

(4) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:digit:]", "X")

爬虫俱乐部,very good! Number X.

注释 :POSIX字符类"[:digit:]" 可以匹配任何一个数字,等价于[0-9]或特殊元字符\d。这里将数字替换为“X” 。

(5) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:lower:]", "X")

爬虫俱乐部,XXXX XXXX! NXXXXX 1.

注释 :POSIX字符类"[:alpha:]"可以匹配任何一个小写字母(等价于[a-z])。这里将所有的小写字母都替换为X。

(6) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:upper:]", "X")

爬虫俱乐部,very good! Xumber 1.

注释 :POSIX字符类"[:upper:]"可以匹配任何一个大写字母(等价于[A-Z])。这里将所有的大写字母都替换为X。

(7) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:space:]", "X")

爬虫俱乐部,veryXgood!XNumberX1.

注释 :POSIX字符类"[:space:]"可以匹配任何一个空白字符,相当于特殊元字符\s或[ \t\r\n\v\f]。这里这里将所有的空格都替换为X。

(8) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:xdigit:]", "X")

爬虫俱乐部,vXry gooX! NumXXr X.

注释 :POSIX字符类"[:xdigit:]"可以匹配任何一个十六进制数字(等价于[a-fA-F0-9])。这里把英文字母e、d、b以及数字1,替换为X。

(9) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:punct:]", "X")

爬虫俱乐部Xvery goodX Number 1X

注释 :POSIX字符类"[:punct:]"可以匹配除~、$、+、=、|、等大部分标点符号。这里把中文逗号(,!)、中文感叹号(!)以及英文句号(.)替换为X。

(10) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:print:]", "X")

XXXXXXXXXXXXXXXXXXXXXXXXXX

注释 :POSIX字符类"[:print:]"可以匹配任何一个可打印字符(可显示在输出设备上),包括空格。这里把所有的字符包括空格均替换为X。

(11) dis ustrregexra("爬虫俱乐部,very good! Number 1.", "[:graph:]", "X")

XXXXXXXXXX XXXXX XXXXXX XX

注释 :POSIX字符类"[:graph:]"可以匹配任何一个可打印字符,不包括空格。这里把除了空格外的所有字符全部替换为X。

注:此推文中的图片及封面(除操作部分的)均来源于网络!如有雷同,纯属巧合!

以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。 另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!

应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~



文字编辑:吴晓蔓

技术总编:刘贝贝

往期推文推荐:

1. 高校学术大神:你的导师上榜了吗?

2.中国高校财经、管理与综合类期刊灌水排行榜

3. 命令 sum2docx 输出统计量表到 docx 文件

4. reg2docx 报告你的实证结果吧!

5. 爬虫俱乐部又出新命令了 ——wordconvert 转换你的 word 文件

6. putdocx+wordconvert— 将实证结果输出到 Word .docx )文档

7. Stata 15 Markdown—— 没有做不到,只有想不到!

8. 矩阵和宏的故事







请到「今天看啥」查看全文