听不懂人话？stata分词帮你搞定（一）

爬虫俱乐部 · 公众号 · · 2017-09-11 15:44

正文

大大大大大新闻 ————自公众号推送视频讲解环节以来，深受广大读者朋友的喜爱。近日向我们提问的粉丝也是大幅增加呐！为了便捷管理相关信息，提高工作效率，我们对提问方式做了略微调整哟~提问者需点击推文底部“ 阅读原文 ”下载爬虫俱乐部用户问

题登记表并按要求填写后发送至邮箱 [email protected] ，我们会及时为您解答哟~

从今天起，我们将用一系列推文为大家介绍如何使用stata进行分词、如何使用stata与python交互、以及如何通过stata调用curl使用Boson进行分词。

说到分词，想必大家都听过用“果然”造句的段子。老师请小明用果然造句，小明说：“我先吃水果然后喝汽水。”老师说不对，小明又说：“我还没讲完呢，我先吃水果然后喝汽水，果然拉肚子了。”玩笑归玩笑，分词的正确与否对于我们理解一句话来说十分重要，有了分词我们才能更好地理解句子表达的意思。

词是最小的能够独立运用的语言单位，国际上常用的NLP算法，以及深层次的语法语义分析通常都是以词作为基本单位。由于中文的文本是由连续的字序列构成，词与词之间没有天然的分隔符，所以要理解一篇文章，我们首先要将一条长句切分为一个个词。今天我们先来介绍如何使用stata进行分词。

使用stata进行分词需要用到两个字符串函数 ustrwordcount() 和 ustrword() 。

1. ustrwordcount() 的基本语法为： ustrwordcount(s[,loc])

s为字符串；locale 表示程序运行的不同语言环境，如“en”表示英文，“cn”表示中文，每一个locale对象都代表了一个特定的地理、政治和文化地区。如果未指定locale，则使用默认语言环境，例如，这台电脑的操作系统是Microsoft Windows中文版，则系统默认语言环境设置为“cn”。

该函数返回的是字符串s中非空的unicode单词个数。这里需要指明的是，unicode单词与由word()函数返回的单词不同，word(s,n)函数返回的是字符串s中第n个以空白字符分隔的字符串，而 ustrwordcount() 是以unicode单词为基础，返回unicode字符串中非空的unicode单词的数量，unicode单词是遵循一些语言（如中文，日语和泰语）的单词边界规则或字典的语言单位。

比如，我们运行：

di word("将爬虫进行到底",2)

该函数返回的是第2个以空白字符分隔的字符串，所以结果为“进行到底”。

运行：

di ustrwordcount("将爬虫进行到底","cn")

该函数返回的是按照中文词典进行分词的unicode单词个数，即“将”、“爬虫”、“进行”、“到底”，所以结果为4。

如果发生错误，该函数可能返回负数。

2. ustrword() 的基本语法为： ustrword(s,n[,loc])

该函数返回的是字符串s中第n个位置的unicode单词。n为正数表示的是从s开头数第n个unicode单词，n为负数表示的是从s结尾数第n个unicode单词。如n为1表示的是返回s的第一个unicode单词，n为-1表示的是返回s的最后一个unicode单词。如果n大于cnt或小于-cnt，则该函数返回缺失值，其中cnt是s所包含的unicode单词数，可以从 ustrwordcount() 中获得。如果发生错误，该函数也返回缺失值“”。

比如，我们运行：

di ustrword("将爬虫进行到底", 3, "cn")