在之前的推文
《moss命令、正则表达式与简单的文本分析》
中,我们提到过怎样利用
moss
命令提取英文姓氏。那么,如果不用
moss
命令,我们可以怎么做呢?今天爬虫小编就带着大家来看一下我们如何以另一种帅气的姿势get到英文名中的姓氏。通过之前的推文我们知道英文名的姓氏有个这么一个特征:一个大写的英文字母加上数个小写的英文字母。找到了要提取部分的特征,如何提取就是我们需要解决的重点问题。
首先,我们将一些需要处理的数据导入stata中。
clear
input str509 author
"O. B. Tofler and T. L. Woodings"
"S. Hodgins, S. Lovenhag, M. Rehn and K. W. Nilsson"
"G. E. Vaillant"
"W. A. Pridemore, S. Tomkins, K. Eckhardt, N. Kiryanov and L. Saburova"
"W. Zheng, J. K. Mclaughlin, G. Gridley, E. Bjelke, L. M. Schuman, D. T. Silverman, S. Wacholder, H. T. Chien, W. J. Blot and J. F. Fraumeni"
"H. M. Pettinati, A. A. Sugerman, N. Didonato and H. S. Maurer"
"A. M. Gallagher, J. M. Savage, L. J. Murray, G. D. Smith, I. S. Young, P. J. Robson, C. E. Neville, G. Cran, J. J. Strain and C. A. Boreham"
"G. E. Vaillant"
"R. J. Goldberg, C. M. Burchfiel, D. M. Reed, G. Wergowske and D. Chiu"
"E. M. Smith and C. R. Cloninger"
end
如下图所示:
接下来,爬虫酱要划重点啦!我们在这里会给大家介绍
两种方法
,仅供大家参考。