专栏名称: 爬虫俱乐部
Stata技术控,编程技术咨询,数据讨论与分享,编程和实证培训。
目录
相关文章推荐
莓辣MAYLOVE  ·  2.24 日本文化中,腋下会被视为性感的表达 ·  3 小时前  
一颗青杏  ·  可以挂在包上带出门的甜酷小玩具(*╹▽╹*) ·  5 小时前  
槽值  ·  抠搜萨莉亚,被“平替后浪”偷家了 ·  13 小时前  
于小戈  ·  惊悚,一个比一个离谱?! ·  4 天前  
51好读  ›  专栏  ›  爬虫俱乐部

如何在Mata中进行网页分析

爬虫俱乐部  · 公众号  ·  · 2017-10-25 14:37

正文

M

A

T

A

有问题,不要怕!点击推文底部“ 阅读原文 ”下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱 [email protected] ,我们会及时为您解答哟~

诸君安!在往期推文中,我们介绍了 Mata 的基本用法。因为Mata中的矩阵内存远小于Stata矩阵所占用的内存,因而在处理复杂矩阵时,Mata备受青睐。如果我们想在Stata中处理一个足够长的网页源代码时,命令 infix (每一行最多读入50多万的字符)就不能将网页源代码导入Stata,这时候我们就可以考虑将源代码导入Mata,并进行相关的处理分析。如何实现这样的操作呢?今天小编就带着大家一睹为快啦。

我们以平安银行高管任职网页为例,部分网页源代码如下所示:

首先,用到 copy 命令抓取网页源代码到temp文档中,并进行转码,命令如下:

clear

cd e:/

copy "http://vip.stock.finance.sina.com.cn/corp/go.php/vCI_CorpManager/stockid/000001.phtml" temp.txt, replace







请到「今天看啥」查看全文