专栏名称: 爬虫俱乐部

Stata技术控，编程技术咨询，数据讨论与分享，编程和实证培训。

目录

相关文章推荐

莓辣MAYLOVE · 2.24 日本文化中，腋下会被视为性感的表达 · 3 小时前

一颗青杏 · 可以挂在包上带出门的甜酷小玩具(*╹▽╹*) · 5 小时前

槽值 · 抠搜萨莉亚，被“平替后浪”偷家了 · 13 小时前

莓辣MAYLOVE · 在莓辣工作，让我们骄傲的不仅是大方谈性！｜莓 ... · 3 天前

于小戈 · 惊悚，一个比一个离谱？！ · 4 天前

51好读 › 专栏 › 爬虫俱乐部

如何在Mata中进行网页分析

爬虫俱乐部 · 公众号 · · 2017-10-25 14:37

正文

M

A

T

A

有问题，不要怕！点击推文底部“ 阅读原文 ”下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱 [email protected] ，我们会及时为您解答哟~

诸君安！在往期推文中，我们介绍了 Mata 的基本用法。因为Mata中的矩阵内存远小于Stata矩阵所占用的内存，因而在处理复杂矩阵时，Mata备受青睐。如果我们想在Stata中处理一个足够长的网页源代码时，命令 infix （每一行最多读入50多万的字符）就不能将网页源代码导入Stata，这时候我们就可以考虑将源代码导入Mata，并进行相关的处理分析。如何实现这样的操作呢？今天小编就带着大家一睹为快啦。

我们以平安银行高管任职网页为例，部分网页源代码如下所示：

首先，用到 copy 命令抓取网页源代码到temp文档中，并进行转码，命令如下：

clear

cd e:/

copy "http://vip.stock.finance.sina.com.cn/corp/go.php/vCI_CorpManager/stockid/000001.phtml" temp.txt, replace

请到「今天看啥」查看全文

推荐文章

莓辣MAYLOVE · 2.24 日本文化中，腋下会被视为性感的表达

3 小时前

一颗青杏 · 可以挂在包上带出门的甜酷小玩具(*╹▽╹*)

5 小时前

槽值 · 抠搜萨莉亚，被“平替后浪”偷家了

13 小时前

莓辣MAYLOVE · 在莓辣工作，让我们骄傲的不仅是大方谈性！｜莓辣2025招聘（实习+全职）

3 天前

于小戈 · 惊悚，一个比一个离谱？！

4 天前

环球时报 · 腾讯回应WeChat被俄罗斯封停：深表遗憾

7 年前

肌肉男训练营 · 肌肉大吊哥最新高难度腹肌训练

7 年前

电子后花园 · 【天风电子】每日资讯：投资组合、行业新闻及公告20170612

7 年前

电驹 · 续航都过300Km，宋EV300、腾势400、荣威ERX5团购招募

7 年前

相伴升学路 · 语文不行，别的都学不通。语文究竟可以有多美？

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!