专栏名称: 京东成都研究院
京东商城成都研究院信息平台
目录
相关文章推荐
51好读  ›  专栏  ›  京东成都研究院

CDRD TALK | 基于PhantomJs的网络爬虫实现

京东成都研究院  · 公众号  · 成都  · 2018-01-31 17:52

正文

有时我们需要浏览器网页,但并不需要真正去打开浏览器,而希望维护自动化的服务,如定时抓取网页的截图或网页数据等。


PhantomJS作为一个无头的浏览器,就是提供一个webkit浏览器环境的命令行接口,你可以把它看作一个“无界面的浏览器”,除了没有图形界面,其他与正常浏览器一样。它的内核是WebKit引擎,不提供图形界面,只能在命令行下使用,我们可以用它完成一些特殊的用途。

安装方式:

1、官网提供的安装方式:http://phantomjs.org/download.html

2、NPM安装:npm install phantomjs –g

安装成功:

在命令行输入phantomjs –version查看版本号

1

系统对象

  • Command Line Interface   命令行工具

  • Phantom Object   系统对象,提供phantomjs的系统功能

  • Web Page Module   网页操作模块

  • Child Process Module   子进程模块,用于进程间通信

  • File System Module   文件系统对象

  • System Module   加载操作系统变量的模块

  • Web Server Module web  服务器


最重要的三大模块

如何运行:

  • 在系统命令行工具中键入phantomjs,然后就可以看到:

  • 在命令行可以可以输入命令phanomjs的命令,或者运行js文件:$ phantomjs xxx.js

  • 如何退出:ctrl+c或者输入命令phantom.exit()


2

System对象

如下示例,获取一个命令行参数作为访问网址:


3


Fs对象


4


Webpage对象

1、open打开具体网页







请到「今天看啥」查看全文