邓旭东,Python中文社区专栏作者。
简书:
http://www.jianshu.com/u/1562c7f16a04
之前我写的爬虫都是将已知的固定数据的网址存到list中,然后遍历list中的网址。这次针对简书,我们使用递归来试一下。
什么是递归
程序(或函数)调用自身的编程技巧称为递归( recursion)。一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法,它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解。
递归的优点
1、降低问题难度
2、大大地减少了程序的代码量
3、递归的能力在于用有限的语句来定义对象的无限集合
本案例视频讲解如下:
之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据,优点是可见容易且不宜被淘宝公司封锁;缺点是速度太慢。
经过今天一天的钻研,终于学会分析数据包,而且淘宝评论的数据包都是以json格式传输的。除了学会抓包,还要会从json中提取出想要的评论数据才行。
实现难点:
一、分析数据包,找到淘宝评论传输用的网址,分析网址特点
二、如何从找到的数据包中,从json格式内容中得到想要的数据
本案例视频讲解如下:
豆瓣是我很喜欢的平台,一般大家都会去豆瓣看影评,书评,根据评论决定自己是否观看电影或者入手书籍。所以有很多经济管理类的学生有这方面的数据采集需求,当然,我也是其中的一员,对这方面的兴趣促使我学的python。
那么写爬虫前,一定要学会分析网页结构,定位到你要抓的数据所在的节点标签。定位方法有以下几种:
如果这个标签是整个html网页唯一的一个标签,那么直接找这个标签就可以。
如果这个标签不是唯一的,那么你可以往该节点的父节点入手,如果父节点是唯一的,那么先定位父节点,然后再选出父节点的子节点。此时子节点就是目标节点。
本案例视频讲解如下:
3月24日下周五21:00—22:00第三期PyLive开播,本文作者将与大家一起分享Python网络爬虫的基础知识,长按下方二维码扫描进入直播间,欢迎参加!作者将与大家分享以下内容:
1、为什么学爬虫?爬虫能做什么?爬虫好学吗?
2、爬虫工作原理、html+css、python基本知识。
3、如何去构建url?requests库的使用。
4、如何解析网页?BeautifulSoup 、 re库的使用 5、如何解析网页?条件控制循环语句;try...Except异常处理;数据存储
6、如何应对反爬虫?控制访问频率;伪装装成浏览器;使用代理IP
7、中高阶爬虫实践准备。selenium+Firefox(36版);使用cookie应对需要验证登录 ;抓包应对动态网页;高阶爬虫:使用scrapy框架
Python 中 文 社 区
Python中文开发者的精神家园
合作、投稿请联系微信:
AndyWong188
点击阅读原文可领取PyLive优惠券