专栏名称: python实战

Python实战

目录

相关文章推荐

Python爱好者社区 · 闲鱼电影票自动化，年底开启月入 20000 ... · 2 天前

Python爱好者社区 · 5年前突然被砍的微信功能，逐步回归了？ · 2 天前

Python爱好者社区 · yyds！论文教程 · 6 天前

Python爱好者社区 · 论文入门手册 · 5 天前

Python爱好者社区 · 上海微软大裁员，赔偿达N+8，老员工获赔77万！ · 5 天前

51好读 › 专栏 › python实战

Python爬取网站时防封杀秘诀

python实战 · 公众号 · Python · 2017-03-16 21:58

正文

设置等待时间

一些网站的防范措施可能因为你提交表单过快把你当成机器人爬虫，例如说以非正常速度下载视频、登录网站、图片、爬取信息等等。

常用的等待时间有两种：

显性等待时间
隐性等待时间

显性等待时间

import time#导入包time.sleep(3)#设置时间相隔三秒，且最好在半夜的时候进行数据采集，采集一定不能太快，不然网站很容把你当机器人爬虫干掉你。

隐式等待时间

用到的主要语句，以wait.until()做例子：

Python学习交流群：330637182

以上语句是在等页面元素加载完成后进行的下一步，因爬虫速度过快，导致有元素没有被加载完全，就被进行下一步从而导致没有查到元素或被当前网站认为是机器人在操作。

修改请求头

User-Agent是鉴定你是机器人还是活人在浏览的最重要依据，例如真人在浏览器浏览就会使它这样：

Python学习交流群：330637182

就像urllib2，默认User-Agent是Python-urllib2/2.7，要对其进行修改。

Python学习交流群：330637182

使用代理ip

在自己的ip被网站禁封后，只能使用更换代理ip来爬取，所以，在每次爬取时最好用代理爬，封完一个还有另一个，封不完的，但不要用代理去黑学校的网站，你懂得，代理实现程序如下：

Python学习交流群：330637182

选择的测试站是http://www.ip181.com，它能检测你用的ip是多少，刚好来看看用代理ip成功了没有。

Python学习交流群：330637182

采用代理ip来访问

在结果中我们看到，检测到代理ip，就是我加的ip值，这是压箱底的招，在ip被封之后，使用代理ip去访问。如果其中一个代理ip挂了咋办，那就做个ip池，就是N个代理ip堆在一起，一运行就在ip池用一个代理ip去做访问ip就OK了。

选用ip池的方法：

Python学习交流群：330637182

用ip池获取ip访问

使用代理ip池，可以看到检测到的ip是ip池里的，那如何来创ip池呢，使用BS4随意一个匿名ip的网站来代理ip爬取，将ip清洗清洗，将可以使用的留下写到列表中衢，这样ip池就形成了，当其中一个ip不能使用后，就把它踢掉！

避开不可见元素陷阱

你爬着爬着把隐藏元素全都爬出来了，你说你是不是爬虫呢，这是网站给爬虫设置的陷阱，一被发现，你的ip就GG了，所以要查看下元素再去进行爬取。例如这个网址，一个登录页面，在审查元素当中有些元素是不可见的。

Python学习交流裙：330637182

从上图可以看到不显示的url和隐藏的value。

查找出不可见的value代码与陷阱url。

py学习交流裙：330637182

结果如下：

Python学习交流裙：330637182

喜欢python或者想学习python的朋友可以加QQ群：330637182！群内每天会更新python资料，还有大牛不定期指导哟！

推荐文章

Python爱好者社区 · 闲鱼电影票自动化，年底开启月入 20000 + 的财富通道，可自动化（内附独家秘籍）

2 天前

Python爱好者社区 · 5年前突然被砍的微信功能，逐步回归了？

2 天前

Python爱好者社区 · yyds！论文教程

6 天前

Python爱好者社区 · 论文入门手册

5 天前

Python爱好者社区 · 上海微软大裁员，赔偿达N+8，老员工获赔77万！

5 天前

王利芬 · 赏识的部下“不会离你而去”？

8 年前

加拿大约克论坛 · 不小心一个手滑，这个墨西哥老爹，把自己女儿15岁的生日会，彻底搞大了...

8 年前

凤凰读书 · “供应老陈醋，每户一斤”

7 年前

西子湖畔 · 晚报 ▌给力！惠州公安110宣传日当“网红”，过万网友来点赞

7 年前

每日健康生活 · 请您不要和儿女住在一起，孝顺儿女10劝妈！

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!