专栏名称: Python学习交流
每天更新,更新python相关的知识。希望诸君有所收获!
目录
相关文章推荐
Python爱好者社区  ·  史上最强!PINN杀疯了 ·  昨天  
Python爱好者社区  ·  英伟达憾失DeepSeek关键人才?美国放走 ... ·  昨天  
Python爱好者社区  ·  离谱!下载DeepSeek最高判刑20年? ·  2 天前  
Python爱好者社区  ·  多模态,杀疯了 ·  2 天前  
Python开发者  ·  o3-mini 碾压 DeepSeek ... ·  6 天前  
51好读  ›  专栏  ›  Python学习交流

爬虫工程师通过一篇文章让你无视80%的反爬网站!反爬无效

Python学习交流  · 公众号  · Python  · 2017-09-21 15:44

正文

在爬虫时,某些网站会有封ip的现象,所以选择利用代理伪装我们的ip进行爬虫请求,但进行爬虫时可能需要很多ip,这时就要求维护一个代理池(池也就是代理队列),可放进代理,也可取出代理。好了马上就给大家分享。

抓取索引页内容

显然上面的请求是成功的,但是只要请求10十次以上,我们的ip就会出现被封的现象。下面我们加入一个for循环来验证一下。

所以接下为解决反爬虫这一问题,应该使用代理池

设置代理

由于使用的是免费代理,可能会有很多人同时使用,就会出现代理不可用的的现象。

设置代理时注意:

把文件放入Pycharm中,Terminal 上运行run.py

在Terminal 上可以同时spider.py 和run.py ,但要注意的是要切换到所在文件下。

  • 在Redis 的可视化工具Redis Desktop Manager 会显示如下图

  • 在自己的浏览器上输入//127.0.0.1.5000/get 得到如下的结果

获取详情页内容并存储数据

部分代码







请到「今天看啥」查看全文