专栏名称: Python学习交流

每天更新，更新python相关的知识。希望诸君有所收获！

目录

相关文章推荐

Python爱好者社区 · 史上最强！PINN杀疯了 · 昨天

Python爱好者社区 · 英伟达憾失DeepSeek关键人才？美国放走 ... · 昨天

Python爱好者社区 · 离谱！下载DeepSeek最高判刑20年？ · 2 天前

Python爱好者社区 · 多模态，杀疯了 · 2 天前

Python开发者 · o3-mini 碾压 DeepSeek ... · 6 天前

51好读 › 专栏 › Python学习交流

爬虫工程师通过一篇文章让你无视80%的反爬网站！反爬无效

Python学习交流 · 公众号 · Python · 2017-09-21 15:44

正文

在爬虫时，某些网站会有封ip的现象,所以选择利用代理伪装我们的ip进行爬虫请求，但进行爬虫时可能需要很多ip，这时就要求维护一个代理池（池也就是代理队列），可放进代理，也可取出代理。好了马上就给大家分享。

抓取索引页内容

显然上面的请求是成功的，但是只要请求10十次以上，我们的ip就会出现被封的现象。下面我们加入一个for循环来验证一下。

所以接下为解决反爬虫这一问题，应该使用代理池

设置代理

由于使用的是免费代理，可能会有很多人同时使用，就会出现代理不可用的的现象。

设置代理时注意：

把文件放入Pycharm中，Terminal 上运行run.py

在Terminal 上可以同时spider.py 和run.py ，但要注意的是要切换到所在文件下。

在Redis 的可视化工具Redis Desktop Manager 会显示如下图

在自己的浏览器上输入//127.0.0.1.5000/get 得到如下的结果

获取详情页内容并存储数据

部分代码

请到「今天看啥」查看全文

推荐文章

Python爱好者社区 · 史上最强！PINN杀疯了

昨天

Python爱好者社区 · 英伟达憾失DeepSeek关键人才？美国放走AI「钱学森」，哈佛教授痛心疾首

昨天

Python爱好者社区 · 离谱！下载DeepSeek最高判刑20年？

2 天前

Python爱好者社区 · 多模态，杀疯了

2 天前

Python开发者 · o3-mini 碾压 DeepSeek R1？一个 Python 程序引发近 400 万围观

6 天前

刘晓博说楼市 · 中国人买房十大“死穴”！越看越震惊！

8 年前

飞碟说 · “吃嫩草”“不爱国”？杨振宁究竟是个什么样？

7 年前

射手座网 · 射手座为何掩饰真性情？

7 年前

钱眼 · 提示丨太方便了！今后只要一张卡，就能畅享102项社保福利！

7 年前

好奇小姐的好奇心 · 吃了会“变身”的料理，你一定没见过......

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!