专栏名称: 极客挖掘机
高级软件工程师
目录
51好读  ›  专栏  ›  极客挖掘机

小白学 Python 爬虫(30):代理基础

极客挖掘机  · 掘金  ·  · 2019-12-30 06:43

正文

阅读 9

小白学 Python 爬虫(30):代理基础

人生苦短,我用 Python

前文传送门:

小白学 Python 爬虫(1):开篇

小白学 Python 爬虫(2):前置准备(一)基本类库的安装

小白学 Python 爬虫(3):前置准备(二)Linux基础入门

小白学 Python 爬虫(4):前置准备(三)Docker基础入门

小白学 Python 爬虫(5):前置准备(四)数据库基础

小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装

小白学 Python 爬虫(7):HTTP 基础

小白学 Python 爬虫(8):网页基础

小白学 Python 爬虫(9):爬虫基础

小白学 Python 爬虫(10):Session 和 Cookies

小白学 Python 爬虫(11):urllib 基础使用(一)

小白学 Python 爬虫(12):urllib 基础使用(二)

小白学 Python 爬虫(13):urllib 基础使用(三)

小白学 Python 爬虫(14):urllib 基础使用(四)

小白学 Python 爬虫(15):urllib 基础使用(五)

小白学 Python 爬虫(16):urllib 实战之爬取妹子图

小白学 Python 爬虫(17):Requests 基础使用

小白学 Python 爬虫(18):Requests 进阶操作

小白学 Python 爬虫(19):Xpath 基操

小白学 Python 爬虫(20):Xpath 进阶

小白学 Python 爬虫(21):解析库 Beautiful Soup(上)

小白学 Python 爬虫(22):解析库 Beautiful Soup(下)

小白学 Python 爬虫(23):解析库 pyquery 入门

小白学 Python 爬虫(24):2019 豆瓣电影排行

小白学 Python 爬虫(25):爬取股票信息

小白学 Python 爬虫(26):为啥买不起上海二手房你都买不起

小白学 Python 爬虫(27):自动化测试框架 Selenium 从入门到放弃(上)

小白学 Python 爬虫(28):自动化测试框架 Selenium 从入门到放弃(下)

小白学 Python 爬虫(29):Selenium 获取某大型电商网站商品信息

引言

我们在使用爬虫的时候,经常遇到一种情况,刚开始的运行的时候,都如丝般顺滑,可能一杯茶的功夫,就完犊子了,可能会出现各种各样的限制,比如 403 Forbidden 、 429 Too Many Request 等等。

这时候,很有可能就是我们的 IP 被限制了。

出现以上问题一般是因为网站的安全限制或者是机房的安全限制,有时候实在服务器上做检测,有时候是在网关处做检测,一旦发现某个 IP 在单位时间内的访问次数超过了当前限定的某个阀值,就会直接拒绝服务,这种情况我们统称为: 封 IP

对于上面这种情况难道我们就这么认了么,当然不!

代理就是为了解决这个问题的。

代理解决上面这个问题的方式就是请求中间增加的代理服务器做转发,本来请求是由 A 直接访问到服务器 C 的,如: A -> C ,加了代理 B 之后就变成了这个样子: A -> B -> C 。

代理的获取

在做实战之前,我们先了解下如何获取代理。

首先在百度上输入 “代理” 两个字进行查询,可以看到有很多提供代理服务的网站,当然哈,大多数都是收费的。但是其中不乏会有一部分免费的代理。

当然免费的代理会有各种各样的坑,比如经常性连不通,比如网络延迟非常高等等等等。

但是,人家免费啊,还要啥自行车。

当然如果想要获得稳定的、网络延时低的代理服务,建议付费使用,毕竟用的少也花不了多少钞票。

代理的站点小编就不列举了,是在太多,我们随便打开一个免费代理的网站:

可以发现,代理好像分两种,一种是高匿代理,还有一种是透明代理,这两个有什么区别呢?

其实,除了高匿代理和透明代理以外,还有一种中间形态叫做匿名代理。

这几种代理之间的区别在于转发请求的头部参数不同。

透明代理

目标服务器可以知道我们使用了代理,并且也知道我们的真实 IP 。 透明代理访问目标服务器所带的 HTTP 头信息如下:

  • REMOTE_ADDR = 代理服务器IP
  • HTTP_VIA = 代理服务器IP
  • HTTP X FORWARDED_FOR = 我们的真实IP

透明代理还是将我们的真实IP发送给了对方服务器,因此无法达到隐藏身份的目的。

匿名代理

目标服务器可以知道我们使用了代理,但不知道我们的真实 IP 。匿名代理访问目标服务器所带的 HTTP 头信息如下:

  • REMOTE_ADDR = 代理服务器IP
  • HTTP_VIA = 代理服务器IP
  • HTTP X FORWARDED_FOR = 代理服务器IP

匿名代理隐藏了我们的真实IP,但是向目标服务器透露了我们是使用代理服务器访问他们的。

高匿代理

目标服务器不知道我们使用了代理,更不知道我们的真实 IP 。高匿代理访问目标服务器所带的 HTTP 头信息如下:

  • REMOTE_ADDR = 代理服务器IP
  • HTTP_VIA 不显示
  • HTTP X FORWARDED_FOR 不显示

高匿代理隐藏了我们的真实 IP ,同时目标服务器也不知道我们使用了代理,因此隐蔽度最高。

可以看到,处于中间态的匿名代理,事情做了一半没做完,反而是没什么用武之地的。

代理设置

上面我们看到了一些代理服务,接下来我们看一下各种 HTTP 请求库设置代理的方式:

urllib

我们先使用 urllib 来做测试,测试的链接就选择:https://httpbin.org/get 这个我们之前用过的测试链接,访问该站点可以得到请求的一些相关信息,其中 origin 字段就是请求来源的 IP,我们可以根据它来判断代理是否设置成功,也就是是否成功伪装了 IP ,代理嘛小编就在网上随便找了个免费的高匿代理,示例如下:







请到「今天看啥」查看全文