专栏名称: 极客挖掘机

高级软件工程师

目录

相关文章推荐

苏群 · DeepSeek加持！比开挂还狠，国产鼠标已 ... · 昨天

苏群 · 跑步新体验：半掌碳板+boost科技，189 ... · 3 天前

苏群 · 疲劳双眼的“回春药”！每天15分钟，不近视， ... · 4 天前

苏群 · 谈判停战是必然，但为何没有乌？ · 4 天前

青岛早报 · 眼睛缝了40多针！知名篮球运动员郭艾伦发声： ... · 3 天前

51好读 › 专栏 › 极客挖掘机

小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware

极客挖掘机 · 掘金 · · 2020-01-12 14:06

正文

2020年01月12日阅读 48

小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware

人生苦短，我用 Python

前文传送门：

小白学 Python 爬虫（1）：开篇

小白学 Python 爬虫（2）：前置准备（一）基本类库的安装

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门

小白学 Python 爬虫（4）：前置准备（三）Docker基础入门

小白学 Python 爬虫（5）：前置准备（四）数据库基础

小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装

小白学 Python 爬虫（7）：HTTP 基础

小白学 Python 爬虫（8）：网页基础

小白学 Python 爬虫（9）：爬虫基础

小白学 Python 爬虫（10）：Session 和 Cookies

小白学 Python 爬虫（11）：urllib 基础使用（一）

小白学 Python 爬虫（12）：urllib 基础使用（二）

小白学 Python 爬虫（13）：urllib 基础使用（三）

小白学 Python 爬虫（14）：urllib 基础使用（四）

小白学 Python 爬虫（15）：urllib 基础使用（五）

小白学 Python 爬虫（16）：urllib 实战之爬取妹子图

小白学 Python 爬虫（17）：Requests 基础使用

小白学 Python 爬虫（18）：Requests 进阶操作

小白学 Python 爬虫（19）：Xpath 基操

小白学 Python 爬虫（20）：Xpath 进阶

小白学 Python 爬虫（21）：解析库 Beautiful Soup（上）

小白学 Python 爬虫（22）：解析库 Beautiful Soup（下）

小白学 Python 爬虫（23）：解析库 pyquery 入门

小白学 Python 爬虫（24）：2019 豆瓣电影排行

小白学 Python 爬虫（25）：爬取股票信息

小白学 Python 爬虫（26）：为啥买不起上海二手房你都买不起

小白学 Python 爬虫（27）：自动化测试框架 Selenium 从入门到放弃（上）

小白学 Python 爬虫（28）：自动化测试框架 Selenium 从入门到放弃（下）

小白学 Python 爬虫（29）：Selenium 获取某大型电商网站商品信息

小白学 Python 爬虫（30）：代理基础

小白学 Python 爬虫（31）：自己构建一个简单的代理池

小白学 Python 爬虫（32）：异步请求库 AIOHTTP 基础入门

小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）

小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）

小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器

小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware

引言

Spider Middleware 是 Scrapy 的 Spider 处理机制的一个钩子框架，我们可以在其中插入自定义功能，以处理发送到 Spider 进行处理的响应以及处理 Spider 生成的请求和项目。

内置爬虫中间件

和前文介绍过的 Downloader Middleware 一样， Scrapy 同样为我们内置了一部分的 Spider Middleware ，这些内置的 Spider Middleware 被保存在变量 SPIDER_MIDDLEWARES_BASE 中，具体如下：

{
    'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
    'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
    'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
    'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}复制代码

同样和 Downloader Middleware 一样的是， Spider Middleware 会被加入到 SPIDER_MIDDLEWARES 的设置中，该设置会和 Scrapy 中定义的 SPIDER_MIDDLEWARES_BASE 合并，根据数值的大小进行优先级排序，第一个 Middleware 是靠近引擎的，最后一个 Middleware 是靠近 Spider 的。

请到「今天看啥」查看全文

推荐文章

苏群 · DeepSeek加持！比开挂还狠，国产鼠标已经可以帮你上班了

昨天

苏群 · 跑步新体验：半掌碳板+boost科技，189元抢购高端跑鞋的秘诀

3 天前

苏群 · 疲劳双眼的“回春药”！每天15分钟，不近视，视力好，眼睛炯炯有神！

4 天前

苏群 · 谈判停战是必然，但为何没有乌？

4 天前

青岛早报 · 眼睛缝了40多针！知名篮球运动员郭艾伦发声：肇事者一直在逃避…

3 天前

叶子猪游戏网 · 曝某职业选手转会费超5000万 CCTV再谈电竞行业

8 年前

知音 · 就算流产17次她依然要小宝宝，如今9个月内连获4女，连医生也不相信这样的奇迹！

8 年前

一条 · 荒漠的两天一夜，陈柏霖跟他到底干了啥？

7 年前

热门视频集汇 · 牛牛牛牛牛牛牛牛!太牛了

7 年前

心理语录 · 写给又爱，又想，又不能在一起的人...

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!