分步教学-使用Python+scrapy批量下载文章中的图片

Python小屋 · 公众号 · Python · 2020-12-14 09:25

正文

好消息： “Python小屋”编程比赛正式开始

推荐图书：

《Python程序设计（第3版）》，（ISBN：978-7-302-55083-9），董付国，清华大学出版社，2020年6月第1次印刷，11月第5次印刷

京东购买链接： https://item.jd.com/12668739.html

天猫、当当均有销售，可以选择自己常用平台搜索“董付国第3版”找到本书。

配套资源： 教学大纲、电子教案、微课视频、PPT课件、例题源码、习题答案、考试系统。

《Python程序设计（第3版）》配套教学大纲

《Python程序设计（第3版）》课后习题答案

=======================

任务描述：

编写Python程序，使用网络爬虫框架scrapy下载文章中超过指定尺寸的图片，按顺序使用数字编号命名下载的图片文件。

0）打开命令提示符窗口，使用 pip install scrapy 安装扩展库。

1）切换至工作文件夹，执行命令“ scrapy startproject PythonXiaowuPicture ”创建爬虫项目PythonXiaowuPicture。

2）继续执行命令“ cd PythonXiaowuPicture ”和“ scrapy genspider pictureSpider mp.weixin.qq.com ”创建爬虫程序。

3）打开 PythonXiaowuPicture/PythonXiaowuPicture/items.py 文件，增加代码，定义要采集的内容。

4）打开 PythonXiaowuPicture/PythonXiaowuPicture/spiders/pictureSpider.py 文件，增加代码，实现爬虫功能。

5）打开 PythonXiaowuPicture/PythonXiaowuPicture/pipelines.py 文件，增加代码，集成图片下载管道类ImagesPipeline，实现图片下载和命名。

6）打开 PythonXiaowuPicture/PythonXiaowuPicture/middlewares.py 文件，修改其中PythonxiaowupictureDownloaderMiddleware类的process_request(self, request, spider)方法，增加代码，自定义头部对抗服务器的User-Agent检查和防盗链检查。

7）打开 PythonXiaowuPicture/PythonXiaowuPicture/settings.py 文件，重点修改下面几处代码，设置不遵守服务器端robots.txt文件定义的规则、启用下载中间件、启用自定义的管道PythonXiaowuSavepicturePipeline、图片文件保存位置以及预期图片的最小尺寸。

8）至此，爬虫项目全部完成。切换到命令提示符环境，确保当前处于爬虫项目文件夹中，执行命令“ scrapy crawl pictureSpider ”运行爬虫项目。观察运行过程中的提示信息，如果遇到错误，检查前面的步骤是否有遗漏或代码是否有抄写错误，修改后重新运行，直至运行成功，程序自动在爬虫项目文件夹中创建子文件夹image并把下载的图片文件保存到image子文件夹中，每个图片以数字编号命名。