专栏名称: Python小屋
清华出版社《Python程序设计》系列教材作者董付国的Python小屋。介绍Python基础语法知识、标准库、扩展库知识,探讨Python在各领域的应用。
目录
相关文章推荐
Python爱好者社区  ·  史上最强!PINN杀疯了 ·  昨天  
Python爱好者社区  ·  英伟达憾失DeepSeek关键人才?美国放走 ... ·  昨天  
Python爱好者社区  ·  离谱!下载DeepSeek最高判刑20年? ·  2 天前  
Python爱好者社区  ·  1885页的Python完全版电子书 ·  3 天前  
Python开发者  ·  请立即拿下软考证书(政策风口) ·  4 天前  
51好读  ›  专栏  ›  Python小屋

分步教学-使用Python+scrapy批量下载文章中的图片

Python小屋  · 公众号  · Python  · 2020-12-14 09:25

正文

好消息: “Python小屋”编程比赛正式开始

推荐图书:

《Python程序设计(第3版)》, (ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月 第1次印刷,11月第5次印刷

京东购买链接: https://item.jd.com/12668739.html

天猫、当当均有销售,可以选择自己常用平台搜索“董付国 第3版”找到本书。
配套资源: 教学大纲、电子教案、微课视频、PPT课件、例题源码、习题答案、考试系统。
《Python程序设计(第3版)》配套 教学大纲
《Python程序设计(第3版)》课后 习题答案

=======================

任务描述:

编写Python程序,使用网络爬虫框架scrapy下载文章中超过指定尺寸的图片,按顺序使用数字编号命名下载的图片文件。

0)打开命令提示符窗口,使用 pip install scrapy 安装扩展库。

1)切换至工作文件夹,执行命令“ scrapy startproject PythonXiaowuPicture ”创建爬虫项目PythonXiaowuPicture。

2)继续执行命令“ cd PythonXiaowuPicture ”和“ scrapy genspider pictureSpider mp.weixin.qq.com ”创建爬虫程序。

3)打开 PythonXiaowuPicture/PythonXiaowuPicture/items.py 文件,增加代码,定义要采集的内容。

4)打开 PythonXiaowuPicture/PythonXiaowuPicture/spiders/pictureSpider.py 文件,增加代码,实现爬虫功能。

5)打开 PythonXiaowuPicture/PythonXiaowuPicture/pipelines.py 文件,增加代码,集成图片下载管道类ImagesPipeline,实现图片下载和命名。

6)打开 PythonXiaowuPicture/PythonXiaowuPicture/middlewares.py 文件,修改其中PythonxiaowupictureDownloaderMiddleware类的process_request(self, request, spider)方法,增加代码,自定义头部对抗服务器的User-Agent检查和防盗链检查。

7)打开 PythonXiaowuPicture/PythonXiaowuPicture/settings.py 文件,重点修改下面几处代码,设置不遵守服务器端robots.txt文件定义的规则、启用下载中间件、启用自定义的管道PythonXiaowuSavepicturePipeline、图片文件保存位置以及预期图片的最小尺寸。

8)至此,爬虫项目全部完成。切换到命令提示符环境,确保当前处于爬虫项目文件夹中,执行命令“ scrapy crawl pictureSpider ”运行爬虫项目。观察运行过程中的提示信息,如果遇到错误,检查前面的步骤是否有遗漏或代码是否有抄写错误,修改后重新运行,直至运行成功,程序自动在爬虫项目文件夹中创建子文件夹image并把下载的图片文件保存到image子文件夹中,每个图片以数字编号命名。







请到「今天看啥」查看全文