好消息:
“Python小屋”编程比赛正式开始
推荐图书:
《Python程序设计(第3版)》,
(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月
第1次印刷,11月第5次印刷
京东购买链接:
https://item.jd.com/12668739.html
天猫、当当均有销售,可以选择自己常用平台搜索“董付国 第3版”找到本书。
配套资源:
教学大纲、电子教案、微课视频、PPT课件、例题源码、习题答案、考试系统。
=======================
任务描述:
编写Python程序,使用网络爬虫框架scrapy下载文章中超过指定尺寸的图片,按顺序使用数字编号命名下载的图片文件。
0)打开命令提示符窗口,使用
pip install scrapy
安装扩展库。
1)切换至工作文件夹,执行命令“
scrapy startproject PythonXiaowuPicture
”创建爬虫项目PythonXiaowuPicture。
2)继续执行命令“
cd PythonXiaowuPicture
”和“
scrapy genspider pictureSpider mp.weixin.qq.com
”创建爬虫程序。
3)打开
PythonXiaowuPicture/PythonXiaowuPicture/items.py
文件,增加代码,定义要采集的内容。
4)打开
PythonXiaowuPicture/PythonXiaowuPicture/spiders/pictureSpider.py
文件,增加代码,实现爬虫功能。
5)打开
PythonXiaowuPicture/PythonXiaowuPicture/pipelines.py
文件,增加代码,集成图片下载管道类ImagesPipeline,实现图片下载和命名。
6)打开
PythonXiaowuPicture/PythonXiaowuPicture/middlewares.py
文件,修改其中PythonxiaowupictureDownloaderMiddleware类的process_request(self, request, spider)方法,增加代码,自定义头部对抗服务器的User-Agent检查和防盗链检查。
7)打开
PythonXiaowuPicture/PythonXiaowuPicture/settings.py
文件,重点修改下面几处代码,设置不遵守服务器端robots.txt文件定义的规则、启用下载中间件、启用自定义的管道PythonXiaowuSavepicturePipeline、图片文件保存位置以及预期图片的最小尺寸。
8)至此,爬虫项目全部完成。切换到命令提示符环境,确保当前处于爬虫项目文件夹中,执行命令“
scrapy crawl pictureSpider
”运行爬虫项目。观察运行过程中的提示信息,如果遇到错误,检查前面的步骤是否有遗漏或代码是否有抄写错误,修改后重新运行,直至运行成功,程序自动在爬虫项目文件夹中创建子文件夹image并把下载的图片文件保存到image子文件夹中,每个图片以数字编号命名。