专栏名称: python

隔天更新python文章，我希望用我的努力换来劳动的成果帮助更多的人掌握一门技术，因此我要更加努力。

Python爬虫框架：scrapy爬取迅雷电影天堂最新电影ed2k

python · 公众号 · Python · 2019-10-19 13:56

正文

项目开始

第一步仍然是创建scrapy项目与spider文件

切换到工作目录两条命令依次输入

scrapy startproject xunleidianying
scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019

内容分析

打开目标网站（分类是2019年上映的电影），分析我们需要的数据

进入页面是列表的形式就像豆瓣电影一样，然后我们点进去具体页面看看

这个页面就是我们需要拿到的内容页面，我们来看我们需要哪些数据(某些数据从第一个页面就可以获得，但是下载地址必须到第二个页面)

分析完成之后就可以首先编写 items.py文件

另外别忘了去settings.py中开启 ITEM_PIPELINES 选项

爬虫文件编写

老样子，为了方便测试我们的爬虫，首先编写一个main.py的文件方便IDE调用

main.py：

import scrapy.cmdline
scrapy.cmdline.execute('scrapy crawl xunleiBT'.split())

首先我们先测试直接向目标发送请求是否可以得到响应

爬虫文件 xunleiBT.py编写如下：

运行 main.py 看看会出现什么

好的，发现直接返回正常的网页也就是我们要的网页，说明该网站没有反爬机制，这样我们就更容易爬取了

然后通过xpath定位页面元素，具体就不再赘述，之前的scarpy教程中都有继续编写爬虫文件

ITEM爬取完成后该干什么？当然是入库保存了，编写pipelines.py文件进行入库保存

再次提醒别忘了去settings.py中开启 ITEM_PIPELINES 选项

推荐文章

Python爱好者社区 · 史上最强！PINN杀疯了

昨天

Python爱好者社区 · DeepSeek创始人梁文锋个人履历

3 天前

Python爱好者社区 · 离谱！下载DeepSeek最高判刑20年？

2 天前

Python爱好者社区 · 1885页的Python完全版电子书

3 天前

Python开发者 · o3-mini 碾压 DeepSeek R1？一个 Python 程序引发近 400 万围观

6 天前

大爱狗狗控 · 买了一堆大白菜，心大的主人还叫哈士奇帮忙照顾，结果...

8 年前

华尔街见闻 · 证监会主席怒批“野蛮收购”后，市场最关注的一张表格

8 年前

法学学术前沿 · 葛四友：对“‘价值客观论’反思”的澄清性反思|争鸣

7 年前

张鸣 · “晒”之过

7 年前

央视财经 · 【荐读】感动！心酸！这个90后"钢筋工"的梦想，让人几度泪崩...

7 年前