用Python爬下十几万本小说，再也不会闹书荒！

Python学习交流 · 公众号 · Python · 2019-01-08 14:07

正文

自从看了师傅爬了顶点全站之后，我也手痒痒的，也想爬一个比较牛逼的小说网看看，于是选了宜搜这个网站，好了，马上开干，这次用的是mogodb数据库，感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站

进群：864573496 获取源码！~

先看代码框架图

第一个，肯定先提取排行榜里面每个类别的链接啊，然后进入链接进行爬取，先看all_theme文件

看看运行结果，这是书籍类目的

这是构造出的每一个类目里面所有的页数链接，也是我们爬虫的入口，一共5000多页

接下来是封装的数据库操作，因为用到了多进程以及多线程每个进程，他们需要知道那些URL爬取过了、哪些URL需要爬取！我们来给每个URL设置两种状态：

嗯！当一个所有初始的URL状态都为outstanding；当开始爬取的时候状态改为：processing；爬取完成状态改为：complete；失败的URL重置状态为：outstanding。

为了能够处理URL进程被终止的情况、我们设置一个计时参数，当超过这个值时；我们则将状态重置为outstanding。

推荐文章

Python爱好者社区 · DeepSeek创始人梁文锋个人履历

3 天前

Python爱好者社区 · 离谱！下载DeepSeek最高判刑20年？

2 天前

Python爱好者社区 · 1885页的Python完全版电子书

3 天前

Python爱好者社区 · 多模态，杀疯了

2 天前

Python开发者 · o3-mini 碾压 DeepSeek R1？一个 Python 程序引发近 400 万围观

6 天前

古墨社 · 中国1000年前的状元文，秒杀当今世界所有鸡汤！

7 年前

新材料在线 · 《材访》给设计师的一封信

7 年前

新华网 · 气愤！女环卫工被大巴推行10多米后卷入车底，全身多处骨折

7 年前

吃喝玩乐新分类 · 除了拨打110，还有一种报警方式你根本不知道！

7 年前

化妆师MK-雷韵祺 · 粗大的毛孔到底怎么拯救，这里有最全方法

7 年前