专栏名称: Python学习交流

每天更新，更新python相关的知识。希望诸君有所收获！

目录

相关文章推荐

Python爱好者社区 · 史上最强！PINN杀疯了 · 昨天

Python爱好者社区 · 英伟达憾失DeepSeek关键人才？美国放走 ... · 昨天

Python爱好者社区 · DeepSeek创始人梁文锋个人履历 · 3 天前

Python爱好者社区 · 1885页的Python完全版电子书 · 3 天前

Python开发者 · o3-mini 碾压 DeepSeek ... · 6 天前

51好读 › 专栏 › Python学习交流

网上动态图有多污？一看吓一跳！Python爬取上万条动态图！超搞笑

Python学习交流 · 公众号 · Python · 2018-03-09 15:25

正文

一.思路分析

按照爬虫的基本规律：

1.找到目标

2.抓取目标

3.处理目标内容，获取有用的信息

这个网站呢，是一个论坛式网站，里面分了几大类，反正试试各种动图。

我们的目标呢，就是找到这（收）些（藏）动（到）图（自）的（己）地（电）址（脑）.

3.每一张动图的所在页面的规律

其实这个没啥规律，但是只要我们找到单个图片的地址，就没啥难处理的了.

二开工动手

1.获取入口页面内容

即根据传入的URL,获取整个页面的源码

3-6 第三步到第六步一起来说

其实就是根据页码数，来进行遍历，获取到每一页的内容

然后得到每一页中的所有图片地址

在进行获取每一页的内容的时候，需要重新组装页面地址。

有了新的地址，就可以获取当前页面的内容，并进行数据处理，得到每一张图片的地址列表

在获取到图片列表后，再次解析，获取每一张图片的URL

在这里，把数据整合一下，为将数据写入数据库做准备

7.将图片存到本地，以及将数据写入数据库

三数据库的筛选

在完成了将数据放入到数据库的之后，我想着可以直接通过调用数据库，将图片保存

（为什么有这个想法呢，因为我发现如果直接在主程序中存贮图片，它跑的太慢了，不如将数据都放到数据库中，之后专门调用数据库来贮存图片）

但是这里发现一个问题，数据中的内容挺多的，然后发现了好多内容是重复的，因此我们需要对数据库进行去重

请到「今天看啥」查看全文

推荐文章

Python爱好者社区 · 史上最强！PINN杀疯了

昨天

Python爱好者社区 · 英伟达憾失DeepSeek关键人才？美国放走AI「钱学森」，哈佛教授痛心疾首

昨天

Python爱好者社区 · DeepSeek创始人梁文锋个人履历

3 天前

Python爱好者社区 · 1885页的Python完全版电子书

3 天前

Python开发者 · o3-mini 碾压 DeepSeek R1？一个 Python 程序引发近 400 万围观

6 天前

哈电集团 · 求助!帮我找到这几个人……

7 年前

终极较量 · 一夜之间，全国都在哭着看这个视频！（认真看完）

7 年前

澎湃新闻 · 便利店买个面包，竟吃出石头还崩掉牙……

7 年前

经济学家圈 · 李克强召开经济专家企业家会议这些经济学家参加了

7 年前

家电先生 · 【安信家电张立聪】莱克电气：静待汇兑雾散时

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!