专栏名称: Python学习交流

每天更新，更新python相关的知识。希望诸君有所收获！

目录

相关文章推荐

Python爱好者社区 · 史上最强！PINN杀疯了 · 昨天

Python爱好者社区 · DeepSeek创始人梁文锋个人履历 · 3 天前

Python爱好者社区 · 1885页的Python完全版电子书 · 3 天前

Python爱好者社区 · 多模态，杀疯了 · 2 天前

Python开发者 · o3-mini 碾压 DeepSeek ... · 6 天前

51好读 › 专栏 › Python学习交流

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

Python学习交流 · 公众号 · Python · 2018-04-06 19:51

正文

爬虫一直都是非常吸引人的一个方向，爬虫能做的事很多，但是很多人在新手期都会碰到该怎么入门，该怎么去学习他？爬虫就像一只刺猬。是不是给人一种无可下手的感觉呢？今天小编看了这段话，觉得还是非常有用的，大家借鉴一下！

看到前面很多答案都讲的“术”——用什么软件怎么爬，那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现。

先长话短说summarize一下：

你需要学习

以下是短话长说：

说说当初写的一个集群爬下整个豆瓣的经验吧。

在人民日报的首页，你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了，这样你就已经爬完了俩页面（首页和国内新闻）！暂且不用管爬下来的页面怎么处理的，你就想象你把这个页面完完整整抄成了个html放到了你身上。

那么在python里怎么实现呢？

很简单

注意到这个特点，url如果被看过，那么可能以小概率重复看一看（没关系，多看看不会累死）。但是如果没被看过，一定会被看一下（这个很重要，不然我们就要漏掉一些网页了！）。 [IMPORTANT: 此段有问题，请暂时略过]

考虑如何用python实现：

在各台slave上装好scrapy，那么各台机子就变成了一台有抓取能力的slave，在master上装好Redis和rq用作分布式队列。

代码于是写成

请到「今天看啥」查看全文

推荐文章

Python爱好者社区 · 史上最强！PINN杀疯了

昨天

Python爱好者社区 · DeepSeek创始人梁文锋个人履历

3 天前

Python爱好者社区 · 1885页的Python完全版电子书

3 天前

Python爱好者社区 · 多模态，杀疯了

2 天前

Python开发者 · o3-mini 碾压 DeepSeek R1？一个 Python 程序引发近 400 万围观

6 天前

智联招聘 · 终有奔走红尘时，莫忘曾经是书生

7 年前

电商行业 · 投资人宁死不投的8类项目！

7 年前

中经金融 · 跟风布局金融终被打脸用友网络脱实向虚反累实体

7 年前

普人民 · 【纺一•微党课】图解如何转移党员组织关系

7 年前

中国养老地产研究 · 中民未来依靠社区阵地开启中国居家养老新纪元

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!