专栏名称: Python学习交流

每天更新，更新python相关的知识。希望诸君有所收获！

爬虫应该是Python里最吸引人的地方了！那么零基础应该怎么学呢？

Python学习交流 · 公众号 · Python · 2018-01-03 19:29

正文

前言

Python非常适合用来开发网页爬虫，理由如下：

1、抓取网页本身的接口

相比与其他静态编程语言，如java，c#，c++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）

此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize

2、网页抓取后的处理

抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。

Life is short, you need python PS：python2.x和python3.x有很大不同，本文只讨论python3.x的爬虫实现方法。

爬虫架构

架构组成

URL管理器：管理待爬取的url集合和已爬取的url集合，传送待爬取的url给网页下载器。

网页下载器（urllib）：爬取url对应的网页，存储成字符串，传送给网页解析器。

网页解析器（BeautifulSoup）：解析出有价值的数据，存储下来，同时补充url到URL管理器。

运行流程

URL管理器

基本功能

•添加新的url到待爬取url集合中。

•判断待添加的url是否在容器中（包括待爬取url集合和已爬取url集合）。

•获取待爬取的url。

•判断是否有待爬取的url。

•将爬取完成的url从待爬取url集合移动到已爬取url集合。

存储方式

1、内存（python内存）

待爬取url集合：set()

已爬取url集合：set()

2、关系数据库（mysql）

urls(url, is_crawled)

3、缓存（redis）

待爬取url集合：set

已爬取url集合：set

大型互联网公司，由于缓存数据库的高性能，一般把url存储在缓存数据库中。小型公司，一般把url存储在内存中，如果想要永久存储，则存储到关系数据库中。

网页下载器（urllib）

将url对应的网页下载到本地，存储成一个文件或字符串。

基本方法

新建baidu.py，内容如下：

请到「今天看啥」查看全文

推荐文章

Python爱好者社区 · 英伟达憾失DeepSeek关键人才？美国放走AI「钱学森」，哈佛教授痛心疾首

昨天

Python爱好者社区 · 离谱！下载DeepSeek最高判刑20年？

2 天前

Python爱好者社区 · 多模态，杀疯了

2 天前

Python开发者 · o3-mini 碾压 DeepSeek R1？一个 Python 程序引发近 400 万围观

6 天前

Python开发者 · 请立即拿下软考证书（政策风口）

4 天前

钛媒体 · 以色列是怎样的全民创业“黑科技”，马上出发看看｜全球寻找潜在独角兽

8 年前

狼族摄影 · 铲屎官，拜托！下一次请给我这样拍照

8 年前

3W互联网深度精选 · 史上最快出海！ofo 小黄车加速布局节奏，中国人的小黄车要去闯世界

7 年前

程序员的那些事 · Linux Kernel 新增 120+ 万行代码，其代码总量有多少，你知道么？

7 年前

比特币资讯 · 以投资者利益为先，马耳他政府出台加密货币投资基金管理规则

7 年前