专栏名称: Python学习交流
每天更新,更新python相关的知识。希望诸君有所收获!
目录
相关文章推荐
Python爱好者社区  ·  不是华为目标院校,直接被华为判死刑。。。 ·  2 天前  
Python爱好者社区  ·  今天面了一个阿里算法女生,当场想给她offer! ·  5 天前  
Python爱好者社区  ·  Python 自动化运维 100个常见问题.pdf ·  3 天前  
Python开发者  ·  字节回应大模型训练被实习生攻击 ·  5 天前  
Python爱好者社区  ·  史上最强!神经网络杀疯了 ·  1 周前  
51好读  ›  专栏  ›  Python学习交流

5 分钟掌握用Python爬取智联招聘网站并保存到 MongoDB 数据库

Python学习交流  · 公众号  · Python  · 2017-07-30 00:11

正文

1 运行环境和python库

先说下运行环境:

  • python3.5

  • windows 7, 64位系统

python库

本次智联招聘的网站爬取,主要涉及以下一些python库:

  • requests

  • BeautifulSoup

  • multiprocessing

  • pymongo

  • itertools

2 爬取的主要步骤

  • 根据关键字、城市、以及页面编号生成需要爬取的网页链接

  • 用requests获取相应的网页内容

  • 用BeautifulSoup解析,获取需要的关键信息

  • 将爬取的信息存入MongoDB数据库中,插入新记录或更新已有记录

  • 用multiprocessing启动多进程进行爬取,提高运行效率

3 文件组成

  • 信息配置文件“zhilian_kw_config.py”

  • 爬虫主运行文件“zhilian_kw_spider.py”

在配置文件中设置需要爬取的信息,然后运行主程序进行内容抓取。

配置文件“zhilian_kw_config.py”的内容如下:

请点击此处输入图片描述请点击此处输入图片描述

爬虫主运行文件“zhilian_kw_spider.py”的内容如下:


代码太多了,就没贴出来了!