专栏名称: python

隔天更新python文章，我希望用我的努力换来劳动的成果帮助更多的人掌握一门技术，因此我要更加努力。

三个Python爬虫版本，带你以各种方式爬取校花网，轻松入门爬虫

python · 公众号 · Python · 2020-03-06 21:58

正文

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，

沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用；

版本：Python3

系统：Windows

IDE：Pycharm

请求库：requests,selenium（可以驱动浏览器解析渲染CSS和JS，但有性能劣势（有用没用的网页都会加载）；）

解析库：正则，beautifulsoup，pyquery

存储库：文件，MySQL，Mongodb，Redis

（如果一共需要爬30个视频，开30个线程去做，花的时间就是其中最慢那份的耗时时间）

推荐文章

Python爱好者社区 · 史上最强！PINN杀疯了

昨天

Python爱好者社区 · DeepSeek创始人梁文锋个人履历

3 天前

Python爱好者社区 · 离谱！下载DeepSeek最高判刑20年？

2 天前

Python爱好者社区 · 1885页的Python完全版电子书

3 天前

Python开发者 · o3-mini 碾压 DeepSeek R1？一个 Python 程序引发近 400 万围观

6 天前

韩国me2day · 【心理测试】从你的手来看你的恋爱类型是什么？

8 年前

车早茶 · “一补一税”即将到期不要错过的商务车置换升级绝佳契机

8 年前

时尚COSMO · 美人计 | AB范冰冰口红粘牙，大概她们还不知道用这方法

7 年前

OSC开源社区 · Tomcat 之图文解析 Server.xml 配置

7 年前

半导体照明网 · 城市景观亮化工程“千城一面”之痛怎么破？

7 年前