专栏名称: 极客挖掘机
高级软件工程师
目录
相关文章推荐
格上财富  ·  一文讲透关于DeepSeek的7个核心问题 ·  2 天前  
格上财富  ·  人生建议:先上车,再调整姿势 ·  2 天前  
手游那点事  ·  全年收入804亿,国内“第2”的游戏大厂如何 ... ·  3 天前  
简七读财  ·  过去100年,这类资产更赚钱 ·  2 天前  
51好读  ›  专栏  ›  极客挖掘机

小白学 Python 爬虫(1):开篇

极客挖掘机  · 掘金  ·  · 2019-11-21 12:23

正文

阅读 23

小白学 Python 爬虫(1):开篇

人生苦短,我用 Python

引言

各位同学大家好,好久不见(可能只有一两天没见:囧)~~~

先讲一件事情,昨天为啥没更新。

emmmmmmmmm,当然是因为加班啦,快到年底了,公司项目比较忙,最近的更新频率会有下降,请各位海涵。

废话不多说,开始今天的正题,从题目大家应该已经猜到了,小编要开始更新一个新的系列《小白学 Python 爬虫》,介于大家水平参差不齐,建议没有 Python 基础第一次接触的同学先看下小编之前更新的 《小白学 Python 系列》 ,大致了解下 Python 的语法规则以及一些基础用法。

先自己吹一波水,这个系列小编计划做成长期更新系列,目前 Python 爬虫涉及到的第三方的类库有些多,还会有很多有关 web 编程方面的基础知识,因面向的群体主要是小白,这些内容都需要一一介绍,这会是一个大的系列。额,远超之前的 Python 基础。

额,忘了件事儿,再加一句题外话,最近公众号后台留言有点略多,很多同学的问题来不及回复就被留言冲的看不到了,这里请大家有问题可以添加小编的个人微信:allen_6174(放心加,这个是小编的个人生活微信号,和工作号是分开的)。

算了,顺便再打个广告吧:本爬虫系列文章后续将于公众号首发,个人博客站次日同步,第三方博客平台不定期同步,泥萌要不要关注我一下呢?

什么是爬虫?

不管是作为程序员还是小白,对爬虫这个词应该都不陌生,毕竟最近也发生了很多事情,很多人因为某些事情都进去了,具体情况我就不提了,容易被和谐。有想知道的同学可以翻一翻我之前公众号转的一篇文章 《只因写了一段爬虫,公司200多人被抓!》 。最近的网络报道此类的新闻还有很多。

在正式内容开始之前,提醒各位读者敬畏法律,热爱生活。

老规矩,先百度一波看看百度释义:

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

讲点接地气的就是我们把平时使用的网络看成是一张大蜘蛛网,每个站点看做是这张网上面的一个一个的节点,爬虫好比是一只蜘蛛,在这张网上面按照一定的或者已经设计好的路线,找到目标节点获取所需资源。

为什么使用爬虫

平时我们在上网的时候,看到一些感兴趣的网络资源,可以使用复制黏贴的方式将这些资源下载回来,比如看知乎的时候,一些回答很精彩的高赞回答,数据量小的时候,我们动动鼠标右键也就搞定了,但是如果这种数据量非常大,有时候可以大到超出你的想像,再用鼠标右键复制黏贴就有些捉襟见肘了。







请到「今天看啥」查看全文