专栏名称: 崔庆才丨静觅
工程师
目录
相关文章推荐
高分子科学前沿  ·  2025自然科学基金委各学部不予资助领域 ·  12 小时前  
高分子科技  ·  川大李旭东/陈君泽、港城大谭超良团队 ... ·  昨天  
高分子科技  ·  东华大学史向阳教授团队 Nano ... ·  2 天前  
高分子科学前沿  ·  诺丁汉大学增材制造中心《CES》:高分辨率3 ... ·  2 天前  
艾邦高分子  ·  神马尼龙化工公司产能扩增项目开工! ·  3 天前  
51好读  ›  专栏  ›  崔庆才丨静觅

[Python3网络爬虫开发实战] 3-基本库的使用 1-使用urllib

崔庆才丨静觅  · 掘金  ·  · 2018-03-12 07:41

正文

[Python3网络爬虫开发实战] 3-基本库的使用 1-使用urllib

学习爬虫,最初的操作便是模拟浏览器向服务器发出请求,那么我们需要从哪个地方做起呢?请求需要我们自己来构造吗?需要关心请求这个数据结构的实现吗?需要了解HTTP、TCP、IP层的网络传输通信吗?需要知道服务器的响应和应答原理吗?

可能你不知道无从下手,不过不用担心,Python的强大之处就是提供了功能齐全的类库来帮助我们完成这些请求。最基础的HTTP库有urllib、httplib2、requests、treq等。

拿urllib这个库来说,有了它,我们只需要关心请求的链接是什么,需要传的参数是什么以及可选的请求头设置就好了,不用深入到底层去了解它到底是怎样传输和通信的。有了它,两行代码就可以完成一个请求和响应的处理过程,得到网页内容,是不是感觉方便极了?

接下来,就让我们从最基础的部分开始了解这些库的使用方法吧。

在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为: docs.python.org/3/library/u…







请到「今天看啥」查看全文