专栏名称: Python学习交流
每天更新,更新python相关的知识。希望诸君有所收获!
目录
相关文章推荐
Python开发者  ·  “李飞飞团队50 美元炼出 ... ·  昨天  
Python爱好者社区  ·  史上最强!PINN杀疯了 ·  昨天  
Python爱好者社区  ·  英伟达憾失DeepSeek关键人才?美国放走 ... ·  昨天  
Python爱好者社区  ·  1885页的Python完全版电子书 ·  3 天前  
Python开发者  ·  请立即拿下软考证书(政策风口) ·  4 天前  
51好读  ›  专栏  ›  Python学习交流

Python爬虫实战案例:优美壁纸下载

Python学习交流  · 公众号  · Python  · 2017-12-08 19:18

正文

(1)实战背景

已经会爬取文字了,是不是感觉爬虫还是蛮好玩的呢?接下来,让我们进行一个进阶实战,了解一下反爬虫。URL:https://unsplash.com/

看一看这些优美的壁纸,这个网站的名字叫做Unsplash,免费高清壁纸分享网是一个坚持每天分享高清的摄影图片的站点,每天更新一张高质量的图片素材,全是生活中的景象作品,清新的生活气息图片可以作为桌面壁纸也可以应用于各种需要的环境。

看到这么优美的图片,我的第一反应就是想收藏一些,作为知乎文章的题图再好不过了。每张图片我都很喜欢,批量下载吧,不多爬,就下载50张好了。

(2)实战进阶

我们已经知道了每个html标签都有各自的功能。 标签存放一下超链接,图片存放在哪个标签里呢?html规定,图片统统给我放到 标签中!既然这样,我们截取就Unsplash网站中的一个 标签,分析一下:

    Snow-capped mountain slopes under blue sky

可以看到, 标签有很多属性,有alt、src、class、style属性,其中src属性存放的就是我们需要的图片保存地址,我们根据这个地址就可以进行图片的下载。

那么,让我们先捋一捋这个过程:

  • 使用requeusts获取整个网页的HTML信息;

  • 使用Beautiful Soup解析HTML信息,找到所有 标签,提取src属性,获取图片存放地址;

  • 根据图片存放地址,下载图片。

我们信心满满地按照这个思路爬取Unsplash试一试,编写代码如下:

按照我们的设想,我们应该能找到很多 标签。但是我们发现,除了一些







请到「今天看啥」查看全文