专栏名称: Python学习交流
每天更新,更新python相关的知识。希望诸君有所收获!
目录
相关文章推荐
Python爱好者社区  ·  终于见识到 Python 的天花板。。 ·  5 天前  
Python中文社区  ·  免费金融数据 + Python ... ·  6 天前  
Python爱好者社区  ·  王者归来!《大模型最佳实践》开源了。。。 ·  1 周前  
Python爱好者社区  ·  20个python3大项目开发源代码(附源码) ·  6 天前  
51好读  ›  专栏  ›  Python学习交流

python爬取淘女郎详细思路+源码获取!

Python学习交流  · 公众号  · Python  · 2017-08-04 15:04

正文

python爬取淘女郎图库!

大概看了下网上的教程,很多教程都是通过PhantomJS来爬取 “https://mm.taobao.com/json/request_top_list.htm?page=1” 这个页面来获取的数据信息。然而我脑袋不好使,看了许久都不知道他们是如何得到到这个html页面的。在很多情况下,如果不知道如何获取到页面数据,那就无从下手了啊哭。

试试看能不能直接用昨晚的办法来获取数据吧。

主要步骤如下:

我们通过PhantomJS来模拟网页登陆从而获取网页的html信息,获取完数据记得要用 quit() 方法退出PhantomJS。

然后分析JS返回的数据,通过zip函数将其整理成字典中待调用。

再将字典中的url再次分析,获取图片路径,然后下载到本地

所有的代码如下(增加了部分提示性语句的输出):

运行代码:


感谢 * 大家
留言转发


点击阅读原文,视频详解