专栏名称: Python学习交流
每天更新,更新python相关的知识。希望诸君有所收获!
目录
相关文章推荐
Python爱好者社区  ·  史上最强!PINN杀疯了 ·  昨天  
Python爱好者社区  ·  DeepSeek创始人梁文锋个人履历 ·  3 天前  
Python爱好者社区  ·  多模态,杀疯了 ·  2 天前  
Python开发者  ·  o3-mini 碾压 DeepSeek ... ·  6 天前  
Python开发者  ·  请立即拿下软考证书(政策风口) ·  5 天前  
51好读  ›  专栏  ›  Python学习交流

python爬取淘女郎详细思路+源码获取!

Python学习交流  · 公众号  · Python  · 2017-08-04 15:04

正文

python爬取淘女郎图库!

大概看了下网上的教程,很多教程都是通过PhantomJS来爬取 “https://mm.taobao.com/json/request_top_list.htm?page=1” 这个页面来获取的数据信息。然而我脑袋不好使,看了许久都不知道他们是如何得到到这个html页面的。在很多情况下,如果不知道如何获取到页面数据,那就无从下手了啊哭。

试试看能不能直接用昨晚的办法来获取数据吧。

主要步骤如下:

我们通过PhantomJS来模拟网页登陆从而获取网页的html信息,获取完数据记得要用 quit() 方法退出PhantomJS。

然后分析JS返回的数据,通过zip函数将其整理成字典中待调用。

再将字典中的url再次分析,获取图片路径,然后下载到本地

所有的代码如下(增加了部分提示性语句的输出):

运行代码:








请到「今天看啥」查看全文


推荐文章
Python爱好者社区  ·  史上最强!PINN杀疯了
昨天
Python爱好者社区  ·  DeepSeek创始人梁文锋个人履历
3 天前
Python爱好者社区  ·  多模态,杀疯了
2 天前
Python开发者  ·  请立即拿下软考证书(政策风口)
5 天前
神经电影局  ·  深夜舔屏 | 巴博萨船长的 "Treasure"
7 年前
深夜书屋  ·  嘴硬的女生都是柔软的刺猬
7 年前