用Python爬取淘宝4403条大裤衩数据进行分析，找到可以入手的那一条

大数据文摘 · 公众号 · · 2024-02-27 15:00

正文

大数据文摘授权转载自菜J学Python

作者：J哥

炎炎夏日，长裤已难以满足广大男生的需求，为了在搬砖和摆摊的过程中增添一丝舒适感，他们开始寻找一种神奇的存在——大裤衩。J哥在种菜的这些日子里也日益感受到大裤衩的重要性，于是，默默打开了淘宝并搜索了大裤衩，但翻了半天也不知道买啥。

无比懊恼的J哥扔掉了手机，打开电脑并爬取了淘宝4403条大裤衩数据，然后进行了可视化分析，并最终找到一条可以入手的大裤衩。本文主要尝试解决以下几个问题：

1.国内哪些地方的大裤衩卖的比较好？

2.大裤衩市场价格是怎样的？

3.哪些店铺大裤衩销量较高？

4.在售的大裤衩具有哪些特点？

数据获取

淘宝网站是一个ajax动态加载的网站，只能通过解析接口或用selenium自动化测试工具去爬取。

本次数据获取采用selenium，由于J哥的谷歌浏览器版本更新较快，导致原来的谷歌驱动失效。于是，我禁用了浏览器自动更新，并下载了对应版本的驱动。

J哥谷歌浏览器版本

浏览器驱动必须与浏览器版本匹配，否则selenium将失效，这里也给出下载链接：
http://chromedriver.storage.googleapis.com/index.html

接着，J哥利用selenium在淘宝网搜索大裤衩，手机扫码登录，获得了大裤衩的商品名称、商品价格、付款人数、店铺名称、发货地址等信息，最终保存为big_pants.xlsx。

 1def main(): 2    browser.get('https://www.taobao.com/') 3    page = search_product(key_word) 4    print(page) 5    get_data() 6    page_num = 1 7    while int(page) != page_num: 8        print("-" * 100) 9        print("正在爬取第{}页大裤衩数据".format(page_num + 1))10        browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))11        browser.implicitly_wait(10)12        get_data()13        page_num += 114    print("大裤衩数据抓取完成")1516if __name__ == '__main__':17    key_word = "大裤衩 男"18    browser = webdriver.Chrome("./chromedriver")19    main()