专栏名称: dwzb
目录
相关文章推荐
上饶新闻  ·  3月23日,跑饶马,惊喜不断…… ·  2 天前  
上饶新闻  ·  3月23日,跑饶马,惊喜不断…… ·  2 天前  
51好读  ›  专栏  ›  dwzb

多线程爬虫实现(下)

dwzb  · 掘金  ·  · 2018-06-02 13:35

正文

多线程爬虫实现(下)

本文首发于 知乎

本文是 上一篇文章 的续篇,实现基于多线程的 翻页、抓取二级页面。使用豆瓣top250作为例子,为了防止请求过快ip被封,我们每页只抓取5个电影。

爬虫代码如下

import requests
import time
from threading import Thread
from queue import Queue
import json
from bs4 import BeautifulSoup

def run_time(func):
    def wrapper(*args, **kw):
        start = time.time()
        func(*args, **kw)
        end = time.time()
        print('running', end-start, 's')
    return wrapper


class Spider():

    def __init__(self):
        self.start_url = 'https://movie.douban.com/top250'
        self.qurl = Queue()
        self.data = list()
        self.item_num = 5 # 限制每页提取个数(也决定了二级页面数量)防止对网页请求过多
        self.thread_num = 10 # 抓取二级页面线程数量






请到「今天看啥」查看全文


推荐文章
上饶新闻  ·  3月23日,跑饶马,惊喜不断……
2 天前
上饶新闻  ·  3月23日,跑饶马,惊喜不断……
2 天前
爆笑gif图  ·  他只是最最无辜的第三者。。。
8 年前
最搞笑笑话王  ·  保证让你笑到抽筋.... 一张一张慢慢看!
7 年前
穿衣搭配女王  ·  有了这几条裙子,你就能美的任性!
7 年前
中国医药信息网  ·  基因编辑技术成功治疗实验鼠血友病
7 年前
电子工程专辑  ·  赠人玫瑰,手留余香!上传资料,有奖啦!
7 年前