多线程爬虫实现（下）_dwzb的专栏文章_微信文章

多线程爬虫实现（下）

dwzb · 掘金 · · 2018-06-02 13:35

多线程爬虫实现（下）

本文首发于知乎

本文是上一篇文章的续篇，实现基于多线程的翻页、抓取二级页面。使用豆瓣top250作为例子，为了防止请求过快ip被封，我们每页只抓取5个电影。

爬虫代码如下

import requests
import time
from threading import Thread
from queue import Queue
import json
from bs4 import BeautifulSoup

def run_time(func):
    def wrapper(*args, **kw):
        start = time.time()
        func(*args, **kw)
        end = time.time()
        print('running', end-start, 's')
    return wrapper


class Spider():

    def __init__(self):
        self.start_url = 'https://movie.douban.com/top250'
        self.qurl = Queue()
        self.data = list()
        self.item_num = 5 # 限制每页提取个数（也决定了二级页面数量）防止对网页请求过多
        self.thread_num = 10 # 抓取二级页面线程数量

多线程爬虫实现（下）

正文

多线程爬虫实现（下）

请到「今天看啥」查看全文