专栏名称: Python中文社区

致力于成为国内最好的Python开发者学习交流平台，这里有关于Python的国内外最新消息，每日推送有趣有料的技术干货和社区动态。官方网站：www.python-cn.com

简陋的分布式爬虫（附项目代码地址）

Python中文社区 · 公众号 · Python · 2017-04-05 23:09

正文

專欄

❈

哇咔咔，学习过C, C++, Python, 了解java,html, javascript基础。其中就Python而言，自己写过简单的博客(注册，登录，发帖，删帖，评论)，写过几个爬虫。

❈

新手向，基于Redis构建的分布式爬虫。
以爬取考研网的贴子为例，利用 PyQuery, lxml 进行解析，将符合要求的文章文本存入MySQ数据库中。

结构简介

cooperator

协作模块，用于为Master&Worker模块提供代理IP支持

master

提取满足条件的文章url，并交给Worker进一步处理

Worker

解析文章内容，将符合要求的存入数据库

环境依赖

sqlalchemy => 1.0.13
pyquery => 1.2.17
requests => 2.12.3
redis => 2.10.5
lxml => 3.6.0

需要预先安装MySQL-server 和 Redis-server.
MySQL中应有名为kybsrc的数据库，且该数据库包含一个名为posts的表，拥有num(INT AUTO_INCREMENT)和post(TEXT)两个字段。

如何启动

0. 先配置好各模块所引用的配置文件

1. 为了更好地运行，cooperator/start.py 应提前开始并完成一次工作函数执行

第一次执行完后，每五分钟运行一次工作函数

2. 启动 master/start.py

默认只执行一次

3. 启动 worker/start.py

默认循环监听是否有新的URL待解析

核心点说明

1. 通过Redis的集合类型进行代理IP和URL的传递

# Summary Reference
# ---------
# 创建句柄
def make_redis_handler():
    pool = redis.ConnectionPool(host=r_server['ip'], port=r_server['port'], password=r_server['passwd'])
    return redis.Redis(connection_pool=pool)

# 获得句柄
def make_proxy_handler():
    return make_redis_handler()

# 保存到指定的set下
def check_and_save(self, proxy):
 'pass'
   self.redis_handler.sadd(r_server['s_name'], proxy)

`2. 由于在验证代理IP和使用封装的get_url()函数的时候网络IO较多，所以使用多线程（效果还是很明显的）。`

#Summary Reference
#---------
def save_proxy_ip(self):
    'pass'
    for proxy in self.proxy_ip:
        Thread(target=self.check_and_save, args=(proxy,)).start()

def get_url(url):
    'pass'
    while True:
    'pass'
        resp = request('get', url, headers=headers, proxies={'http': proxy})
    'pass'

`本文项目地址：https://github.com/PyCN/Ugly-Distributed-Crawler`

长按扫描加入Python圈子

获取更多内部消息！

Python 中文社区

Python中文开发者的精神家园

合作、投稿请联系微信：

pythonpost

— 人生苦短，我用Python —

本文为作者原创作品，未经作者授权同意禁止转载

点击阅读原文可搜索历史文章



        

        
    
        
            
            
            
            
        
    

        

        
        

        

    
        推荐文章
    

    

        

            
                
                

                    
                        
                            
                        
                    
                    
                    
                        
                             
                                 Python中文社区
                                  · 
                                 恐慌中的红利：用“恐慌指数”VIX寻找爆发点！
                             
                        
                        
                        4 天前
                    
                
                
            
        

    

        

            
                
                

                    
                        
                            
                        
                    
                    
                    
                        
                             
                                 Python开发者
                                  · 
                                 突发！美国CDN发明者阿卡迈宣布终止在华服务！波及范围不可预估！全部客户须在26年6月30日前迁移
                             
                        
                        
                        6 天前
                    
                
                
            
        

    

        

            
                
                

                    
                        
                            
                        
                    
                    
                    
                        
                             
                                 新机器视觉
                                  · 
                                 总结90条写Python程序的建议
                             
                        
                        
                        6 天前
                    
                
                
            
        

    

        

            
                
                

                    
                        
                            
                        
                    
                    
                    
                        
                             
                                 萌宠萌
                                  · 
                                 一只懂得入乡随俗的萨摩耶，玩(｡･∀･)ﾉﾞ嗨了！
                             
                        
                        
                        7 年前
                    
                
                
            
        

    

        

            
                
                

                    
                        
                            
                        
                    
                    
                    
                        
                             
                                 乐游上海
                                  · 
                                 美食‖专门去金山吃桃：枣油桃、蟠桃、六小灵桃好难选
                             
                        
                        
                        7 年前
                    
                
                
            
        

    

        

            
                
                

                    
                        
                            
                        
                    
                    
                    
                        
                             
                                 中国日报双语新闻
                                  · 
                                 共青团中央帮你找对象这件事儿，外媒都知道了……丨外媒说
                             
                        
                        
                        7 年前
                    
                
                
            
        

    

        

            
                
                

                    
                        
                            
                        
                    
                    
                    
                        
                             
                                 xmu
                                  · 
                                 星火相继，感谢有你
                             
                        
                        
                        7 年前
                    
                
                
            
        

    

        

            
                
                

                    
                        
                            
                        
                    
                    
                    
                        
                             
                                 太仓房产网
                                  · 
                                 一图读懂住房公积金政策
                             
                        
                        
                        7 年前