一款开源、强悍的分布式爬虫管理平台

Java基基 · 公众号 · · 2024-05-29 11:55

正文

👉 这是一个或许对你有用 的社群

🐱 一对一交流/面试小册/简历优化/求职解惑，欢迎加入「 芋道快速开发平台 」知识星球。下面是星球提供的部分资料：

《项目实战（视频）》：从书中学，往事中 “练 ”

《互联网高频面试题》：面朝简历学习，春暖花开

《架构 x 系统设计》：摧枯拉朽，掌控面试高频场景题

《精进 Java 学习指南》：系统学习，互联网主流技术栈

《必读 Java 源码专栏》：知其然，知其所以然

👉 这是一个或许对你有用的开源项目

国产 Star 破 10w+ 的开源项目，前端包括管理后台 + 微信小程序，后端支持单体和微服务架构。

功能涵盖 RBAC 权限、SaaS 多租户、数据权限、商城、支付、工作流、大屏报表、微信公众号等等功能：

Boot 仓库：https://gitee.com/zhijiantianya/ruoyi-vue-pro

Cloud 仓库：https://gitee.com/zhijiantianya/yudao-cloud

视频教程：https://doc.iocoder.cn

【国内首批】支持 JDK 21 + SpringBoot 3.2.2、JDK 8 + Spring Boot 2.7.18 双版本

来源：github.com/crawlab-team/crawlab

简介

基于 Golang 的分布式爬虫管理平台，支持 Python、NodeJS、Go、Java、PHP 等多种编程语言以及多种爬虫框架。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

项目地址：https://github.com/YunaiV/ruoyi-vue-pro

视频教程：https://doc.iocoder.cn/video/

谁适合使用 Crawlab?

网路爬虫工程师： 通过集成爬虫程序到 Crawlab，网路爬虫工程师可以聚焦于爬虫的核心解析逻辑，从而避免浪费过多时间在开发通用模块上，例如任务队列、存储、日志、消息通知等。
运维工程师： Crawlab 对于运维工程师来说最大的好处是部署便利（对于爬虫程序和 Crawlab 本身）。Crawlab 支持 Docker 或 Kubernetes 一键安装。
数据分析师： 数据分析师如果能写代码（例如 Python），则可以开发爬虫程序（例如 Scrapy）然后上传到 Crawlab，然后就可以把所有脏活累活交给 Crawlab，它能够自动抓取数据。
其他： 准确的说，任何人都能够享受 Crawlab 自动化带来的便利。虽然 Crawlab 尤其擅长执行网络爬虫任务，但它不仅限于此，它能够被用来运行其他类型的任务，例如数据处理和自动化。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

项目地址：https://github.com/YunaiV/yudao-cloud

视频教程：https://doc.iocoder.cn/video/

快速开始

请打开命令行并执行下列命令。请保证已经提前安装了 docker-compose。

git clone https://github.com/crawlab-team/examples
cd examples/docker/basic
docker-compose up -d

接下来，可以看 docker-compose.yml (包含详细配置参数)，以及参考文档来查看更多信息。

文档：https://docs.crawlab.cn/zh/guide/

运行

Docker

请用docker-compose来一键启动，甚至不用配置 MongoDB 数据库，「当然我们推荐这样做」。在当前目录中创建docker-compose.yml文件，输入以下内容。

version: '3.3'
services:
  master:
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_master
    environment:
      CRAWLAB_NODE_MASTER: "Y"
      CRAWLAB_MONGO_HOST: "mongo"
    volumes:
      - "./.crawlab/master:/root/.crawlab"
    ports:
      - "8080:8080"
    depends_on:
      - mongo

  worker01:
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_worker01
    environment:
      CRAWLAB_NODE_MASTER: "N"
      CRAWLAB_GRPC_ADDRESS: "master"
      CRAWLAB_FS_FILER_URL: "http://master:8080/api/filer"
    volumes:
      - "./.crawlab/worker01:/root/.crawlab"
    depends_on:
      - master

  worker02:
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_worker02
    environment:
      CRAWLAB_NODE_MASTER: "N"
      CRAWLAB_GRPC_ADDRESS: "master"
      CRAWLAB_FS_FILER_URL: "http://master:8080/api/filer"
    volumes:
      - "./.crawlab/worker02:/root/.crawlab"
    depends_on:
      - master

  mongo:
    image: mongo:4.2
    container_name: crawlab_example_mongo
    restart: always