专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
哲学园  ·  “国学”的历史背景和演变 ·  21 小时前  
哲学园  ·  婆什迦羅一世和他的正弦近似公式 ·  2 天前  
互联网思维  ·  罗素:人性的四大欲望 ·  3 天前  
互联网思维  ·  罗素:人性的四大欲望 ·  3 天前  
51好读  ›  专栏  ›  GitHubStore

INFO-SPIDER: 集众多数据源于一身的爬虫工具箱

GitHubStore  · 公众号  ·  · 2024-06-01 10:26

正文

项目简介


INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

详细使用说明参照使用说明文档或视频教程

Features

  • 安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。

  • 使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。

  • 结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下。

  • 数据源丰富:本项目目前支持多达24+个数据源,持续更新。

  • 数据格式统一:爬取的所有数据都将存储为json格式,方便后期数据分析。

  • 个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。

  • 数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。

  • 文档丰富:本项目包含完整全面的使用说明文档和视频教程



Screenshot


QuickStart

依赖安装

  1. 安装python3和Chrome浏览器

  2. 安装与Chrome浏览器相同版本的驱动

  3. 安装依赖库 pip install -r requirements.txt

如果您在这一步操作遇到问题,可以获取免安装版InfoSpider


工具运行

  1. 进入 tools 目录

  2. 运行 python3 main.py

  3. 在打开的窗口点击数据源按钮, 根据提示选择数据保存路径

  4. 弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭.

  5. 在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)


数据源

  • GitHub

  • QQ邮箱

  • 网易邮箱

  • 阿里邮箱

  • 新浪邮箱

  • Hotmail邮箱

  • Outlook邮箱

  • 京东

  • 淘宝

  • 支付宝

  • 中国移动

  • 中国联通

  • 中国电信

  • 知乎

  • 哔哩哔哩

  • 网易云音乐

  • QQ好友(cjh0613)

  • QQ群(cjh0613)

  • 生成朋友圈相册

  • 浏览器浏览历史

  • 12306

  • 博客园

  • CSDN博客

  • 开源中国博客

  • 简书


数据分析

  • 博客园

  • CSDN博客

  • 开源中国博客

  • 简书


计划

  • 提供web界面操作,适应多平台

  • 对爬取的个人数据进行统计分析

  • 融合机器学习技术、自然语言处理技术等对数据深入分析

  • 把分析结果绘制图表直观展示

  • 添加更多数据源...







请到「今天看啥」查看全文