项目简介
CyberScraper 2077 不仅仅是一款普通的网络抓取工具,它是数据提取未来的预览。它诞生于赛博朋克世界的霓虹灯光街道,这款由 AI 驱动的抓取工具利用 OpenAI 穿透网络的防御,以无与伦比的精确度和风格提取你需要的数据。
无论你是公司数据分析师,街头智慧的网络运行者,还是只是想从数字领域获取信息的人,2077 年的网络收割者都能满足你。
✨ 特性
-
🤖 AI 驱动的提取:利用先进的 AI 模型智能理解和解析网络内容。
-
💻 精美 Streamlit 界面:即使是装备了谷歌手臂的街头武士也能轻松导航的用户友好型 GUI。
-
🔄 多格式支持:以 JSON、CSV、HTML、SQL 或 Excel 格式导出您的数据,以适应您的网络设备。
-
🌐 隐身模式:实现了隐身模式参数,有助于防止被识别为机器人。
-
🤖 Ollama 支持:使用庞大的开源库 LLMs。
-
🚀 异步操作:快速抓取,会让创伤团队羡慕。
-
🧠 智能解析:将抓取的内容结构化,仿佛直接从大师级网络跑者的大脑纹路中提取出来。
-
🛡️ 道德抓取:尊重 robots.txt 和站点政策。我们可能已经来到了 2077 年,但我们仍然有标准。
-
文档:我们使用 LRU 缓存和自定义字典实现了基于内容和查询的缓存,以减少重复的 API 调用。
-
🌐 代理模式(即将推出):内置代理支持,让你在网络中隐形穿越。
-
🛡️ 导航至页面(即将推出):浏览网页并从不同页面抓取数据。
🎬 演示
查看我们的 YouTube 视频,了解 CyberScraper 2077 的全部功能。
对于 Windows 用户(热修复)
在使用 Windows 版本时,您可能会遇到问题,因为我只是在几分钟内将其移植过来。
遵循的步骤:
-
第一类:
git checkout windows-hotfix
-
然后按照下面的步骤操作。
安装
-
克隆这个仓库:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077
2. 创建并激活虚拟环境:创建虚拟环境:``` python -m venv myenv ``` 激活虚拟环境(在 Windows 系统中):``` myenv\Scripts\activate ``` 激活虚拟环境(在 Unix 或 MacOS 系统中):``` source myenv/bin/activate ``` 退出虚拟环境:``` deactivate ```
virtualenv even
source venv/bin/activate
3. 安装所需包:
pip install -r requirements.txt
4. 安装 playwright:
Linux/Mac:
export OPENAI_API_KEY='your-api-key-here'
对于 Windows:
set OPENAI_API_KEY=your-api-key-here
5.
如果你想使用 Ollama:Translated Text: 如果你想使用 Ollama:
注意:我只推荐使用 OpenAI API,因为 GPT4o-mini 在遵循指令方面非常出色。如果你使用开源的LLMs,确保你的系统性能良好,因为数据生成/展示的速度取决于你的系统运行LLM的能力,你可能还需要自己调整提示并添加一些额外的过滤器。
1. Setup Ollama using `pip install ollama`
2. Download the Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.
🚀 使用方法
-
启动 Streamlit 应用:
2. 打开你的浏览器并导航至
http://localhost:8501
。
3. 输入您想要爬取的网站的 URL 或询问所需数据的相关问题。
4. 请聊天机器人以任何格式提取数据,选择您想要导出的任何数据,甚至是网页上的所有内容。
5. 观看 CyberScraper 2077 穿越网络,以比你说“平线”还要快的速度提取你的数据!
调整 PlaywrightScraper 设置(可选)
自定义
PlaywrightScraper
设置以满足您的爬虫需求: