专栏名称: GitHubStore

分享有意思的开源项目

LLM驱动的强大网络爬虫工具

GitHubStore · 公众号 · 互联网安全 · 2024-08-24 08:54

正文

项目简介

CyberScraper 2077 不仅仅是一款普通的网络抓取工具，它是数据提取未来的预览。它诞生于赛博朋克世界的霓虹灯光街道，这款由 AI 驱动的抓取工具利用 OpenAI 穿透网络的防御，以无与伦比的精确度和风格提取你需要的数据。

无论你是公司数据分析师，街头智慧的网络运行者，还是只是想从数字领域获取信息的人，2077 年的网络收割者都能满足你。

✨ 特性

🤖 AI 驱动的提取：利用先进的 AI 模型智能理解和解析网络内容。
💻 精美 Streamlit 界面：即使是装备了谷歌手臂的街头武士也能轻松导航的用户友好型 GUI。
🔄 多格式支持：以 JSON、CSV、HTML、SQL 或 Excel 格式导出您的数据，以适应您的网络设备。
🌐 隐身模式：实现了隐身模式参数，有助于防止被识别为机器人。
🤖 Ollama 支持：使用庞大的开源库 LLMs。
🚀 异步操作：快速抓取，会让创伤团队羡慕。
🧠 智能解析：将抓取的内容结构化，仿佛直接从大师级网络跑者的大脑纹路中提取出来。
🛡️ 道德抓取：尊重 robots.txt 和站点政策。我们可能已经来到了 2077 年，但我们仍然有标准。
文档：我们使用 LRU 缓存和自定义字典实现了基于内容和查询的缓存，以减少重复的 API 调用。
🌐 代理模式（即将推出）：内置代理支持，让你在网络中隐形穿越。
🛡️ 导航至页面（即将推出）：浏览网页并从不同页面抓取数据。

🎬 演示

查看我们的 YouTube 视频，了解 CyberScraper 2077 的全部功能。

对于 Windows 用户（热修复）

在使用 Windows 版本时，您可能会遇到问题，因为我只是在几分钟内将其移植过来。

遵循的步骤：

第一类： git checkout windows-hotfix
然后按照下面的步骤操作。

安装

克隆这个仓库：

git clone https://github.com/itsOwen/CyberScraper-2077.gitcd CyberScraper-2077

2. 创建并激活虚拟环境：创建虚拟环境：``` python -m venv myenv ``` 激活虚拟环境（在 Windows 系统中）：``` myenv\Scripts\activate ``` 激活虚拟环境（在 Unix 或 MacOS 系统中）：``` source myenv/bin/activate ``` 退出虚拟环境：``` deactivate ```

virtualenv evensource venv/bin/activate  # Optional

3. 安装所需包：

pip install -r requirements.txt

4. 安装 playwright：

playwright install

Linux/Mac:

export OPENAI_API_KEY='your-api-key-here'

对于 Windows：

set OPENAI_API_KEY=your-api-key-here

5. 如果你想使用 Ollama：Translated Text: 如果你想使用 Ollama：

注意：我只推荐使用 OpenAI API，因为 GPT4o-mini 在遵循指令方面非常出色。如果你使用开源的LLMs，确保你的系统性能良好，因为数据生成/展示的速度取决于你的系统运行LLM的能力，你可能还需要自己调整提示并添加一些额外的过滤器。

1. Setup Ollama using `pip install ollama`2. Download the Ollama from the official website: https://ollama.com/download3. Now type: ollama pull llama3.1 or whatever LLM you want to use.4. Now follow the rest of the steps below.

🚀 使用方法

启动 Streamlit 应用：

streamlit run main.py

2. 打开你的浏览器并导航至 http://localhost:8501 。

3. 输入您想要爬取的网站的 URL 或询问所需数据的相关问题。

4. 请聊天机器人以任何格式提取数据，选择您想要导出的任何数据，甚至是网页上的所有内容。

5. 观看 CyberScraper 2077 穿越网络，以比你说“平线”还要快的速度提取你的数据！

调整 PlaywrightScraper 设置（可选）

自定义 PlaywrightScraper 设置以满足您的爬虫需求：

浏览器启动选项：修改 headless 模式和 args 在 launch_browser ，以控制浏览器的可见性和行为。
浏览器上下文：调整视口大小和 create_context 中的 user_agent ，以满足您的爬虫需求。