专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
央广网  ·  重庆将建迪士尼?官方回应→ ·  昨天  
央广网  ·  重庆将建迪士尼?官方回应→ ·  昨天  
互联网坊间八卦  ·  字节大模型团队架构调整 ·  3 天前  
互联网坊间八卦  ·  字节大模型团队架构调整 ·  3 天前  
51好读  ›  专栏  ›  GitHubStore

LLM驱动的强大网络爬虫工具

GitHubStore  · 公众号  · 互联网安全  · 2024-08-24 08:54

正文

项目简介


CyberScraper 2077 不仅仅是一款普通的网络抓取工具,它是数据提取未来的预览。它诞生于赛博朋克世界的霓虹灯光街道,这款由 AI 驱动的抓取工具利用 OpenAI 穿透网络的防御,以无与伦比的精确度和风格提取你需要的数据。

无论你是公司数据分析师,街头智慧的网络运行者,还是只是想从数字领域获取信息的人,2077 年的网络收割者都能满足你。

✨ 特性

  • 🤖 AI 驱动的提取:利用先进的 AI 模型智能理解和解析网络内容。

  • 💻 精美 Streamlit 界面:即使是装备了谷歌手臂的街头武士也能轻松导航的用户友好型 GUI。

  • 🔄 多格式支持:以 JSON、CSV、HTML、SQL 或 Excel 格式导出您的数据,以适应您的网络设备。

  • 🌐 隐身模式:实现了隐身模式参数,有助于防止被识别为机器人。

  • 🤖 Ollama 支持:使用庞大的开源库 LLMs。

  • 🚀 异步操作:快速抓取,会让创伤团队羡慕。

  • 🧠 智能解析:将抓取的内容结构化,仿佛直接从大师级网络跑者的大脑纹路中提取出来。

  • 🛡️ 道德抓取:尊重 robots.txt 和站点政策。我们可能已经来到了 2077 年,但我们仍然有标准。

  • 文档:我们使用 LRU 缓存和自定义字典实现了基于内容和查询的缓存,以减少重复的 API 调用。

  • 🌐 代理模式(即将推出):内置代理支持,让你在网络中隐形穿越。

  • 🛡️ 导航至页面(即将推出):浏览网页并从不同页面抓取数据。


🎬 演示

查看我们的 YouTube 视频,了解 CyberScraper 2077 的全部功能。

对于 Windows 用户(热修复)

在使用 Windows 版本时,您可能会遇到问题,因为我只是在几分钟内将其移植过来。

遵循的步骤:

  1. 第一类: git checkout windows-hotfix

  2. 然后按照下面的步骤操作。


安装

  1. 克隆这个仓库:

git clone https://github.com/itsOwen/CyberScraper-2077.gitcd CyberScraper-2077


2. 创建并激活虚拟环境:创建虚拟环境:``` python -m venv myenv ``` 激活虚拟环境(在 Windows 系统中):``` myenv\Scripts\activate ``` 激活虚拟环境(在 Unix 或 MacOS 系统中):``` source myenv/bin/activate ``` 退出虚拟环境:``` deactivate ```

virtualenv evensource venv/bin/activate  # Optional


3. 安装所需包:

pip install -r requirements.txt


4. 安装 playwright:

playwright install

Linux/Mac:

export OPENAI_API_KEY='your-api-key-here'


对于 Windows:

set OPENAI_API_KEY=your-api-key-here


5. 如果你想使用 Ollama:Translated Text: 如果你想使用 Ollama:

注意:我只推荐使用 OpenAI API,因为 GPT4o-mini 在遵循指令方面非常出色。如果你使用开源的LLMs,确保你的系统性能良好,因为数据生成/展示的速度取决于你的系统运行LLM的能力,你可能还需要自己调整提示并添加一些额外的过滤器。

1. Setup Ollama using `pip install ollama`2. Download the Ollama from the official website: https://ollama.com/download3. Now type: ollama pull llama3.1 or whatever LLM you want to use.4. Now follow the rest of the steps below.

🚀 使用方法

  1. 启动 Streamlit 应用:

streamlit run main.py

2. 打开你的浏览器并导航至 http://localhost:8501

3. 输入您想要爬取的网站的 URL 或询问所需数据的相关问题。

4. 请聊天机器人以任何格式提取数据,选择您想要导出的任何数据,甚至是网页上的所有内容。

5. 观看 CyberScraper 2077 穿越网络,以比你说“平线”还要快的速度提取你的数据!


调整 PlaywrightScraper 设置(可选)

自定义 PlaywrightScraper 设置以满足您的爬虫需求:

  • 浏览器启动选项:修改 headless 模式和 args launch_browser ,以控制浏览器的可见性和行为。

  • 浏览器上下文:调整视口大小和 create_context 中的 user_agent ,以满足您的爬虫需求。







请到「今天看啥」查看全文