The Pipe：多模态输入，启发式转换工具

GitHubStore · 公众号 · · 2024-03-29 07:19

正文

项目简介

管道是一个多模式优先的工具，用于将整个目录和网站扁平化为提示就绪格式，以便与大型语言模型一起使用。它建立在数十种精心设计的启发式方法之上，可从文件、目录、网页、论文、github 存储库等创建合理的文本和图像提示。

特征 🌟

从数十种复杂文件类型📄中准备提示
复杂 PDF、Markdown 等🧠的可视化文档提取
针对多模态 LLMs 🖼️ + 💬 优化的输出
自动压缩超过设置的令牌限制📦的提示
适用于缺少文件扩展名、内存中数据流 💾
适用于目录、URL、git 存储库等 🌐
多线程 ⚡️

要将管道与 Python 一起使用，只需将输出附加到提示的开头：

import openaiimport thepipeopenai_client = openai.OpenAI()response = openai_client.chat.completions.create(    model="gpt-4-vision-preview",    messages = thepipe.extract("example.pdf"),)

开始 🚀

要使用 The Pipe，您需要 playwright、ctags、pytesseract 和 python 要求：

git clone https://github.com/emcf/thepipepip install -r requirements.txt

给 Windows 用户的提示：您可能需要使用 pip install python-magic-bin .

现在，您可以使用 The Pipe：

python thepipe.py path/to/directory

此命令将处理指定目录中所有支持的文件，如有必要，压缩超过令牌限制的任何信息，并将生成的提示和图像输出到文件夹。

参数为：

输入源（必填）：可以是文件路径、URL 或目录路径。
--match （可选）：用于匹配目录中的文件的正则表达式模式。
--ignore （可选）：用于忽略目录中的文件的正则表达式模式。
--limit （可选）：输出提示的令牌限制，默认为 100K。超出限制的提示将被压缩。
--mathpix （可选）：使用 Mathpix 从 PDF 中提取图像、表格和数学。
--text_only （可选）：不要从文档或网站中提取图像。此外，图像文件将使用 OCR 表示，而不是图像。

您可以通过 LiteLLM 将管道的输出与其他LLM提供程序一起使用。

项目链接

https://github.com/emcf/thepipe

请到「今天看啥」查看全文

推荐文章

CFC农产品研究 · 【菜系周报】AAFC微调加菜库存，关注菜籽消耗节奏

11 小时前

中工网 · 中央一号文件发布，这些人将直接受益！

18 小时前

何夕 · 接上一条。既然农耕文明(成长/股息)更先进，那为什么A股股民这么-20250222203751

2 天前

中国畜牧业协会猪业分会 · 农业农村部专题研究稳定生猪生产和动物疫病防控工作

3 天前

微观三农 · 湖南：提升重大动物疫病防控工作水平

3 天前

最美应用 · 已经买了勾玉吊坠和没买的人，有些话想跟你说

8 年前

健康养身 · 这个地方越粗，血管越差？每天喝一杯它，血管越喝越年轻！

7 年前

精英点评江西 · 丛一楼超级钜惠火爆来袭！岂止是说说而已！

7 年前

环球旅行 · 陪美女闺蜜逃离喧嚣都市，探秘深山古宅，壕气男主竟然是他！

7 年前

观点 · 万科旅游地产昆明出山沉默三年后收购云南城投六千亩项目

7 年前