项目简介
管道是一个多模式优先的工具,用于将整个目录和网站扁平化为提示就绪格式,以便与大型语言模型一起使用。它建立在数十种精心设计的启发式方法之上,可从文件、目录、网页、论文、github 存储库等创建合理的文本和图像提示。
特征 🌟
要将管道与 Python 一起使用,只需将输出附加到提示的开头:
import openai
import thepipe
openai_client = openai.OpenAI()
response = openai_client.chat.completions.create(
model="gpt-4-vision-preview",
messages = thepipe.extract("example.pdf"),
)
开始 🚀
要使用 The Pipe,您需要 playwright、ctags、pytesseract 和 python 要求:
git clone https://github.com/emcf/thepipe
pip install -r requirements.txt
给 Windows 用户的提示:您可能需要使用
pip install python-magic-bin
.
现在,您可以使用 The Pipe:
python thepipe.py path/to/directory
此命令将处理指定目录中所有支持的文件,如有必要,压缩超过令牌限制的任何信息,并将生成的提示和图像输出到文件夹。
参数为:
-
输入源(必填):可以是文件路径、URL 或目录路径。
-
--match
(可选):用于匹配目录中的文件的正则表达式模式。
-
--ignore
(可选):用于忽略目录中的文件的正则表达式模式。
-
--limit
(可选):输出提示的令牌限制,默认为 100K。超出限制的提示将被压缩。
-
--mathpix
(可选):使用 Mathpix 从 PDF 中提取图像、表格和数学。
-
--text_only
(可选):不要从文档或网站中提取图像。此外,图像文件将使用 OCR 表示,而不是图像。
您可以通过 LiteLLM 将管道的输出与其他LLM提供程序一起使用。
https://github.com/emcf/thepipe