专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
人人都是产品经理  ·  “功能梳理”与“产品设计”,只差一层窗户纸 ·  19 小时前  
91产品  ·  一分钟学会DeepSeek R1本地部署 ·  2 天前  
人人都是产品经理  ·  产品优化:如何快速确定模块优化方向 ·  2 天前  
人人都是产品经理  ·  客户总是“听不懂”?产品经理汇报中的致命误区 ·  3 天前  
51好读  ›  专栏  ›  GitHubStore

大模型文档解析助手MegaParse!

GitHubStore  · 公众号  ·  · 2024-06-12 08:44

正文

项目简介


MegaParse 是一个功能强大且多功能的解析器,可以轻松处理各种类型的文档。无论您是处理文本、PDF、Powerpoint 演示文稿还是 Word 文档,MegaParse 都能满足您的需求。重点是在解析过程中不要丢失信息。

🎯 主要特点🎯

  • 多功能解析器:MegaParse 是一个功能强大且多功能的解析器,可以轻松处理各种类型的文档。

  • 无信息丢失:重点关注解析过程中没有信息丢失。

  • 快速高效:设计以速度和效率为核心。

  • 广泛的文件兼容性:支持文本、PDF、Powerpoint 演示文稿、Excel、CSV、Word 文档。

  • 开源:自由是美丽的,MegaParse 也是如此。开源且免费使用。


支持

  • 文件:✅ PDF ✅ Powerpoint ✅ Word

  • 内容:✅ 表格 ✅ 目录 ✅ 页眉 ✅ 页脚 ✅ 图片


安装

pip install megaparse


用法

  1. 将您的 OpenAI API 密钥添加到 .env 文件

  2. 在您的计算机上安装 poppler(图像和 PDF)

  3. 在您的计算机上安装 tesseract(图像和 PDF)

from megaparse.Converter import MegaParse
megaparse = MegaParse(file_path="./test.pdf")content = megaparse.convert()print(content)megaparse.save_md(content, "./test.md")


(可选)使用 LlamaParse 改进结果

  1. 在 Llama Cloud 上创建一个帐户并获取您的 API 密钥。

  2. 使用 llama_parse_api_key 参数调用 Megaparse

from megaparse.Converter import MegaParse
megaparse = MegaParse(file_path="./test.pdf", llama_parse_api_key="llx-your_api_key")content = megaparse.convert()print(content)


基准


解析器 Diff
使用 LLamaParse 和 GPTCleaner 进行大型解析 84
Megaparse 大型解析 100
使用 LLamaParse 进行大型解析 104
LLama Parse 108


越低越好


下一步

  • 改进表解析

  • 改进图像解析和描述

  • 为 Docx 添加目录

  • 添加 Docx 的超链接







请到「今天看啥」查看全文