专栏名称: GitHubStore

分享有意思的开源项目

一站式、开源、高质量的数据提取工具MinerU

GitHubStore · 公众号 · · 2024-07-12 14:25

正文

项目简介

扫码加入技术交流群，备注「 开发语言-城市-昵称 」

合作请注明

MinerU 是一款一站式、开源、高质量的数据提取工具，主要包含以下功能:

Magic-PDF PDF文档提取
Magic-Doc 网页与电子书提取

Magic-PDF

简介

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

主要功能

支持多种前端模型输入
删除页眉、页脚、脚注、页码等元素
符合人类阅读顺序的排版格式
保留原文档的结构和格式，包括标题、段落、列表等
提取图像和表格并在markdown中展示
将公式转换成latex
乱码PDF自动识别并转换
支持cpu和gpu环境
支持windows/linux/mac平台

项目全景

流程图

子模块仓库

PDF-Extract-Kit

高质量的PDF内容提取工具包

上手指南

配置要求

python >= 3.9

使用说明

安装Magic-PDF

pip install magic-pdf

2. 通过命令行使用

直接使用

cp magic-pdf.template.json ~/magic-pdf.jsonmagic-pdf pdf-command --pdf "pdf_path" --model "model_json_path"

程序运行完成后，你可以在"/tmp/magic-pdf"目录下看到生成的markdown文件

3. 通过接口调用

本地使用

image_writer = DiskReaderWriter(local_image_dir)image_dir = str(os.path.basename(local_image_dir))jso_useful_key = {"_pdf_type": "", "model_list": model_json}pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer)pipe.pipe_classify()pipe.pipe_parse()md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

在对象存储上使用

s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)image_dir = "s3://img_bucket/"s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)jso_useful_key = {"_pdf_type": "", "model_list": model_json}pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)pipe.pipe_classify()pipe.pipe_parse()md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

Magic-Doc

简介

Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。

请到「今天看啥」查看全文

推荐文章

新京报评论 · DeepSeek成了“老中医”？AI能看病但也别迷信 | 新京报快评

昨天

求是网 · 健全主体明确、要求清晰的责任体系

昨天

CHINADAILY · 跑鞋，是越贵越好吗？

2 天前

外交部发言人办公室 · 外交部发言人介绍中方担任上合组织轮值主席国阶段性成果

3 天前

外交部发言人办公室 · 【双语】外交部例行记者会 / MFA Regular Press Conference (2025年2月20日)

3 天前

抢先电影院 · 他从台湾火到大陆，让无数人尖叫！

8 年前

知心 · 女人不管你奔几了，都需要看看这15句话！

7 年前

新京报传媒研究 · 人们为什么爱说脏话？

7 年前

公主岭帮 · 公主岭一男子在吃烧烤喝酒，突然媳妇打来电话…传疯了！

7 年前

知晓程序 · 用小程序寻宝？恐怕只有迪士尼乐园这么会玩

7 年前

一站式、开源、高质量的数据提取工具MinerU

正文

项目简介

Magic-PDF

简介

项目全景

流程图

子模块仓库

上手指南

配置要求

python >= 3.9

使用说明

2. 通过命令行使用

直接使用

更多用法

3. 通过接口调用

本地使用

Magic-Doc

简介

Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。

请到「今天看啥」查看全文