项目简介
扫码
加入技术交流群,备注
「
开发语言-城市-昵称
」
合作请注明
MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能:
-
Magic-PDF PDF文档提取
-
Magic-Doc 网页与电子书提取
Magic-PDF
简介
Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。
主要功能
-
支持多种前端模型输入
-
删除页眉、页脚、脚注、页码等元素
-
符合人类阅读顺序的排版格式
-
保留原文档的结构和格式,包括标题、段落、列表等
-
提取图像和表格并在markdown中展示
-
将公式转换成latex
-
乱码PDF自动识别并转换
-
支持cpu和gpu环境
-
支持windows/linux/mac平台
项目全景
流程图
子模块仓库
上手指南
配置要求
python >= 3.9
使用说明
-
安装Magic-PDF
2. 通过命令行使用
直接使用
cp magic-pdf.template.json ~/magic-pdf.json
magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path"
程序运行完成后,你可以在"/tmp/magic-pdf"目录下看到生成的markdown文件
更多用法
3. 通过接口调用
本地使用
image_writer = DiskReaderWriter(local_image_dir)
image_dir = str(os.path.basename(local_image_dir))
jso_useful_key = {"_pdf_type": "", "model_list": model_json}
pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer)
pipe.pipe_classify()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
在对象存储上使用
s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)
image_dir = "s3://img_bucket/"
s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)
pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)
jso_useful_key = {"_pdf_type": "", "model_list": model_json}
pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)
pipe.pipe_classify()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
Magic-Doc
简介
Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。