专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
新京报评论  ·  DeepSeek成了“老中医”?AI能看病但 ... ·  昨天  
求是网  ·  健全主体明确、要求清晰的责任体系 ·  昨天  
CHINADAILY  ·  跑鞋,是越贵越好吗? ·  2 天前  
外交部发言人办公室  ·  外交部发言人介绍中方担任上合组织轮值主席国阶 ... ·  3 天前  
外交部发言人办公室  ·  【双语】外交部例行记者会 / MFA ... ·  3 天前  
51好读  ›  专栏  ›  GitHubStore

一站式、开源、高质量的数据提取工具MinerU

GitHubStore  · 公众号  ·  · 2024-07-12 14:25

正文

项目简介

扫码 加入技术交流群,备注 开发语言-城市-昵称

合作请注明


MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能:

  • Magic-PDF PDF文档提取

  • Magic-Doc 网页与电子书提取


Magic-PDF

简介


Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

主要功能

  • 支持多种前端模型输入

  • 删除页眉、页脚、脚注、页码等元素

  • 符合人类阅读顺序的排版格式

  • 保留原文档的结构和格式,包括标题、段落、列表等

  • 提取图像和表格并在markdown中展示

  • 将公式转换成latex

  • 乱码PDF自动识别并转换

  • 支持cpu和gpu环境

  • 支持windows/linux/mac平台


项目全景

流程图

子模块仓库

  • PDF-Extract-Kit

    • 高质量的PDF内容提取工具包


上手指南

配置要求

python >= 3.9


使用说明

  1. 安装Magic-PDF

pip install magic-pdf

2. 通过命令行使用


直接使用
cp magic-pdf.template.json ~/magic-pdf.jsonmagic-pdf pdf-command --pdf "pdf_path" --model "model_json_path"

程序运行完成后,你可以在"/tmp/magic-pdf"目录下看到生成的markdown文件

更多用法
magic-pdf --help

3. 通过接口调用

本地使用
image_writer = DiskReaderWriter(local_image_dir)image_dir = str(os.path.basename(local_image_dir))jso_useful_key = {"_pdf_type": "", "model_list": model_json}pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer)pipe.pipe_classify()pipe.pipe_parse()md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

在对象存储上使用

s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)image_dir = "s3://img_bucket/"s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)jso_useful_key = {"_pdf_type": "", "model_list": model_json}pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)pipe.pipe_classify()pipe.pipe_parse()md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")


Magic-Doc


简介

Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。







请到「今天看啥」查看全文