专栏名称: GitHubStore

分享有意思的开源项目

高质量PDF内容提取工具PDF-Extract-Kit

GitHubStore · 公众号 · · 2024-07-15 17:19

正文

项目简介

PDF-Extract-Kit通过集成多个模型实现了PDF高质量提取，适用于学术论文、教科书、研究报告和财务报表等多种文档类型，在扫描模糊或有水印的情况下也能保持高鲁棒性

1、布局检测采用LayoutLMv3模型进行区域检测，包括图像、表格、标题、文本等

2、公式检测上采用YOLOv8，包含行内公式和行间公式

3、公式识别上采用UniMERNet识别

4、光学字符识别使用PaddleOCR进行文本识别

对于公式识别，UniMERNet可以媲美商业软件；OCR上使用PaddleOCR，对中英文OCR效果不错，之前分享过

PDF内容提取框架如下图所示

结合多样性PDF文档标注，我们训练了鲁棒的 `布局检测` 和 `公式检测` 模型。在论文、教材、研报、财报等多样性的PDF文档上，我们的pipeline都能得到准确的提取结果，对于扫描模糊、水印等情况也有较高鲁棒性。

评测指标

现有开源模型多基于Arxiv论文类型数据进行训练，面对多样性的PDF文档，提前质量远不能达到实用需求。相比之下，我们的模型经过多样化数据训练，可以适应各种类型文档提取。

布局检测

我们与现有的开源Layout检测模型做了对比，包括DocXchain、Surya、360LayoutAnalysis的两个模型。而LayoutLMv3-SFT指的是我们在LayoutLMv3-base-chinese预训练权重的基础上进一步做了SFT训练后的模型。论文验证集由402张论文页面构成，教材验证集由587张不同来源的教材页面构成。

模型	论文验证集			教材验证集
模型	mAP	AP50	AR50	mAP	AP50	AR50
DocXchain	52.8	69.5	77.3	34.9	50.1	63.5
Surya	24.2	39.4	66.1	13.9	23.3	49.9
360LayoutAnalysis-Paper	37.7	53.6	59.8	20.7	31.3	43.6
360LayoutAnalysis-Report	35.1	46.9	55.9	25.4	33.7	45.1
LayoutLMv3-SFT	77.6	93.3	95.5	67.9	82.7	87.9

公式检测

我们与开源的模型Pix2Text-MFD做了对比。另外，YOLOv8-Trained是我们在YOLOv8l模型的基础上训练后的权重。论文验证集由255张论文页面构成，多源验证集由789张不同来源的页面构成，包括教材、书籍等。

模型	论文验证集		多源验证集
模型	AP50	AR50	AP50	AR50
Pix2Text-MFD	60.1	64.6	58.9	62.8
YOLOv8-Trained	87.7	89.9	82.4	87.3

公式识别

公式识别我们使用的是Unimernet的权重，没有进一步的SFT训练，其精度验证结果可以在其GitHub页面获取。

使用教程

环境安装

conda create -n pipeline python=3.10
pip install -r requirements.txt
pip install --extra-index-url https://miropsota.github.io/torch_packages_builder detectron2==0.6+pt2.3.1cu121

安装完环境后，可能会遇到一些版本冲突导致版本变更，如果遇到了版本相关的报错，可以尝试下面的命令重新安装指定版本的库。

pip install pillow==8.4.0

除了版本冲突外，可能还会遇到torch无法调用的错误，可以先把下面的库卸载，然后重新安装cuda12和cudnn。

pip uninstall nvidia-cusparse-cu12

项目链接

https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md

请到「今天看啥」查看全文

推荐文章

达州发布 · 达州上市了！每公斤高达380元！

9 小时前

LRTV辽宁之声 · 近期大量上市，多人吃进急诊室！紧急提醒→

昨天

LRTV辽宁之声 · 近期大量上市，多人吃进急诊室！紧急提醒→

昨天

福州新闻网 · 近期大量上市，多人吃进急诊室！紧急提醒→

昨天

福州新闻网 · 近期大量上市，多人吃进急诊室！紧急提醒→

昨天

润农畜牧报价 · 2025年2月21日行情向好，小麦继续涨！

3 天前

新疆949交通广播 · 或致大脑变迟钝！这个小习惯的伤害不可忽视→

3 天前

中国知识产权报 · 在区域经济发展中知识产权扮演了怎样的角色？这些专家有话说

7 年前

慈怀读书会 · 婚姻好不好，看这一刻就知道

7 年前

宇宙解码 · 谷神星上的神秘亮点山峰和“金字塔”

7 年前

健康养身 · 早餐加点它，血管清明人长寿，一辈子不显老！

7 年前

新材料在线 · 【重磅干货！】一张图看懂未来10年新材料产业投资并购新方向、新趋势及新策略！（50+页PPT）

7 年前

高质量PDF内容提取工具PDF-Extract-Kit

正文

项目简介

结合多样性PDF文档标注，我们训练了鲁棒的 布局检测 和 公式检测 模型。在论文、教材、研报、财报等多样性的PDF文档上，我们的pipeline都能得到准确的提取结果，对于扫描模糊、水印等情况也有较高鲁棒性。

评测指标

布局检测

公式检测

使用教程

环境安装

项目链接

请到「今天看啥」查看全文

结合多样性PDF文档标注，我们训练了鲁棒的 `布局检测` 和 `公式检测` 模型。在论文、教材、研报、财报等多样性的PDF文档上，我们的pipeline都能得到准确的提取结果，对于扫描模糊、水印等情况也有较高鲁棒性。