UniOne: 用于跨任务关联建模的文档解析数据集
目前,文档解析技术正面临着由碎片化数据集导致的“任务孤岛”问题。随着深度学习在文档理解领域的广泛应用,构建一个用于上下游任务协同开发的统一共享数据集已成为必然趋势。我们构建了首个支持上下游任务解析的 UniOne 数据集。通过系统地整合布局分析、文本行检测与识别、表格识别等任务,我们创新性地建立了一个跨任务标注数据集。
该数据集:(1)在布局分析层面,包含跨越 14481 页的 236790 个段落级标注,涵盖 11 个语义类别;(2)在文本行检测层面,基于布局分析数据,进一步为 198901 个文本段落中的 340890 行添加了细粒度标注;(3)针对复杂场景,引入了 8000 个具有挑战性的手写数学表达式、18717 个印刷数学公式、26849 个具有统一识别标注的公式文本,以及从论文中提取的 1169 个表格,以全面支持文档内容解析。据我们所知,该数据集首次实现了从宏观布局到微观元素的跨任务联合建模,突破了传统单任务数据集的局限,为构建下一代智能文档解析系统提供了必要的基础设施。
可通过以下链接访问:https://github.com/MaxTEX310/UniOne。
网盘下载:https://pan.quark.cn/s/c4509054d991
百度网盘,关注公众号回复:
UniOne
获取链接;
1 引言
图 1. UniDoc 数据集在文档解析领域可覆盖的范围
当前文档解析技术的核心困境源于数据集的碎片化发展。学术界长期存在“任务孤岛”现象: 布局分析依赖于如 PubLayNet [1] 这样的纯布局数据集,文本检测依赖于 ICDAR 系列竞赛数据,而数学公式处理则使用如 CROHME [2] 和 IM2LATEX - 100K [3] 等数据集。目前这种各自为战的现状导致文档解析上下游环节的训练数据缺乏统一标准,一方面模型难以实现跨任务迁移;另一方面,布局元素之间的空间关联和语义联系在数据集层面被切断,使得文档的认知完整性在初始阶段就已丧失。
此外,这种碎片化的研究路径直接导致了技术栈的复杂性。在实际应用中,需要串联 4 - 5 个专用模型,且每个环节的误差累积使得最终结果的可靠性急剧下降。更严重的是,这种碎片化不仅存在于数据集层面,还延伸到模型架构和任务流程,形成了难以逾越的技术壁垒。
为了解决数据集碎片化发展带来的“任务孤岛”问题,我们构建的 Unione 数据集首次打破了这一僵局。该数据集实现了单个样本可以同时研究布局分析、文本行检测与识别、表格识别等上下游任务,同时,它补充了具有更长序列和更复杂空间布局的手写数学表达式、印刷数学表达式、公式文本统一标注数据集。更重要的是,在数据集层面系统地构建了上下游任务之间的关联。
2 UniOne
2.1 布局分析数据部分
图 2. 我们所倡导的文档布局元素划分
根据语义功能和排版特征,我们将文档元素系统分为: 文本元素(8 个)、图形对象(2 个)、空间结构内容元素(典型代表是需要独立排版的数学表达式)。
布局分析数据集描述:
所处理的文档来自多种渠道,包括 arXiv、Sci - Hub、教科书、试卷等。不同子集的来源和构成如表 1 所示。值得注意的是,目前大多数主流布局分析数据集是基于英文文档构建的,但考虑到中文和拉丁语言在字符结构、排版规则等方面的系统性差异,本研究聚焦于中文文档场景,致力于填补该领域长期以来中文数据集的空白。
图 3. 布局分析数据示例,其中不同颜色代表不同类别的布局元素
表 1. 类别及其对应标签的统计信息
类别
Label
总页数
英文理工科教材
ET
1268
英文学术论文
EA
762
中文理工科教材
CT
5311
中文通用文档
CN
4648
中文学术论文
CA
221
中汉英试卷
TP
2271
表 2. 子集分类类别的统计数据
subset
Title
Author
Abstract
Section
Subsection
Table
Image
Formula
Text
Footnote
Algorithm
ET
18
16
1
229
90
106
1070
2898
14974
27
0
EA
43
44
42
518
355
167
322
661
6566
17
26
CT
50
8
1
2936
181
155
2672
21406
60421
24
0
CN
96
2
0
7325
1
545
2267
112
58135
0
0
CA
20
17
17
335
2
79
114
231
2146
19
8
TP
58
10
0
1767
1
267
957
231
22193
1
0
Count
285
97
61
13110
630
1319
7402
25539
164435
88
34
我们在 14481 页上总共标注了 236790 个段落框,并使用边界框准确捕捉了文本块的空间坐标和语义类别。数据以 YOLO 格式保存;同时,明确记录文档布局各元素的逻辑阅读顺序,YOLO 格式中的标注顺序即为阅读顺序。
2.2 文本检测数据集部分
我们提出了一种整体识别范式:这是一种突破性的方法,将嵌入式公式及其周围的常规文本视为一个统一的语义单元,并将传统流水线系统中分割、识别和关联这三个独立阶段整合为一个端到端的过程。在数据构建层面,本研究提出的整体识别范式需要重构数据标注系统以支持新的任务需求。在我们提出的布局分析数据集的基础上,我们进一步对 8 种类型的文本块进行了细粒度标注,增加了 340890 个行级标注单元,并在段落和行之间建立了双向层次关联。这种层次化标注架构不仅充分保留了布局元素的全局空间分布特征,还为 OCR 引擎从宏观布局划分到微观文本行粒度提供了增量解析路径。
图 4. 段落-行两级联合标注数据示例
图 5. 放大的段落-行两级标注数据