专栏名称: LaTeX工作室
欢迎光临分享与学习LaTeX的王国
目录
相关文章推荐
国机工程集团  ·  国机集团召开驻深圳企业业务协同调研会 ·  昨天  
国机工程集团  ·  国机集团召开驻深圳企业业务协同调研会 ·  昨天  
南京新闻  ·  太突然!巨头申请破产! ·  昨天  
南京新闻  ·  太突然!巨头申请破产! ·  昨天  
21世纪商业评论  ·  74岁刘永好,悄然退出新希望董事会 ·  2 天前  
中欧商业评论  ·  出海越南遭抵制,霸王茶姬做错了什么? ·  2 天前  
51好读  ›  专栏  ›  LaTeX工作室

重磅推出!UniOne:首个跨任务关联建模的文档解析数据集,支持公式 OCR

LaTeX工作室  · 公众号  ·  · 2025-03-15 18:52

正文

点击👇 LaTeX工作室 关注公众号
精致美好科研生活从 LaTeX 开始!


UniOne: 用于跨任务关联建模的文档解析数据集

目前,文档解析技术正面临着由碎片化数据集导致的“任务孤岛”问题。随着深度学习在文档理解领域的广泛应用,构建一个用于上下游任务协同开发的统一共享数据集已成为必然趋势。我们构建了首个支持上下游任务解析的 UniOne 数据集。通过系统地整合布局分析、文本行检测与识别、表格识别等任务,我们创新性地建立了一个跨任务标注数据集。

该数据集:(1)在布局分析层面,包含跨越 14481 页的 236790 个段落级标注,涵盖 11 个语义类别;(2)在文本行检测层面,基于布局分析数据,进一步为 198901 个文本段落中的 340890 行添加了细粒度标注;(3)针对复杂场景,引入了 8000 个具有挑战性的手写数学表达式、18717 个印刷数学公式、26849 个具有统一识别标注的公式文本,以及从论文中提取的 1169 个表格,以全面支持文档内容解析。据我们所知,该数据集首次实现了从宏观布局到微观元素的跨任务联合建模,突破了传统单任务数据集的局限,为构建下一代智能文档解析系统提供了必要的基础设施。

  • 可通过以下链接访问:https://github.com/MaxTEX310/UniOne。

  • 网盘下载:https://pan.quark.cn/s/c4509054d991

  • 百度网盘,关注公众号回复: UniOne 获取链接;


1 引言

图 1. UniDoc 数据集在文档解析领域可覆盖的范围
图 1. UniDoc 数据集在文档解析领域可覆盖的范围

当前文档解析技术的核心困境源于数据集的碎片化发展。学术界长期存在“任务孤岛”现象: 布局分析依赖于如 PubLayNet [1] 这样的纯布局数据集,文本检测依赖于 ICDAR 系列竞赛数据,而数学公式处理则使用如 CROHME [2] 和 IM2LATEX - 100K [3] 等数据集。目前这种各自为战的现状导致文档解析上下游环节的训练数据缺乏统一标准,一方面模型难以实现跨任务迁移;另一方面,布局元素之间的空间关联和语义联系在数据集层面被切断,使得文档的认知完整性在初始阶段就已丧失。

此外,这种碎片化的研究路径直接导致了技术栈的复杂性。在实际应用中,需要串联 4 - 5 个专用模型,且每个环节的误差累积使得最终结果的可靠性急剧下降。更严重的是,这种碎片化不仅存在于数据集层面,还延伸到模型架构和任务流程,形成了难以逾越的技术壁垒。

为了解决数据集碎片化发展带来的“任务孤岛”问题,我们构建的 Unione 数据集首次打破了这一僵局。该数据集实现了单个样本可以同时研究布局分析、文本行检测与识别、表格识别等上下游任务,同时,它补充了具有更长序列和更复杂空间布局的手写数学表达式、印刷数学表达式、公式文本统一标注数据集。更重要的是,在数据集层面系统地构建了上下游任务之间的关联。

2 UniOne

2.1 布局分析数据部分

图 2. 我们所倡导的文档布局元素划分
图 2. 我们所倡导的文档布局元素划分

根据语义功能和排版特征,我们将文档元素系统分为: 文本元素(8 个)、图形对象(2 个)、空间结构内容元素(典型代表是需要独立排版的数学表达式)。

布局分析数据集描述: 所处理的文档来自多种渠道,包括 arXiv、Sci - Hub、教科书、试卷等。不同子集的来源和构成如表 1 所示。值得注意的是,目前大多数主流布局分析数据集是基于英文文档构建的,但考虑到中文和拉丁语言在字符结构、排版规则等方面的系统性差异,本研究聚焦于中文文档场景,致力于填补该领域长期以来中文数据集的空白。

图 3. 布局分析数据示例,其中不同颜色代表不同类别的布局元素
图 3. 布局分析数据示例,其中不同颜色代表不同类别的布局元素

表 1. 类别及其对应标签的统计信息

类别 Label 总页数
英文理工科教材 ET 1268
英文学术论文 EA 762
中文理工科教材 CT 5311
中文通用文档 CN 4648
中文学术论文 CA 221
中汉英试卷 TP 2271

表 2. 子集分类类别的统计数据

subset Title Author Abstract Section Subsection Table Image Formula Text Footnote Algorithm
ET 18 16 1 229 90 106 1070 2898 14974 27 0
EA 43 44 42 518 355 167 322 661 6566 17 26
CT 50 8 1 2936 181 155 2672 21406 60421 24 0
CN 96 2 0 7325 1 545 2267 112 58135 0 0
CA 20 17 17 335 2 79 114 231 2146 19 8
TP 58 10 0 1767 1 267 957 231 22193 1 0
Count 285 97 61 13110 630 1319 7402 25539 164435 88 34

我们在 14481 页上总共标注了 236790 个段落框,并使用边界框准确捕捉了文本块的空间坐标和语义类别。数据以 YOLO 格式保存;同时,明确记录文档布局各元素的逻辑阅读顺序,YOLO 格式中的标注顺序即为阅读顺序。

2.2 文本检测数据集部分

我们提出了一种整体识别范式:这是一种突破性的方法,将嵌入式公式及其周围的常规文本视为一个统一的语义单元,并将传统流水线系统中分割、识别和关联这三个独立阶段整合为一个端到端的过程。在数据构建层面,本研究提出的整体识别范式需要重构数据标注系统以支持新的任务需求。在我们提出的布局分析数据集的基础上,我们进一步对 8 种类型的文本块进行了细粒度标注,增加了 340890 个行级标注单元,并在段落和行之间建立了双向层次关联。这种层次化标注架构不仅充分保留了布局元素的全局空间分布特征,还为 OCR 引擎从宏观布局划分到微观文本行粒度提供了增量解析路径。

图 4. 段落-行两级联合标注数据示例
图 4. 段落-行两级联合标注数据示例
图 5. 放大的段落-行两级标注数据
图 5. 放大的段落-行两级标注数据







请到「今天看啥」查看全文