在数字时代,高质量文本数据的获取对于推动语言模型的发展至关重要。
现代人工智能系统依赖于万亿级别的标记数据集来提高其准确性和效率。尽管大量数据来源于互联网,但其中相当一部分以PDF等格式存在,给内容提取带来了独特的挑战。
与易于解析的网页不同,PDF更注重视觉布局而非逻辑文本流程,这使得提取连贯的文本表示变得复杂。传统的光学字符识别(OCR)工具虽尝试解决这些问题,但其局限性阻碍了其在语言模型训练中的大规模应用。
PDF处理的主要问题在于,这些文档存储信息是为了视觉呈现而非逻辑阅读顺序。许多PDF在字符级别编码文本,记录每个字母的位置和字体属性,而没有保留句子结构。
这使得在多栏布局或包含嵌入式表格、图像和公式的文档中重建连贯的叙事变得困难。
此外,扫描的PDF引入了额外的挑战,因为它们包含的是图像格式的文本而非机器可读字符。从这类文档中提取结构化和有意义的内容需要专门的工具来理解文本和视觉元素。
为了解决从PDF中提取文本的问题,研究人员已经开发出多种方法。
早期的OCR技术如Tesseract提供了基本的字符识别,但在处理复杂布局方面存在困难。更近的方法包括基于管道的系统,这些系统将提取分为多个机器学习任务,如段落分割和表格识别。其中包括Grobid和VILA等工具,它们专为科学论文设计。
另一方面,端到端模型如Nougat和GOT Theory 2.0试图使用深度学习将整个PDF页面转换为可读文本。然而,许多系统成本高昂、不可靠或效率低下,不适合大规模应用。
艾伦人工智能研究所的研究人员推出了
olmOCR
,这是一个开源的Python工具包,旨在高效地将PDF文件转换为结构化纯文本,同时保留逻辑阅读顺序。
此工具包整合了文本信息和视觉信息,与传统的OCR方法相比,能够实现更高的提取精度。该系统基于一个70亿参数的视觉语言模型(VLM),该模型在从超过10万份独特文档中收集的260,000页PDF数据集上进行了微调。
与将PDF视为普通图像的传统OCR方法不同,olmOCR利用嵌入的文本及其空间位置来生成高保真的结构化内容。该系统针对大规模批量处理进行了优化,能够以成本效益的方式转换大量的文档库。其最显著的优势之一是,它只需190美元就能处理一百万页PDF,而同样的任务在GPT-4o上需要6,200美元,便宜了32倍。
olmOCR背后的核心创新是文档锚定技术,这是一种将文本元数据与基于图像的分析相结合的技术。与仅依赖于光栅化图像的端到端OCR模型不同,这种方法直接从PDF嵌入的数据中提取文本元素,并将它们与相应的视觉表示对齐。
这增强了模型识别复杂文档结构的能力,减少了错误并提高了整体的可读性。提取的内容使用Markdown格式化,保留了结构化元素,如标题、列表、表格和方程式。
此外,该系统采用微调技术来提高提取精度,利用专门为各种文档布局定制的数据集。模型训练过程涉及10,000次优化步骤,使用4个批次大小和1e-6的自适应学习率。olmOCR已被设计为可以无缝与推理框架如vLLM和SGLang一起运行。
该系统与其教师模型实现了0.875的对齐得分,超过了GPT-4o Mini等小型模型。在与其他OCR工具的直接比较中,olmOCR在准确性和效率上始终优于竞争对手。在人工评估中,该系统在领先的PDF提取方法中获得了最高的ELO评分。
此外,当使用olmOCR提取的文本对OLMo-2-1124-7B语言模型进行中期训练时,它在多个AI基准任务中平均提高了1.3个百分点的准确率。在ARC Challenge和DROP等数据集中观察到具体的性能提升,其中基于olmOCR的训练数据对语言模型理解能力的提升贡献显著。