专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

华科&华为发布首款基于国产芯片适配的多模态大模型“PDF悟空”，解析长文档多模态数据能力 SOTA

我爱计算机视觉 · 公众号 · · 2024-10-13 10:10

正文

关注公众号，发现CV技术之美

2024年10月，华中科技大学白翔团队与华为研究人员合作，推出了基于 国产芯片 的多模态文档大模型PDF-WuKong。

这一创新成果针对复杂多页PDF文档问答场景，提出了两项关键技术：端到端稀疏采样机制和多页PDF问答高质量数据生成方法。这些技术突破使得输入长度有限的多模态大模型能够有效处理理论上无限长的PDF文档，实现深度理解和精准问答。

PDF-WuKong不仅解决了现有多模态大模型难以处理长PDF文档的技术难题，其性能还超越了多个知名的国际闭源商业产品，该成果展示了国产芯片在支持复杂大模型应用方面的实力。

在大模型技术快速发展的今天，处理复杂的多页PDF文档仍然是一个重大挑战。学术文献、技术报告等长篇PDF文档通常包含文本、图表、公式等多模态内容，这种复杂性使得现有的AI模型难以全面理解和处理。

目前，处理多页PDF文档主要有两种主流技术路线：纯语言模态和纯视觉模态。纯语言模态方法将PDF文档中的所有信息转换为文本，然后使用长文本技术（如位置编码外推或稀疏注意力机制）或检索增强生成（如Self-RAG）技术进行处理。这种方法虽然可以应对长文档，但难以充分理解文档中的视觉元素。

另一方面，纯视觉模态方法擅长处理文档中的图像和视觉布局，但在面对长文档时计算成本极高（特别是对于高分辨率的文档图片），且难以有效捕捉页面间的上下文关系。

事实上，长篇文档中大量的冗余信息不仅增加模型推理的成本，也会使模型对于文档的理解带来干扰。为了解决这些问题，PDF-WuKong引入了稀疏采样器，通过对文档中最相关的文本段落或图表进行稀疏采样，显著减少输入的冗余信息。

然而，要实现这一目标，仍然面临一个核心问题：缺乏用于有效训练和评估多模态模型处理长文档能力的数据集。

为此，文章提出了一种高质量PDF文档问答数据的生成方法，并基于此方法构建并开源了全新数据集PaperPDF，专门用于模型训练和长文档理解能力的评估。

为了实现对长篇PDF文档的多模态理解，并克服现有模型仅将PDF文档视为纯文本或图像单一模态的局限性，作者提出了PDF-WuKong。其核心动机在于，用户的查询通常只涉及文档中的少量文本块或图表。

因此，为了提升多模态大模型（MLLM）的准确性和效率，文章设计了一种稀疏采样器，并将其与多模态大模型进行了端到端的集成。

PDF-WuKong的核心结构包括三个主要部分：文档解析，稀疏采样和答案生成。

在训练过程中，稀疏采样器和大语言模型可以通过端到端方式进行联合优化。稀疏采样器不仅提高了长文档的处理效率，还提升了模型的解释性。

在长篇PDF文档的问答场景中，问题的答案通常只涉及文档的一部分内容。这种情况下，模型需要具备识别并提取相关内容的能力，以提高推理的准确性。

然而，现有的文档问答数据集大多局限于单页文档或单一证据的问题，无法支持多页文档的处理，且缺乏复杂的多证据推理场景。这些局限使得训练像稀疏采样器这样的技术变得困难。

为了解决这一问题，作者提出了一种可靠的长文档高质量问答对生成方法，并基于此方法构建了PaperPDF数据集，用于模型的训练和评估。数据生成的过程大体分为文档解析、规则抽取、指令构建以及后续的数据过滤。

文档解析： 使用开源工具Grobid对从arXiv等来源获取了大约89,000篇PDF学术论文进行解析，将其拆分为多个文本块（如段落）和图像块（如图表）
规则抽取： 使用预定义的规则随机选择部分解析出的文本块和图像块
指令构建： 根据不同类型问答数据相应的提示模板构建生成提示送入现有的多模态大模型产品（如Gemini、GPT4v）产生相应的问题和答案
数据过滤： 使用一系列自动化规则过滤生成的训练集，例如去除问题过短、答案过长或非英文的样本；人工检查生成的测试集确保评估的准确性。