专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

字节联合复旦重磅推出LayTextLLM！交错融合布局信息，文档理解能力再创新SOTA！

3D视觉工坊 · 公众号 · · 2024-08-08 07:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

编辑：3DCV

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

引言

在文档理解任务中，目前的主流方案普遍使用端到端的多模态大语言模型。但是，此类方法对图片的输入分辨率有很高的要求，因此需要较强的视觉基座。这也成为了多模态大语言模型(MLLM)在文档理解任务中的瓶颈。文档理解作为text-rich的任务，实际发挥作用的信息大部分都来自于文字语义及其相对的布局信息。因此，利用成熟的OCR技术获得文字和布局（Layout）信息(即：文字坐标)并轻量级地扩展LLM，使其能够根据语义以及Layout信息来做预测。该方案也是解决文档理解的一条可行道路[1]，即Layouts as “Lightweight Visual Information”。

论文地址：https://arxiv.org/pdf/2407.01976

方法（LayTextLLM）

针对上述问题，我们提出LayTextLLM方案（A Bounding Box is Worth 1 Token: Interleaving Layout and Text in a Large Language Model for Multimodal Document Understanding）

模型设计

模型依然采用Interleave的方式输入文本和布局信息，该方法能最大程度的利用LLM自回归的特性。
与此前工作均不同的是，我们使用Embedding的方式嵌入布局信息，而非文本token的形式。该方法有效的规避了Coordinate-as-Tokens的长序列以及需借助大参数量模型的缺点。

具体的模型整体架构如上图。待处理的文档图像输入给OCR工具完成文本和对应坐标框（采用左上和右下的四维坐标）的识别。其中，文本信息借助于语言模型的Tokenizer处理为对应的文本Token；对于坐标框，我们提出SLP（Spatial Layout Projector），其简单地使用一个Linear Projector将4维的正则化坐标映射成高维(即LLM embedding size)的坐标表示，而后和文字token作交错的拼接并送入语言模型。本文所提出的方法既能高效地表示坐标并减少Token数目，同时利用了语言模型自回归特性。此外，在LLM部分的设计，我们参考了InternLM-Xcomposer2，使用P-LoRA的路由方式，新增参数量较少。

训练方式

预训练（Layout-aware Next Token Prediction）参考传统LLM的语言模型预训练，本文采用自回归方式预测整个输入的序列。不同于此前的预训练过程，提出的Layout-aware Next Token Prediction预训练方式当遇到需预测坐标占位符的Token时(下图中的"b")，不计算相应Token的损失。在预训练阶段，LLM参数被冻结，仅优化Layout Projector和新增的P-LoRA参数。得益于所提出的Self-supervised的预训练方式，预训练数据非常容易获得。

微调（Shuffled-OCR Supervised Fine-tuning）现有LLM使用的主流位置编码Rotatory Embedding往往倾向于使得在序列上越接近的Token，越容易获得更大的Attention Score。因此，在图3的例子中，如果提问"What is the value of the field Change?"（蓝色框），模型很容易识别出正确结果"1.30"，因为它在序列中紧挨“Change”一词。然而，对于一个更具挑战性的问题，如"What is the value of the field Total(RM)? "（红色框），由于"Total(RM)"后有多个紧跟输入的数字文本Token，模型很难确定正确的答案。

为了使模型更多的依靠坐标框的布局信息而不是Rotatory Embedding提供的位置信息来预测, 在训练过程中，我们随机打乱了20%样本的OCR输入顺序。其他训练设置与传统LLM的SFT方式基本一致：给定Prompt，自回归预测问题的答案序列，且该阶段全部参数参与训练。

实验结果

实现细节

实验主要基于英文，预训练数据使用DocBank全部数据以及IIT-CDIP Test Collection 1.0随机采样的部分数据，合计约1.5M documents。Zero-shot实验中，数据来自LayoutLLM中提供的Document Dense Description (DDD) and Layout-aware SFT数据，该数据均为GPT4生成的合成数据。SFT实验中，除DDD和Layout-aware SFT数据，我们还引入了下游测试数据对应的训练数据。下游测试数据包含VQA任务（DocVQA, InfoVQA, ChartQA, VisualMRC）和KIE任务（SROIE, CORD, FUNSD, POIE）。对于所有数据集，我们使用原数据集提供的word-level的OCR结果，以确保实验的公平性。

比较OCR-free方案

如图4所示（*代表对应数据集的训练数据被使用），对比OCR-free的MLLM方案，提出的方法在VQA和KIE的任务上均有大幅度提升。其中，VQA任务上，提出的方法甚至可以超过SOTA MLLM使用SFT数据后的性能(+5.1%)；KIE任务上，提出的LayTextLLM大幅超过SOTA MLLM模型的Zero-shot性能（+27%）。此外，LayTextLLM经过SFT训练后，其性能大幅度提升, 相比于SOTA MLLM的SFT效果提升近24%。

比较OCR-based方案

我们还比较了其他OCR-based的方案，例如：DocLLM。如图5所示，在VQA和KIE两个任务上, LayTextLLM的Zero-shot效果均与DocLLM SFT后的模型效果相当。经过SFT后，LayTextLLM在两类数据集上性能均大幅度超过DocLLM。具体地，在KIE任务中，LayTextLLM 相较于DocLLM性能提升超过15%

输入长度比较

可以看到LayTextLLM的输入长度基本小于或者持平DocLLM，远小于coor-as-tokens的方案。图7能看出，在输入长度最小的情况下，LayTextLLM取得更高的精度。

解码回坐标

我们在内部的KIE数据集上测试了LayTextLLM，要求模型以文本格式输出值文本及其对应的边界框，例如 "Oct 10[66,1,70,15]"。我们发现，要求模型输出坐标提高了精确度，如图8所示。我们任务要求输出坐标，强调了模型需要在输入中搜索对应信息，从而缓解了幻觉问题。此外，模型学会了组合和减去坐标。例如，如果输出文本来自两行OCR输入，模型会组合对应的OCR坐标。相反，如果输出是输入OCR文本的子串，模型将相应地输出调整后的坐标。

总结

文本提出 LayTextLLM 用于各类文档理解任务，例如Document-oriented VQA和KIE。在这些任务中，空间布局与文本数据均起至关重要的作用。本文通过引入Spatial Layout Projector，使模型对布局信息的感知更加精确。此外，我们设计了两个定制的训练任务（Layout-aware Next Token Prediction和Shuffled-OCR Supervised Fine-tuning），旨在提高对文档布局的理解。大量的实验结果也表明LayTextLLM 在文档理解任务中的有效性。

参考文献

[1] Wang, D., Raman, N., Sibue, M., Ma, Z., Babkin, P., Kaur, S., Pei, Y., Nourbakhsh, A. and Liu, X., 2023. DocLLM: A layout-aware generative language model for multimodal document understanding. arXiv preprint arXiv:2401.00908.
[2] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F. and Zhou, M., 2020, August. Layoutlm: Pre-training of text and layout for document image understanding. In Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining (pp. 1192-1200).
[3] Wang, D., Raman, N., Sibue, M., Ma, Z., Babkin, P., Kaur, S., Pei, Y., Nourbakhsh, A. and Liu, X., 2023. DocLLM: A layout-aware generative language model for multimodal document understanding. arXiv preprint arXiv:2401.00908.
[4] Perot, V., Kang, K., Luisier, F., Su, G., Sun, X., Boppana, R.S., Wang, Z., Mu, J., Zhang, H. and Hua, N., 2023. LMDX: Language Model-based Document Information Extraction and Localization. arXiv preprint arXiv:2309.10952.
[5] He, J., Wang, L., Hu, Y., Liu, N., Liu, H., Xu, X. and Shen, H.T., 2023. ICL-D3IE: In-context learning with diverse demonstrations updating for document information extraction. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 19485-19494) .

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：