原文:
https://z
huanlan.zhihu.com/p/7783443583
在使用多模态大模型(Visual Language Model, VLM)做视觉信息抽取时,常常出现错字的问题。
为了解决这一问题,本文提出了一种名为
Guidance OCR
的方法。
该方法在
不额外训练模型
的情况下,先利用OCR算法获取图片中的文字内容,再利用OCR识别出的文字对VLM的生成过程进行约束,从而一定程度上减少VLM做视觉信息抽取任务时出现错字的情况。
图1:一张医疗发票,其中的敏感信息已被抹去
使用Qwen2-VL-2B模型抽取图1中的信息时,模型原生回答和使用GuidanceOCR后的回答见下表
项目链接:
一、项目背景
视觉信息抽取任务是给定一张单证图片,并从图片中抽取对应的关键字段,如从图1所示的医疗发票中抽取金额合计,住院时间和医保类型。传统的信息抽取模型先利用OCR算法获取图中的文字位置和文字内容,再利用规则引擎或模板匹配获取关键字段。VLM则可以将图片先输入给模型,再用提问题的方式要求模型给出需要抽取的字段。
在开放场景的信息抽取中,由于单证板式太多,规则引擎难以维系,因此常常使用基于VLM的方案
。
图2:传统信息抽取流程和多模态大模型(VLM)做视觉信息抽取任务的流程图(以抽取合计金额,医保类型为例)
在实际使用时,为了避免显存OOM,VLM常常会将输入的图像大小限制在一定范围。因此VLM在视觉信息抽取任务中,可能会由于文字太小,模糊不清而给出错误的答案。OCR模型分为检测和识别两部分,检测模型负责给出图中的文字位置,而识别模型会根据检测模型给出的文字位置,将图片中的文字一一裁剪下来,并缩放到指定大小,再去识别文字内容。因此传统OCR模型的识字能力通常是高于多模态大模型的识字能力的。
图3:OCR模型的PipeLine
可以看到,同样是"票据代码",输入多模态大模型的分辨率是 16 * 48,而输入传统OCR识别模型的分辨率则为 48 * 320。
该特性导致在视觉信息抽取任务中,若使用VLM抽取图中较小的字段,会出现错字的问题,而传统OCR模型则基本都能识别出正确的文字
。
为了解决该问题,本文提出了名为Guidance OCR的算法,
该算法在不额外训练模型的情况下,先利用OCR算法获取图片中的文字内容,再利用OCR识别出的文字对VLM的生成过程进行约束,从而一定程度上减少VLM做视觉信息抽取任务时出现错字的情况
。
二、算法流程
本节将先介绍GuidanceOCR的任务设定,再介绍单个字段信息抽取的算法流程(一次调用VLM只抽取图片中的一个关键字段),最后在介绍多个字段信息抽取的算法流程(一次调用VLM会抽取图片中的多个关键字段,并以Json格式返回结果)。
GuidanceOCR的任务设定
图4:Guidance OCR的输入输出,以及视觉信息抽取任务中常见的三种Case
如图4左侧所示,Guidance OCR会将OCR识别出的文字,需要抽取的字段和对应的图片作为输入,并利用多模态大模型(VLM)获取信息抽取结果。Guidance OCR为测试时增强算法(Test Time Argument, TTA), 其并不要求对VLM进行额外的训练。
如图4右侧所示,视觉信息抽取任务有三种常见的情况即:
-
• 1.需抽取的字段为单个文本框,即为图4左侧OCR Text列表中的某个字符串
-
• 2.需抽取的字段横跨多个文本框,即为图4左侧OCR Text列表中的多个字符串,按特定顺序组合而成
-
• 3.需抽取的字段为文本框中的某一部分,即为图4左侧OCR Text列表中的某个字符串的子串
单个字段的信息抽取
在单个字段信息抽取的场景下,多模态大模型的Prompt和Response的要求如下
图5:Guidance OCR的算法流程,其本质为基于OCR的Token判别器
图5给出了Guidance OCR的算法流程:在VLM每次生成Token的时候,先将候选的token按logit从大到小进行排序(图5 左侧);再使用基于OCR的token判别器逐个判断候选Token是否合法(图五 中间);找到的第一个合法Token即为VLM该次生成的Token(图5 右侧);在进行下一次生成候选token前,Guidance OCR还会根据此次生成的Token更新基于OCR的Token判别器(图5 虚线部分)。
图6:基于OCR的Token判断器,其结构为OCR识别出的字符串组成的字典树
图6给出了基于OCR的Token判别器中的数据结构。在该字典树中,每个被OCR识别出的字符串的开头节点和结尾节点都特殊标识了出来。在介绍如何根据该字典树判断Token是否合法前,我们需要先定义
字典树上连续的一条边
字典树上连续的一条边
:
被token判别器判定为合法的候选token必须满足
: