本文主要介绍了使用多模态模型对手写单据图片进行识别的场景。文章首先展示了出库单扫描件,并提到了其中的干扰因素。接着介绍了影刀AP中支持的多模态大模型,包括OpenAI、清华智谱和Claude,并提到了模型选择中的国产模型以减少数据出境风险。文章还详细描述了这些模型在识别日期和出库单中文字的场景中的表现,并给出了示例。最后,文章介绍了如何使用影刀RPA来批量处理文件,并提到图片预处理的重要性。文章以AI的能力越来越强、成本和门槛越来越低作为结尾,指出未来很多简单且消耗人力的事可以使用AI来完成。
文章介绍了影刀AP中支持的多模态大模型,包括OpenAI、清华智谱和Claude,并强调了国产模型的选择以减少数据出境风险。
文章介绍了如何使用影刀RPA来批量处理文件,包括获取文件路径、发送文件给AI和回写AI结果等步骤。
文章以AI的能力越来越强、成本和门槛越来越低作为结尾,指出未来很多简单且消耗人力的事可以使用AI来完成,并提到了图片预处理的重要性。
上回我们详细介绍了AI分辨6+10的场景,使用的是纯文字模型,没看到的可以点击传送门:
大模型+RPA的审计落地场景之6+10票据识别
那么这次我们来使用多模态的模型对手写的单据图片进行识别吧
首先看看我准备的出库单扫描件,手机扫描全能王直出:
在出库日期上还有一个墨坨坨作为干扰
再看下影刀AP中支持哪些多模态大模型,他们的能力如何:
模型的选择上有3个,分别是OpenAI,清华智谱,Claude,其中有一个国产模型,好评,这样能减少数据出境的风险,可惜通义的多模态没进来
能力上:
在日期识别的场景中,3个模型都很准确,
即使有个墨坨坨,依然能分辨出准确的日期是多少
,如果是传统OCR的话,估计会多一个0或者8
那么除了识别日期外,再试试识别出库单中文字的场景:
在
文字的识别中,
清华智谱
基于中文训练,效果会比OpenAI和
Claude
的模型好,我们看下
示例:
提示词:请将该出库单中的产品名称填至下列列表中[xxx,xxx]
清华智谱能准确识别电脑、平板
GPT4o识别为了咖啡豆、手抄本
Claude识别为面包、牙签
确定了AI大模型的能力和提示词以后,只用把文件批量喂给AI,再拿到他产出的数据就行了
依然用影刀RPA来完成这件事,9行代码: