专栏名称: 逆行的狗
不会编程的军人不是好的审计员
目录
相关文章推荐
爱可可-爱生活  ·  【[122星]funtrace:一款为C/C ... ·  14 小时前  
机器之心  ·  DeepSeek ... ·  昨天  
AI前线  ·  20万卡吞金兽 Grok 3 ... ·  2 天前  
爱可可-爱生活  ·  Andrej Karpathy 对 ... ·  2 天前  
51好读  ›  专栏  ›  逆行的狗

大模型+RPA的审计落地场景之AI帮你看单据

逆行的狗  · 公众号  · AI  · 2024-09-05 23:09

主要观点总结

本文主要介绍了使用多模态模型对手写单据图片进行识别的场景。文章首先展示了出库单扫描件,并提到了其中的干扰因素。接着介绍了影刀AP中支持的多模态大模型,包括OpenAI、清华智谱和Claude,并提到了模型选择中的国产模型以减少数据出境风险。文章还详细描述了这些模型在识别日期和出库单中文字的场景中的表现,并给出了示例。最后,文章介绍了如何使用影刀RPA来批量处理文件,并提到图片预处理的重要性。文章以AI的能力越来越强、成本和门槛越来越低作为结尾,指出未来很多简单且消耗人力的事可以使用AI来完成。

关键观点总结

关键观点1: 介绍多模态模型在手写单据识别中的应用

文章展示了使用多模态模型识别手写单据图片的方法,并提到了其中的干扰因素。

关键观点2: 影刀AP支持的多模态大模型

文章介绍了影刀AP中支持的多模态大模型,包括OpenAI、清华智谱和Claude,并强调了国产模型的选择以减少数据出境风险。

关键观点3: 模型在识别日期和出库单中文字的表现

文章详细描述了这些模型在识别日期和出库单中文字的场景中的准确性,并通过示例进行了说明。

关键观点4: 使用影刀RPA处理文件

文章介绍了如何使用影刀RPA来批量处理文件,包括获取文件路径、发送文件给AI和回写AI结果等步骤。

关键观点5: AI的发展对简单任务的影响

文章以AI的能力越来越强、成本和门槛越来越低作为结尾,指出未来很多简单且消耗人力的事可以使用AI来完成,并提到了图片预处理的重要性。


正文

点击上方蓝色字关注我们!



上回我们详细介绍了AI分辨6+10的场景,使用的是纯文字模型,没看到的可以点击传送门: 大模型+RPA的审计落地场景之6+10票据识别

那么这次我们来使用多模态的模型对手写的单据图片进行识别吧


首先看看我准备的出库单扫描件,手机扫描全能王直出:

在出库日期上还有一个墨坨坨作为干扰


再看下影刀AP中支持哪些多模态大模型,他们的能力如何:

模型的选择上有3个,分别是OpenAI,清华智谱,Claude,其中有一个国产模型,好评,这样能减少数据出境的风险,可惜通义的多模态没进来


能力上:

在日期识别的场景中,3个模型都很准确, 即使有个墨坨坨,依然能分辨出准确的日期是多少 ,如果是传统OCR的话,估计会多一个0或者8


那么除了识别日期外,再试试识别出库单中文字的场景:

文字的识别中, 清华智谱 基于中文训练,效果会比OpenAI和 Claude 的模型好,我们看下


示例:

提示词:请将该出库单中的产品名称填至下列列表中[xxx,xxx]

清华智谱能准确识别电脑、平板


GPT4o识别为了咖啡豆、手抄本


Claude识别为面包、牙签



确定了AI大模型的能力和提示词以后,只用把文件批量喂给AI,再拿到他产出的数据就行了


依然用影刀RPA来完成这件事,9行代码:







请到「今天看啥」查看全文