开源AI视觉模型改变审计行业基础工作

逆行的狗 · 公众号 · · 2024-05-22 23:01

正文

在审计过程中大量数据处理、数据录入的基础工作占据一线人员很多时间。

而这中间无论是检查回函、合同、发票、凭证、监盘等等工作，本质上来说都是视觉活动。

也就是对图像信息的处理，加工，核对。

最近我发现一个开源的多模态 AI 模型，非常强大，也许能够改变审计一些基础工作的作业方式。

其实，在以前文章中我介绍过 paddleocr 或者一些商用接口，能够做到对特定票据的识别：

如合同、发票、票据等。

而今天介绍的模型是通用型的，一个打十个。

下面我们以几个场景来实际感受下这个模型：

例如，这里有一份合同信息。对于审计来说，我们可能会让实习生去整理这些合同的信息录入到表格中，或者与公司凭证、台账进行检查。

而用这个模型，我们只需要动动嘴皮子就能轻松完成。

我告诉它“帮我提取出合同中甲方、乙方、日期、合同金额”

甚至，你可以直接让其以 json 格式输出给你：

这不就是那些商用接口提供的样式吗？

有这个能力，完全可以批量识别合同，将关键信息提取出来，输出成表格。

我们再以询证函回函检查为例，统计回函信息，很多时候也是实习生一个一个录的。

我直接提问：“请帮我提取出回函结论中，“信息不符，请列明不符项目及具体内容”单元格内的手写的文字信息。”

可以看到基本是识别出来了，而且对于手写字识别效果是非常好了。

只是盖章遮挡区域，效果不佳。不过实际上可以先通过代码图像处理批量将印章先去除的。

这有什么用呢？

目前各个所都建了函证中心，都有函证系统，那么完全可以调用这个模型的能力，

将回函信息提取出来，待审计人员审核检查并修订。

这对于集团性大所来说，实际上很有意义，能节省大量人工。

对于这样一张发票，我们让它“以json格式提取发票信息”

可以得到：