qwen2-vl开源视觉模型在审计中的运用

逆行的狗 · 公众号 · 科技自媒体 · 2024-10-12 23:00

主要观点总结

文章介绍了阿里推出的开源视觉模型qwen2-vl及其在审计行业的应用。模型能够在本地电脑上运行，辅助完成合同识别、回函信息检查、发票识别和会计凭证审核等工作，并能以json格式输出信息。文章还提到不同AI模型可以替代人的基础工作，并提到了audit dog网站上的审计军火库迁移。

介绍了qwen2-vl模型在审计行业的应用，包括合同识别、回函信息检查、发票识别和会计凭证审核等场景，并强调了其能够替代部分基础审计工作的潜力。

阐述了AI模型如何辅助人的思考、分析和输出，从而替代基础审计工作。强调了不同AI模型（如大语言模型和视觉模型）的协同作用，以及它们在未来审计行业的潜力。

提到了qwen2-vl模型有大小两个版本，即使是较小的版本也能展现出很好的效果。同时强调了该模型能够很好地结合其他AI模型，共同辅助审计工作。

提到了审计军火库已经迁移至audit dog网站，但没有具体展开其内容和意义。

大语言模型相当于人的大脑，可以辅助人的思考、分析活动。

而视觉模型就相当于人的眼睛，可以辅助人去“看”、“检查”、“观察”。

如果再加上 agent 或者说一些自动化的程序来辅助人的手来输出，

那么基本上就可以完整的代替基础的审计民工了。

之前介绍过 Internvl 开源的视觉模型，当时由于它不能跑在我的 mac 电脑上，所以只是用的官方 demo 来进行的测试。

而今天，我想给大家介绍阿里出的 qwen2-vl 开源视觉模型，在自己本地的 mac 电脑上跑起来了，效果很好。

我还是以之前列举过的几个场景来体验下它的能力：

例如，这里有一份合同信息。对于审计来说，我们可能会让实习生去整理这些合同的信息录入到表格中，或者与公司凭证、台账进行检查。

而用这个模型，我们只需要动动嘴皮子就能轻松完成。

我告诉它“帮我提取出合同中甲方、乙方、日期、合同金额”

甚至，你可以直接让其以 json 格式输出给你：

这不就是那些商用接口提供的样式吗？

有这个能力，完全可以批量识别合同，将关键信息提取出来，输出成表格。

我们再以询证函回函检查为例，统计回函信息，很多时候也是实习生一个一个录的。

我直接提问：“请帮我提取出回函结论中，“信息不符，请列明不符项目及具体内容”单元格内的手写的文字信息。”

文字是全对的，数字金额有点不太对。毕竟是手写的，识别成这样其实不错了。

这有什么用呢？

目前各个所都建了函证中心，都有函证系统，那么完全可以调用这个模型的能力，

将回函信息提取出来，待审计人员审核检查并修订。