专栏名称: 逆行的狗
不会编程的军人不是好的审计员
目录
相关文章推荐
哔哩哔哩  ·  巨额花销,去国外旅拍婚纱照值吗? ·  21 小时前  
哔哩哔哩  ·  15万人口的小县城,办了一场最纯粹的漫展 ·  21 小时前  
哔哩哔哩  ·  懒人攻略:一周食材怎么储存 ·  昨天  
哔哩哔哩  ·  新晋百亿影帝小哪吒,要被UP主玩坏了 ·  昨天  
51好读  ›  专栏  ›  逆行的狗

如何不费实习生

逆行的狗  · 公众号  ·  · 2025-01-04 18:50

正文

又到年审了,

各项目组应该都抢完实习生了,

假如你也遇到这样的场景:







那么今天我们将介绍,如果利用 SW审计工具箱

针对合同录入的这个单一场景,

少费一点实习生,让他们保留一点对审计的好感。

运行工具箱

我们在工具箱中双击“文本文件关键信息提取”功能,

我们先点击“填写数据”,会自动打开一个Excel 配置表,我们进行参数配置。

配置完成后,我们保存Excel, 再点击“开始运行”,

待生成完成后,再点击“查看结果”,找到生成的文件。

配置表的填写

需要知道的是,工具是调用的目前国内最强的AI 大模型 deepseek v3 去提取文件中的关键信息。

我们需要填写的配置表如下:

整体来看,我们需要执行以下几个步骤:

将PDF转换成 txt 文件

出于节约钱的角度,我们不用大模型去作 ocr 转换。

你可以找一个能够 ocr 的工具(很多PDF软件都有这个功能),

批量将所有你需要处理的 pdf 转换成 txt 文件,

保存在一个文件夹下(可以多层级存放),

这个文件夹路径就是配置表中需要填写的“处理文件夹”路径。

获取 deepseek 的 api_key

这里我们由于需要调用 deepseek 大模型的 api 接口,

因此我们需要按照操作说明(配置表Excel 里有)进行注册,

拿到 api_key 。

这个过程不复杂,大概1-2 分钟就可以完成。

当然,你是需要去充值的(最低 10 元,个人可能都用不完),

但是它的接口调用费用非常低(目前每百万token是2元,1个汉字大约是1个token),

我测试下来,对于一份 4-5 页的合同,跑了44 份,花费了 0.1 元。

可以看出这个费用是非常低的,

这样的合同跑 1000 份,也就差不多 2-3 元钱。

填写 system prompt

配置表里填写“system prompt",

比如:我已经填写好了:

你是文件关键信息提取助手,我需要你根据我上传的文件,提取出我想要的关键信息,并以 json 格式输出

这个信息你可以不动它,当然你也可以自己调整,看怎么效果更好。

填写 role prompt

同样,你在配置表里填写“role prompt”,

我也给了你一个示例:

请提取出文件中以下字段:销售合同或销售订单编号,合同签订日期,合同期限,合同类型,合同标的,付款方式,结算依据,数量(吨),含税单价,金额,承担运输

这里你只需要修改下,针对你自己的文件中想提取的关键字段。

这样配置表中所有信息就填写完毕了。

我们可以直接保存配置表,在软件中点击“开始运行”

执行结果

执行时,会显示进度以及返回的提取关键信息:

等处理完毕后,点击“查看结果”,找到生成的文件:

可以看到从每个txt文件中提取出的关键信息。

人工修正

当然,受限于我们将 pdf ocr 转换成 txt 的效果,

有些文字识别不对的话,我们提取出来的信息有会有些问题。







请到「今天看啥」查看全文