在银行多业务场景中,需要对业务文档进行关键信息的检索、提取、录入、审核。由于银行业务文档类型多样,涉及卡证、单据、合同、财报、保单等,
其中有很大一部分材料是非标准化的,文档版式多样,基于传统OCR、NLP技术,需要对每个版式进行单独的模型训练,信息自动化提取难度与成本都很大。
有一款AI工具,可以很好地解决这个问题!
合合信息TextIn平台推出的智能文档抽取产品
,依托自研的垂直领域语义模型,并结合了合合信息强大的文字识别、文档解析、文档检索和文本生成四项关键技术,让计算机模拟人类的推理方式,来识别在训练阶段从未见过的新事物,实现开箱即用的“零样本”抽取。
与以往通过标注训练实现文档结构化抽取不同,
用户只需在TextIn智能文档抽取中直接配置需要提取的关键字段,系统即可自动提取关键信息。
以往的传统标注训练方式下,需针对每一种不同版式进行大量的样本标注及模型训练,但很多文档的版式无法穷尽,不仅标注训练的工作量极大,效果也无法保证。
TextIn智能文档抽取基于海量的基础数据做预训练,泛化性强,具备处理能力强、高精度预测性能、强大的迁移学习能力等多重特点,可以兼容同类文档的不同版式,例如银行柜面单据、医疗单据、物流单据等。
非结构化文档抽取的瓶颈之一在于对文档复杂版面解析的准确性。对于复杂版式文档,
TextIn
智能文档抽取
基于版面分析引擎,能准确还原文档中的复杂表格、双栏排版、版面元素、篇章结构,支持解析还原无线表、少线表、合并表格、多栏表格,以此实现对各类复杂不固定版式文档的高精度抽取。
TextIn
智能文档抽取
依托的语义模型,
既具备通识能力,也具备不同行业的专项领域知识。
以如下公司点评类研报抽取为例。模型可理解“2022-2024年度”分别指2022、2023、2024年度,而不需要一一穷举,且可理解很长的上下文关系;全文没有出现“股票代码”这个Key字段,但模型可以准确推理出“603605”代表的是股票代码。
TextIn
智能文档抽取
支持抽取多种文件格式以及印刷体、手写体、印章、表格等多种信息类型。
TextIn
智能文档抽取
既支持单页的非标卡证、票据、表单,如海外invoice、国际信用证、电汇凭证、不动产权证等,也支持几十甚至上百页的长文档,如购销合同、借款合同、基金合同等。
银行可基于
TextIn
智能文档抽取产品
构建信贷材料信息智能提取能力,针对
公司金融部、普惠金融部、信贷管理部、授信评审部等部门业务场景下的30+类文档
,实现智能化的文档解析与抽取、历史文档的结构化,模型开箱即用,并无缝对接到业务系统。
2.国际结算业务
银行国际结算业务中,需要处理物流、资金流、信息流相关的大量纸质单据,这些非标复杂文档需要从非结构化数据转为结构化数据,面对着文档质量参差、单据版面复杂、抽取类型复杂、复杂表格还原等难点。
TextIn
智能文档抽取产品
支持抽取
国内/国际开立信用证、INVOICE、交易合同、PO单、进出口报关单、境内汇款申请书、提款通知书、贷款变更通知书、涉内外收入申报单、购汇申请书、信用证修改申请书、承兑通知书、海运提单、空运单、Packing list、原产地证明、保单
等超20种国际结算业务单据,且兼容不同文档版式。
同时,合合信息TextIn平台已上线
国际结算场景化模型
,内置保单、报关单、
INVOICE、PO单等单据类型的