专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
91产品  ·  Deepseek本地部署RAG知识库教程 ·  2 天前  
纯银V  ·  上午聊到我的几个同学,都是 50 ... ·  3 天前  
51好读  ›  专栏  ›  DataFunTalk

金融场景中运营一体化的智能风控体系建设思路

DataFunTalk  · 公众号  ·  · 2024-06-11 13:00

正文

导读:本文是一片复合型的文章,既包含具备运营一体化特色风控体系的建设思想,又包含对风控场景建设的思考。

1. 智能风控概念范畴

1.1 银行智能风控概念

银行风控平台是融合征信、工商、司法、舆情等丰富外部信息及银行内部数据,综合利用人工智能、大数据、知识图谱等技术,针对贷前、贷中、贷后全流程建立风险防控体系,实现风控策略智能化的一站式平台。当前,风控平台应用到反欺诈、运营风险、精准营销等业务领域。

1.2 各方需求和目标

促进经济发展。 政府在科技信贷、绿色金融、普惠金融等方面对银行有信贷指标考核。在此背景下,银行需要丰富企业信息渠道,建立清晰的企业画像和客观高效的风控模型,为工作人员开展客户准入、信用评级、授信审批、风险预警、贷后检查等工作提供决策支持。

做好金融本源。 银行为了做好“科技金融、绿色金融、普惠金融、养老金融、数字金融五篇大文章”,提升金融为经济社会发展提供高质高效服务的力度,尤其是小微金融/普惠金融部、风险管理部等部门需要丰富的数据维度来优化模型效果,提升业务支撑能力。

站式使用体 验。 建模师等风控平台用户既要开发模型,又要测试和验证模型,如果能一站式的完成数据探索、模型开发与测试、便捷上线、运行评估、流程审批等工作,则能够达到快速迭代优化模型、快速见效的成绩。

2. 当前风控体系存在的挑战

2.1 外部数据的成本及使用率

外部数据包括第三方数据和政府类数据,其中第三方数据涉及多头借贷数据、征信相关数据以及B端相关的宏观数据、行业数据、舆情信息、涉诉信息等,政府类数据包括社保、缴费、税务等。

随着数据要素市场化推进、包年方式的数据服务越来越少,外部数据引入成本逐年攀高。因此需要我们实现对外部数据变量的精细化管理,具备量化每个变量的模型贡献度的能力,当需要根据模型来优化外部数据的采购范围的时候,能够最小化影响模型效果。

2.2 风控体系化建设之路漫长

一个好的风控体系要能够不断适应技术演变和业务发展,在特征衍生、变量加工、模型开发迭代、生命周期管理等方面满足用户需求,提升企业在模型管理、快速迭代方面推动差异化市场的竞争力。

需要便捷的特征加工及衍生。 有些性别、年龄、居住区域这类身份特征和基础信息特征是直接从数据中获取,另外一些特征就需要对原始数据进行汇总加工比如借款次数、额度使用占比等。

算法模型的应用比例提升空间大。 在风控场景中,运用神经网络、图神经网络等算法来预测用户的欺诈概率、违约概率、贷中风险发生的概率、贷后催收回款的概率。营销场景中,基于邻域的算法(协同过滤)等模型进行产品推荐,通过构建模型也可以来判断营销成交转化的概率、识别作弊的概率。

关系挖掘应用力度较弱。 专家规则可以筛选高风险或者显著特征的白名单客群,但只有规则覆盖是不够的,算法模型通过大量的隐形特征深挖具有区分能力的组合特征。

2.3 模型对外围支撑要求高

而当前大多数的风控系统已经能够将模型的开发迭代(MLOps)与风控系统的迭代(DevOps)分离,实现了敏捷的MLOps,但如果模型上线所依赖的变量仍需要通过硬编码开发(软件工程)获得,则会营销MLOps效果,这也是很多银行面临的问题,尤其是在实时特征方面。模型和变量不能完全敏捷,那就难以提高差异化的市场竞争力。

3. 建设运营一体化风控体系

3.1 外拓数据合作生态,内挖数据价值深度

用上图中的两个场景做直观类比,如果没有很好的数据支撑,无论使用了多么高大上的算法和模型,最终所发挥出来的作用都会差强人意,个人认为可以从以下方面丰富和扩大数据版图:

1)大力推动外部数据资源的获取。 外部数据包括第三方数据和政府类数据,通过直接与三方企业开展业务合作、产品建设、生态建设,特别是场景生态建设,有意识的去采集建模需要的数据。同时,结合社保、缴费、税务、不动产等政府类数据,加速积累数据资产,支撑风控维度、刻画客户画像等业务发展。本文将征信数据归属到外部数据的逻辑范畴,征信数据也是在风控模型中使用占比很高的数据,不再展开讨论。

2)完善数据资产,深挖数据价值。 银行内存储了身份信息、学历信息、设备相关信息(APP行为数据、设备指纹数据)等基础信息以及授信记录数据、还款记录数据等交易数据的内部数据,具有非常大的挖掘价值,也是低成本、高准确性切实支撑风控业务的数据。

3.2 提升风控系统的数据洞察力与模型试验能力

提供数据洞察探索能力。 Python语言中有强大的算法库,SQL又提供了强大的数据加工能力,但是如果一款界面化的工具,能够自动发现数据规律,揭示数据的内在联系,能够实现因果发现与推断,帮用户挖掘更深层次的数据关系。这样基本能解决80%的数据分析需求,是否很有优势?尤其是对机器学习平台、数据开发平台等配套技术设施尚不齐全的中小企业。

风控策略自动化生成能力。 SQL语言是用户比较喜欢的数据分析工具,通过得出的分析结果制定规则策略,但仍存在一定的技术门槛。如果产品能从一堆数据中自动进行数据分析,直接形成类似下图的策略,并且能将策略发送到风控平台,这将能大大节约建模师的探索成本,缩短策略模型生成周期。

提供模型运行评估能力。 模型与软件产品的不同点在于需要持续监控其运行效果,及时利用模型运行的回流数据自动生成标准的评估报告,持续推进模型迭代和效果提升。

3.3 拉齐特征/指标与模型迭代节奏

通过MLOps体系已经能够实现了模型的快速迭代优化及全生命周期管理,而模型所依赖的外部数据(API接入)、内部数据(SQL加工)、征信数据(固定格式报文)能否敏捷化,成为了MLOps体系的木桶短板,个人认为可以有以下两种解决方案:

1)特征市场化,而非需求化。 风控系统通过SQL读取相关数据库、通过API的方式调用外部数据及征信数据,然后进行轻度加工及衍生,最终将特征数据入模。操作难度在于企业要处于特征加工衍生的成熟阶段,新模型所需要的特征已经市场化存在,建模师只需要挑选即可,基本不用向科技部门提需求。弊端特征积累周期长,需要在风控系统内部构建特征市场,并且系统压力大、不利于特征共享和复用。

2)建设大一统的特征衍生平台。 建设中心化的拖拉拽式特征衍生和共享平台,用于组织、加工、衍生、存储和管理特征,在存储层面可以区分离线与实时特征,并且特征的衍生要脱离软件工程,以与模型投产保持一致步调。离线特征用于支撑报表、画像、用户增长、算法模型等使用场景,实时特征可以用来支撑实时推荐、实时风控等场景。另外,可以通过提供SDK的方式将离在线特征开放给不同语言的用户,用于特征验证、模型训练等场景。弊端是平台建设难度大、平台易成为链路上性能瓶颈、特征治理难度大。







请到「今天看啥」查看全文