金融场景中运营一体化的智能风控体系建设思路

DataFunTalk · 公众号 · · 2024-06-11 13:00

正文

导读：本文是一片复合型的文章，既包含具备运营一体化特色风控体系的建设思想，又包含对风控场景建设的思考。

1. 智能风控概念范畴

1.1 银行智能风控概念

银行风控平台是融合征信、工商、司法、舆情等丰富外部信息及银行内部数据，综合利用人工智能、大数据、知识图谱等技术，针对贷前、贷中、贷后全流程建立风险防控体系，实现风控策略智能化的一站式平台。当前，风控平台应用到反欺诈、运营风险、精准营销等业务领域。

1.2 各方需求和目标

促进经济发展。 政府在科技信贷、绿色金融、普惠金融等方面对银行有信贷指标考核。在此背景下，银行需要丰富企业信息渠道，建立清晰的企业画像和客观高效的风控模型，为工作人员开展客户准入、信用评级、授信审批、风险预警、贷后检查等工作提供决策支持。

做好金融本源。 银行为了做好“科技金融、绿色金融、普惠金融、养老金融、数字金融五篇大文章”，提升金融为经济社会发展提供高质高效服务的力度，尤其是小微金融/普惠金融部、风险管理部等部门需要丰富的数据维度来优化模型效果，提升业务支撑能力。

一 站式使用体 验。建模师等风控平台用户既要开发模型，又要测试和验证模型，如果能一站式的完成数据探索、模型开发与测试、便捷上线、运行评估、流程审批等工作，则能够达到快速迭代优化模型、快速见效的成绩。

2. 当前风控体系存在的挑战

2.1 外部数据的成本及使用率

外部数据包括第三方数据和政府类数据，其中第三方数据涉及多头借贷数据、征信相关数据以及B端相关的宏观数据、行业数据、舆情信息、涉诉信息等，政府类数据包括社保、缴费、税务等。

随着数据要素市场化推进、包年方式的数据服务越来越少，外部数据引入成本逐年攀高。因此需要我们实现对外部数据变量的精细化管理，具备量化每个变量的模型贡献度的能力，当需要根据模型来优化外部数据的采购范围的时候，能够最小化影响模型效果。

2.2 风控体系化建设之路漫长

一个好的风控体系要能够不断适应技术演变和业务发展，在特征衍生、变量加工、模型开发迭代、生命周期管理等方面满足用户需求，提升企业在模型管理、快速迭代方面推动差异化市场的竞争力。

需要便捷的特征加工及衍生。 有些性别、年龄、居住区域这类身份特征和基础信息特征是直接从数据中获取，另外一些特征就需要对原始数据进行汇总加工比如借款次数、额度使用占比等。

算法模型的应用比例提升空间大。 在风控场景中，运用神经网络、图神经网络等算法来预测用户的欺诈概率、违约概率、贷中风险发生的概率、贷后催收回款的概率。营销场景中，基于邻域的算法（协同过滤）等模型进行产品推荐，通过构建模型也可以来判断营销成交转化的概率、识别作弊的概率。

关系挖掘应用力度较弱。 专家规则可以筛选高风险或者显著特征的白名单客群，但只有规则覆盖是不够的，算法模型通过大量的隐形特征深挖具有区分能力的组合特征。

2.3 模型对外围支撑要求高

而当前大多数的风控系统已经能够将模型的开发迭代(MLOps)与风控系统的迭代(DevOps)分离，实现了敏捷的MLOps，但如果模型上线所依赖的变量仍需要通过硬编码开发(软件工程)获得，则会营销MLOps效果，这也是很多银行面临的问题，尤其是在实时特征方面。模型和变量不能完全敏捷，那就难以提高差异化的市场竞争力。

3. 建设运营一体化风控体系

3.1 外拓数据合作生态，内挖数据价值深度

用上图中的两个场景做直观类比，如果没有很好的数据支撑，无论使用了多么高大上的算法和模型，最终所发挥出来的作用都会差强人意，个人认为可以从以下方面丰富和扩大数据版图：

1）大力推动外部数据资源的获取。 外部数据包括第三方数据和政府类数据，通过直接与三方企业开展业务合作、产品建设、生态建设，特别是场景生态建设，有意识的去采集建模需要的数据。同时，结合社保、缴费、税务、不动产等政府类数据，加速积累数据资产，支撑风控维度、刻画客户画像等业务发展。本文将征信数据归属到外部数据的逻辑范畴，征信数据也是在风控模型中使用占比很高的数据，不再展开讨论。

2）完善数据资产，深挖数据价值。 银行内存储了身份信息、学历信息、设备相关信息（APP行为数据、设备指纹数据）等基础信息以及授信记录数据、还款记录数据等交易数据的内部数据，具有非常大的挖掘价值，也是低成本、高准确性切实支撑风控业务的数据。

3.2 提升风控系统的数据洞察力与模型试验能力

提供数据洞察探索能力。 Python语言中有强大的算法库，SQL又提供了强大的数据加工能力，但是如果一款界面化的工具，能够自动发现数据规律，揭示数据的内在联系，能够实现因果发现与推断，帮用户挖掘更深层次的数据关系。这样基本能解决80%的数据分析需求，是否很有优势？尤其是对机器学习平台、数据开发平台等配套技术设施尚不齐全的中小企业。

风控策略自动化生成能力。 SQL语言是用户比较喜欢的数据分析工具，通过得出的分析结果制定规则策略，但仍存在一定的技术门槛。如果产品能从一堆数据中自动进行数据分析，直接形成类似下图的策略，并且能将策略发送到风控平台，这将能大大节约建模师的探索成本，缩短策略模型生成周期。

提供模型运行评估能力。 模型与软件产品的不同点在于需要持续监控其运行效果，及时利用模型运行的回流数据自动生成标准的评估报告，持续推进模型迭代和效果提升。

3.3 拉齐特征/指标与模型迭代节奏

通过MLOps体系已经能够实现了模型的快速迭代优化及全生命周期管理，而模型所依赖的外部数据(API接入)、内部数据(SQL加工)、征信数据(固定格式报文)能否敏捷化，成为了MLOps体系的木桶短板，个人认为可以有以下两种解决方案：

1)特征市场化，而非需求化。 风控系统通过SQL读取相关数据库、通过API的方式调用外部数据及征信数据，然后进行轻度加工及衍生，最终将特征数据入模。操作难度在于企业要处于特征加工衍生的成熟阶段，新模型所需要的特征已经市场化存在，建模师只需要挑选即可，基本不用向科技部门提需求。弊端特征积累周期长，需要在风控系统内部构建特征市场，并且系统压力大、不利于特征共享和复用。

2)建设大一统的特征衍生平台。 建设中心化的拖拉拽式特征衍生和共享平台，用于组织、加工、衍生、存储和管理特征，在存储层面可以区分离线与实时特征，并且特征的衍生要脱离软件工程，以与模型投产保持一致步调。离线特征用于支撑报表、画像、用户增长、算法模型等使用场景，实时特征可以用来支撑实时推荐、实时风控等场景。另外，可以通过提供SDK的方式将离在线特征开放给不同语言的用户，用于特征验证、模型训练等场景。弊端是平台建设难度大、平台易成为链路上性能瓶颈、特征治理难度大。

金融场景中运营一体化的智能风控体系建设思路

正文

请到「今天看啥」查看全文