信用评分模型是最常见的金融风控手段之一,它是指根据客户的各种属性和行为数据,利用一定的信用评分模型,对客户进行信用评分,据此决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。
信用评分模型的开发流程包括模型的总体构想、选择合适的样本空间、清洗整理数据、确定预测变量、制定评分模型、评估和检验模型效果、实施优化模型等七个步骤。
按模型的实证化程度划分,模型的建立方法可分为三种类型:
即采用统计方法从历史数据中推演出来的模型,主要采用多元线性回归分析、逻辑回归分析等线性分析技术和最近邻方法、神经网络模型等非线性分析技术,通过科学、严密的分析流程而建立。
即由专家判断和机构经验形成的模型,主要依靠信用评分人员的经验判断,形成简单的信用评分体系,一般遵循5C原则:
品行(Character)、偿还能力(Capacity)、资本(Capital)、抵押(Collateral)与环境(Condition)。
选取某地区两三年间的所有贷款申请人(包括“好客户”、“坏客户”及被拒绝的申请客户)。
数据质量的好坏是决定建立的模型能否成功的关键因素。
在确定了数据来源之后,由于所采集的数据资料来源广泛,数据量大,抽取所耗时间较长,就需要在大量的原始数据基础上,根据业务的需求、数据结构、性质及内在逻辑性,对大量的数据进行归纳分类、合并、分组。
即不同来源的数据对同一个概念有不同的表示方法,在集成多个数据来源时,需要消除数据结构上的这种差异。
此外,对于相似或重复记录,需要检测并且合并这些记录,最终建立数据集合(或称数据仓库)。
数据经过整理之后进行数据分析,找出数据内在的关联性,并经过对样本变量的调整,选择具有较强预测能力的变量。
如果是连续型变量,就是要寻找合适的分界点,将所有变量分为几个区间以使其具有最强的预测能力。
例如,客户年龄是连续型变量,通过研究如何按年龄分组、每组分界点在哪里以达到最优的预测能力。
如果是离散型变量,那么每个变量值都会有一定的预测能力,但是考虑到可能一些变量值有相似的预测能力,因此也要进行分组。
之后是选取变量,即从整个指标体系中选出最终量化模型所需要使用的一组解释变量,其过程大致为:
(1)用所有变量分别对违约记录进行单变量回归,
找出对违约解释能力最强的单个变量。
(2)再将该变量与每单个剩余变量组合后再对违约记录进行双因素回归,
找出对违约解释能力最强的两个变量。
(3)将这两个变量再与每单个剩余变量进行三因素回归,
找出对违约解释能力最强的三个变量。
(4)不断重复以上过程直到所选择的变量个数达到预定的违约解释能力。
通过前面的分组产生了最新的数据集合,就可以应用逻辑回归运算建立初始回归模型。
在回归模型的基础上,运用概率与分数之间的转换算法把概率转换成分数进而得到初始评分卡。
下一步要将初始评分卡进行拒绝推论。
拒绝推论是指由于申请被拒的客户的数据没有输入评分系统内,导致样本的选取非随机,整体信用情况被改变,降低了信用评分模型的有效性。
因为信用评分模型是用来评价未来所有申请贷款的客户的信用,则样本必须能够代表所有的申请贷款的群体,而不仅只代表信用质量较好、通过审批的那部分客户的信用状况,所以样本必须包括历史上没有通过审批的客户,否则,样本空间本身就会出现系统性扭曲。
运用拒绝推论时,由于这部分被拒绝的客户信用表现是无法获得的,只能运用一定的统计手段进行推测。
推测的方法有很多,可以通过信用评分卡对被拒绝的申请人打分,从而得出每个被拒绝的申请人如果被审批成为信用良好的客户的概率和信用不好的客户的概率,再按其权重放入模型样本中,这样能够减少样本的偏差,同时把拒绝样本的不确定性考虑在内。
我们利用拒绝推论后产生的样本(包括通过和拒绝的)重新对每个变量进行分组,所用方法与初始分组相同。
然后对第二次分组所形成的数据集合建立逻辑回归模型。
最后在第二次回归模型的基础上,再通过转换算法把回归模型得到的概率转换成分数,从而得到最终的信用评分卡。
模型建立之后,模型的预测能力、稳定性必须通过检验之后,才可以运用到实际业务中去。
评分模型的检验方法和标准通常有:
K-S指标、交换曲线、AR值、Gini数等。
例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:
如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值。
K-S值越大,表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。
在模型实施之后,要产生许多报表对模型的稳定性和有效性进行监测,如:
(1)稳定性监测报表,比较新申请人与开发样本客户的分数分布,对模型的有效性进行监控。
(2)特征分析报表,比较目前和模型建立期间的所有评分卡特征的分布,对模型的有效性进行监控。
(3)不良贷款数据分析报表,评估不同分值区间的不良贷款,并且与模型建立阶段的预测进行比较,监控客户贷款质量。
另外,经过一段时间之后,经济环境、市场情况和申请者、持卡者的结构会不断变化,信用评分卡的预测能力会逐渐减弱,同时,信贷机构经营策略和信贷政策的改变也要求评分模型进行适时调整优化,所以,信用评分卡在建立后需要进行持续的监控,在应用一段时间(一般2~3年)后必须适当调整或重建。
希望继续学习信用评分的朋友,可以学习
数据分析专家@文彤老师
《Python数据分析行业案例--信用评分》视频课程