本文档来自“支付产品技术交流群”在2017年6月16日的讨论,以及6月17日的专题分享。
一、专题分享:信用评分模型
1.1、信用评分模型开发背景
传统信贷审批采取信审人员人工作业形式,审批依据是审批政策、客户提供的资料及审批人员的个人经验进行审批判断,该方式存在以下问题:
-
信审人员对申请人所提交申请资料真实性的认定基本依赖于受理申请资料的基层网点业务营销人员的职业操守和业务素质,审批人员对申请人资料的核实手段基本依赖于电核,对申请核准与否基本依赖于自己的信审业务经验,授信审查成本高、效率低而又面临很大的欺诈风险,这种状况很难应对大规模的业务需要。
-
审批决策容易受主观因素影响、审批结果不一致,审批政策调控能力相对薄弱。
-
不利于量化风险级别,无法进行风险分级管理,影响风险控制的能力及灵活度,难以在风险与市场之间寻求合适的平衡点。
-
审批效率有较大提升空间。
1.2、信用评分模型初创人
为有效改善传统信贷的授信审批方式,FICO等公司发明了信用评分模型。
1.3、信用评分模型定义及分类
1、定义
信用评分模型,又叫信用评分卡,是运用先进的数据挖掘技术和统计分析方法,对目标客户和现有客户的信用历史记录和行为特征进行系统的分析,以发掘符合自身市场目标的客户和预测其未来的信用表现。
2、分类
-
根据评价主体不同信用评分模型可分为个人信用评分卡和企业信用评分卡。
-
根据适用的业务类型不同信用评分模型又分为经营信贷评分卡、消费信贷评分卡。
-
根据适用的业务流程不同信用评分模型又分为申请信用评分卡、贷后(行为)信用评分卡、催收信用评分卡。
以上三种评分卡业内分别称作A卡、B卡、C卡。
1.4、信用评分模型开发通用流程
1、梳理业务逻辑并定义好坏客户
这一步跟大多数教材不太一致,但个人认为这是最关键的一步,鼓励有不同见解。
在实际的模型开发中,负责模型开发的同学往往没有多少信贷业务或风控经验,对管理层在信贷业务规划上的认识也可能存在偏差。所以在该阶段需要充分与管理层、产品、政策、业务、风控,甚至贷后和催收进行沟通梳理,了解他们从自身视角对于业务逻辑和风险管理的看法以及对评分模型的需求。
该步骤对于模型检验而言也是一个基础,模型的需求方就是该阶段的沟通对象,模型到底好不好他们有绝对的发言权。
沟通完成之后结合管理层的风险偏好,就可以进行定义好坏客户了。所谓定义好坏客户就是确认一个标准。比如是否逾期就是一个标准,只要逾期了(>=1次)就是坏客户,没有逾期就是好客户。也有以是否累计逾期三次作为定义标准,具体怎么定义得根据管理层的风险偏好决定,或者是经营策略决定。
2、根据业务逻辑选取数据源出业务宽表
ID
|
年龄
|
性别
|
婚姻
|
收入
|
支出
|
资产
|
负债
|
职业
|
住房
|
历史逾期
|
逾期次数
|
逾期金额
|
是否涉诉
|
…
|
是否逾期
|
1
|
23
|
男
|
未婚
|
3000
|
1200
|
1500
|
1000
|
收银员
|
租房
|
是
|
1
|
100
|
否
|
…
|
1
|
2
|
34
|
女
|
已婚
|
50000
|
-
|
-
|
-
|
老师
|
按揭
|
否
|
0
|
0
|
是
|
…
|
0
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
..
|
10000
|
55
|
男
|
离异
|
60000
|
50000
|
1
|
医生
|
自有
|
否
|
0
|
0
|
是
|
…
|
0
|
|
3、数据缺失异常预处理和数据探索
通常业务数据宽表会存在缺失、异常等问题,该问题需要优先处理;
预处理后,通常会进行众数、中位数、100位分布、变量P值、相关性检验,通过以上检验识别出辨识度高、相关性低的变量用于建模;
4、模型选择和建模
所谓的模型根据公司实际业务开展阶段不同,选择的模型也各不相同。
如果是一家刚起步的信贷公司,则通常会选择——专家打分+层次分析法;
如果是已经有上万笔实际放款的信贷公司,则通常会选择——逻辑回归、决策树、神经网络等算法进行建模,这三种算法通常适用最终变量控制在20个以内的情况;
目前,也出现像随机森林等新的算法应用到建模,通常适用最终变量控制在50个以内的情况;
5、模型检验和修正
-
常用的数理检验:正态分布检验、P检验、T检验、F检验、交换曲线、K-S指标、Gini数、AR值等;
-
业务需求检验:我们将模型结果与在第一步业务梳理中已经知晓需求方对模型应该表现的方向进行对比,如果符合预期则说明模型有效,否则无效。
-
模型修正:如果模型的结果在上面两次检验中表现较差则需要返回第二步,重新进行分析和建模;
1.5、信用评分模型开发工具篇
二、Q&A
Q: 关于数据源怎么获取?
A:大家都在从事金融类工作,所以应该不会太陌生,这些数据通常会通过用户提交直接爬虫抓取或者向第三方征信数据公司购买 或者与银行合作获取,另外目前移动端应用程序比较火,所以还有直接通过APP采集的方式来获取,如通讯录、通话清单、短信、APP安装列表等。
Q: 数据缺失异常预处理和数据探索这一部分内容较少,可否详细说明以下?
A:这部分写的比较简单,实际数据探索会很耗时间,主要目的就是为了选取辨识度高的变量,舍弃常规判断都觉得表现不明显的变量
Q:模型选择和建模中目前使用最多的算法是什么?建模的原理能否详细说明一下?
A:目前使用最多的算法是逻辑回归,该算法表现稳定,历史也最悠久,逻辑回归有一个最大的有点就是就是适用于二值逻辑,关于业内贝叶斯算法几乎没有应用过。建模的原理跟函数一样,通过一些因变量得到自变量
Q:关于常用的数理检验部分可否做一个详细说明?或者需要用到什么工具?哪些工具最常用
A:这些检验其实就是一个衡量标准,举个例子:KS检验至少应该超过0.3,如果模型通过这些检验 则可以提交给所有需求方进行检验,举个例子:如果模型中的变量中有年龄这个变量,模型如果认为年龄越小越不容易违约,这显然与风控常识不一致,说明模型有误,类似的常识性的东西就需要各个需求方去验证,避免模型通过了数理检验而与实际脱节的情况,如果模型未通过两类检验则需要重新来过。正态分布、P值、T、F检验通过SAS工具模型完成后会自动实现,交换曲线、KS、基尼、AR通常也需要用工具来辅助进行计算。对于建模工具,建议在初期哪个顺手就用哪个,能把有效的模型做出来才是Key Point,目前我用的是SAS9.4,
后面的课程我也会用SAS给大家分享。
Q:提到的模型检验,是不是可以认为是一种模型的训练过程?利用历史数据对模型进行训练?
A:其实建模是训练,检验是对拟合程度的检验,检验这部分需要在实际操作中给大家讲,才能更明白。