专栏名称: 数据猿
关注大数据行业的最前沿资讯,分享最有价值的大数据深度文章,关注“数据猿”就是关注大数据!
目录
相关文章推荐
数据派THU  ·  NP难问题接近被AI破解!南航牛津爆改Dee ... ·  3 天前  
CDA数据分析师  ·  【干货】SQL取数学会这些,搞定90%数据分析工作 ·  3 天前  
CDA数据分析师  ·  《CDA考试模拟题库》助你轻松拿下一级考试! ·  4 天前  
肉眼品世界  ·  小米AI数据管理落地实践(附下载) ·  3 天前  
肉眼品世界  ·  小米AI数据管理落地实践(附下载) ·  3 天前  
51好读  ›  专栏  ›  数据猿

【案例】大拇哥财富——互联网金融个人评分模型

数据猿  · 公众号  · 大数据  · 2017-06-23 08:00

正文

数据猿导读

随着互联网技术的不断发展,传统金融业务也从线下不断转移到线上,很多原先在线下的金融机构开始在互联网上开展经营活动。由于线上和线下的经营方式的差异,在对客户背景了解方面,互联网金融机构面临着新的挑战


本篇案例为数据猿推出的大型 “金融大数据主题策划” 活动 (查看详情) 第一部分的系列案例/征文;感谢 颀灵鹰泽 的投递


作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院联合主办, 上海金融行业信息协会、 中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟、上海张江发展战略研究院、人大人科创协办的 《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》 还将在上海隆重举办 【论坛详情】 【上届回顾(点击阅读原文查看)】


在论坛现场,也将颁发 “技术案例奖”、“ 应用案例奖 ”、“ 实践案例奖 ”、“优秀征文奖” 四大类奖项



来源:数据猿丨投递:颀灵鹰泽


本文长度为 5500 字,建议阅读 11 分钟


随着互联网技术的不断发展,传统金融业务也从线下不断转移到线上,很多原先在线下的金融机构开始在互联网上开展经营活动。由于线上和线下的经营方式的差异,在对客户背景了解方面,互联网金融机构面临着新的挑战。例如,在客户反欺诈方面,由于与潜在客户没有见过面,仅仅是根据用户提交的身份信息进行核实。因此,当前互联网金融机构都很重视反欺诈。


另外,由于对客户的背景了解较少,并且由于互联网的特点,这些机构面对的客户的分布范围比较广泛,脱离了原先的受限的地域范围,而且用户数量也比线下有了极大的增长。因此,互联网金融机构目前在对个人信用评价方面有确实存在的需求。


周期/节奏


2016年9月,北京颀灵鹰泽数据科技有限公司与金融机构合作开发颀灵鹰泽数据评分模型,项目组成立,建立评分技术团队。


2016年10至11月,项目团队开始准备评分模型数据,主要包括数据合并和数据清洗。


2016年12至2017年1月,开始评分模型设计工作和细分分析工作。


2017年1月至2017年2月,开始评分模型的的开发工作、模型验证等工作,并对评分模型进行IT开发。


2017年2月至今 与大拇哥财富开展家居消费贷款和装修消费贷款合作,将颀灵鹰泽个人信用评分模型应用于上述消费场景,帮助大拇哥财富快速开展上述两项消费贷款业务。


客户名称/所属分类


北京汇鑫融金融信息服务有限公司(大拇哥财富)/大数据技术服务


任务/目标


互联网金融机构在实际业务中需要对借贷对象进行综合信用评价需求,例如大拇哥财富在开展消费贷款时,需要了解客户的详细信用状况并根据信用状况给予相应的授信额度。另外,互联网金融机构开展的这些消费贷款需要在较短的时间内完成业务,因此需要解决信用评价的效率问题。


北京颀灵鹰泽数据科技有限公司计划在与部分金融机构开展合作的基础上,结合多方面的数据,如学历信息、消费行为数据、运营商信息和信用黑名单等,开发出颀灵鹰泽个人信用评分模型,为互金机构快速了解借贷对象的信用状况提出帮助,助力大拇哥财富公司开展家居消费贷款业务和装修消费贷款业务。


挑战


在评分模型建立过程中,我们在实施时仍然有以下技术难点:


1.颀灵鹰泽个人评分模型的数据有多个不同的数据来源,例如个人申请评分利用的是客户申请信息,综合行为评分来源颀灵鹰泽合作的金融机构和其他第三方数据公司。在这些数据中可能存在一些因各种原因导致的错误,因此,为保证后续的分析工作具有良好的数据基础,保证分析结果的有效性,在正式进行模型开发之前需要仔细考虑如何进行数据分析、数据质量检查。


2.在评分模型的建立过程中,预测变量的设计、生成和计算是整个评分开发过程的重要组成部分,是评分模型进行预测的信息基础。合理的预测变量设计是评分模型成功的关键。评分建模人员需要了解评分袁术数据的含义,并对业务有较深的理解,这对评分建模人员要求很高。


3、评分模型建立后,需要确定其测量其区分好坏客户的能力(区分能力的指标KS值),并保持模型稳定性(模型稳定性指标PSI),如何在两者之间进行平衡,是一个需要综合考虑的问题。一方面,KS值越高,模型的区分能力越好,一般模型的区分能力需要在30%以上,但如果模型的稳定性差的话,可能需要调低KS值,以保证模型的稳定性,两个指标如何调整,需要有评分建模人员有丰富的经验。


实施过程/解决方案


个人信用评分模型的建立过程主要可以分为以下数据准备、模型设计、细分分析、变量设计、模型开发几个阶段。


1、数据准备阶段


数据准备工作包括方案设计、数据合并和数据清洗,总体框架为:



其中,最重要的是数据质量分析方案设计。数据质量分析方案设计需要根据数据分析的目标、当前的数据情况,确定整个数据质量分析需要分析的内容,包括是否需要进行数据合并及应该如何合并,需要进行哪些数据逻辑检查等等。


方案设计是一个随着对数据的了解和对数据的分析而不断更新和完善的过程,因为在分析过程中,会根据数据分析的发现来补充需要分析的内容,而不是全部分析工作在初始分析阶段就能够全部确定,特别是针对存在错误的数据而进行的问题分析,会随着不同的错误情况而不同。数据质量分析的完成也意味着质量分析方案设计的最终完善。


数据合并是数据质量分析过程中的一个普遍环节,由于颀灵鹰泽评分模型的数据来源较多,在进行数据质量分析及后续数据处理时,需要将多个数据源信息按照一定的关联逻辑,例如客户层级的标识,合并汇总到一个统一的数据信息表上,从而可以更加有效的进行汇总后数据信息的加工与分析。


数据清洗是在数据质量分析过程中通过对数据进行进行逻辑检查与挖掘分析后,对其中一些数据存在的特殊情况进行处理,以满足后续建模工作的需要,例如对于某些缺失值与异常值的处理,可按照缺失值与异常值的产生原因设定不同类型的人工标准赋值。


数据质量分析的基本流程和方法见下图:



2、模型设计阶段


在模型设计阶段,将根据数据清洗和整理后得到的建模数据集,结合数据质量分析报告及双方的相关业务经验,确定颀灵鹰泽个人信用评分模型开发及模型验证所用数据,以及模型的各种排除规则、表现定义、样本数据时点等,这将直接决定用于评分模型开发的好、坏、不确定样本。


颀灵鹰泽评分模型设计环节重点考量以下要素:


  • 模型的性质:风险、收益、其它。

  • 数据来源:信用报告数据、其它数据;

  • 应用领域:贷款发放审批业务、账户管理等。

  • 数据时间:观察点、表现点、表现期、观察期;

  • 排除规则:不可评分数据条件、可评分但不适用于建模的数据条件;

  • 表现定义:好、坏、不确定定义;

  • 关于法律合规与公众接受度的考虑;

  • 评分分值标准


3、模型细分分析


颀灵鹰泽个人信用评分模型将样本群体细分成多个子群体,从而可以分别进行模型开发,其主要考虑如下需求:


  • 对于不同子群体设置不同业务策略的需要;

  • 数据多样化对于不同子群体人群的适用性;

  • 在潜在的各子群体中,可能存在较为深层的预测趋势的差异;


通过模型细分,可比对系统总体建立单一模型更能提升系统的预测能力。


4、预测变量设计


在模型的开发过程中,预测变量的设计、生成和计算是整个评分开发过程的重要组成部分,是评分模型进行预测的信息基础。颀灵鹰泽评分模型以FICO评分方法为基础,参考FICO评分模型的预测变量,其反映的信贷特征信息主要包括如下五大类别:


(1)还款历史:包括客户历史上所有账户的还款拖欠情况等信息;

(2)债务情况:包括客户所有账户的债务以及相关信贷产品的使用情况等信息;

(3)信贷历史:包括客户使用各种信贷产品的时间长度和信用历史长度等方面的信息;

(4)信贷需求:包括客户申请新信贷产品方面行为的特征信息;

(5)信贷组合:包括客户所有账户中的涉及到的各种类型的信贷产品组合方面的信息。


5、模型的开发


鹰泽评分模型的开发阶段主要有以下几项工作:


(1)开发准备工作


在确定需要开发的模型数目、细分的逻辑之后,需要根据具体的细分逻辑,将开发时点获取的总体数据集切分成相应的各个细分人群,并在其上抽取相应的细分模型建模所需的数据样本。


(2 )变量分箱和降维


由于模型开发初始时,变量的数目很多,因此首先需要进行变量降维,在变量降维之后产生的变量集的基础上,对变量进行细分箱,粗分箱,变量初步筛选,和变量转换。


(3) 模型优化和变量选择


变量的选择的目的是从变量池内所有可能的备选变量中确定最具预测能力的特征变量组合,并排除掉对好坏预测没有贡献度的变量。对模型的表现定义分配数值,好账户为0,坏帐户为1,开始逻辑回归算法的迭代过程,确定最终的变量系数。


(4) 评分标准化


在得到了基本符合条件的多变量回归模型后,需要将逻辑回归结果转化成用户易于理解的分数。


结果/效果总结


北京大拇哥财富公司是一家在业内小有名气的互联网金融机构,其负债端主要是各种理财产品,资产端主要是汽车贷款、房屋按揭贷款和消费贷款。随着大拇哥财富互联网业务的不断发展,线上业务所占比例逐渐增加,对于业务风险控制的需求也越来越迫切。颀灵鹰泽个人信用评分模型适用于大拇哥财富的业务场景。


因此,大拇哥财富选择和颀灵鹰泽开展合作,将上述的评分模型应用在大拇哥的消费贷款场景中。


大拇哥财富与某大型家居卖场合作,在卖场内开展家居消费贷款业务和装修消费贷款。在客户申请消费贷款时,判断其是否能够通过审批及审批额度是关键。在传统的消费贷款业务中,客户获批消费贷款时间大概是一至三天,如果中间发生某些状况,审批时间可能长达一周。


另外,还需要客户提供一些必要的证明材料,可能还需要再与消费者面谈一次。


为了提高了客户获取贷款的效率,大拇哥财富与颀灵鹰泽在此业务上开展合作。在家居卖场,客户选好想买的家居商品或确定好装修方案后,如果想要办理家居消费贷款或装修消费贷款,只需向卖场销售人员提供少量信息,卖场销售人员在电脑或手机上,打开大拇哥财富软件,将上述信息录入系统。系统将自动进行客户身份识别、信用风险识别等。


这其中的信用分析风险识别就是将客户信息输入个人颀灵鹰泽个人信用评分模型,进行评分运算,计算出该用户的信用评分。鹰泽信用风险评分模型的评分数值与其对应的好坏客户数量比、信用违约概率之间存在相对固定的对应关系。大拇哥财富根据评分和信用违约概率,就可以确定出该客户是否可以通过消费贷款审批以及其可享受的贷款利率。


在消费信贷过程中应用颀灵鹰泽个人信用评分模型,使的原先的审批时间大大缩短,一般从申请贷款,到贷款审批发放的时间,大约为一个小时。用户也不用提交太多的证明材料,客户的体验效果很好。


截止2017年4月底,通过与颀灵鹰泽开展评分模型合作,大拇哥财富累计发放家居消费贷款和装修消费贷款235笔,累计金额3539万元,贷款违约情况符合大拇哥财富之前的预期。


企业介绍:


北京颀灵鹰泽数据科技有限公司是由曾在人民银行征信中心和京东金融工作的庄传礼博士建立的数据科技公司,主要是服务于汽车金融公司、消费贷款公司、互联网金融机构等小微金融机构,提供个人和企业信用评价服务。


颀灵鹰泽现有两个个人信用风险评分模型,一个是鹰泽信贷申请评分模型,一个是鹰泽综合信用评分模型。这个两个评分模型是以FICO评分方法为基础,利同个人基本信息、金融信息、公共信息等多维度的数据训练而成。通过构建的个人信用评分模型计算出来,计算出反应借款人信用风险状况的一个分值,分值范围在0-100之间,分值越高,则表明个人信用越好。


1、评分模型介绍


(1)鹰泽申请评分模型是基于百万量级客户申请信息进行构建的,其KS值(好坏客户数量比)达到49%,而国内银行同类申请评分模型的KS值普遍为30%左右。


(2)鹰泽综合信用评分模型的预测变量覆盖了信用历史、当前负债、信用申请、信用类型以及信用历史长度等五个主要范畴,具有通用性、科学性和稳定性的特点。该模型的KS值达到56%,而国内银行同类信贷行为评分模型KS值普遍为40%左右。


2、应用场景


鹰泽申请评分模型和鹰泽综合信用评分模型的应用场景十分广泛。其中鹰泽申请评分模型可以用于个人信用卡、个人贷款申请审批;鹰泽综合信用评分模型则适用于信贷业务的整个生命周期,可用于放贷机构贷前、贷中和贷后管理的各个业务环节,如信贷审批、风险定价、额度管理、风险预警等。


(1)信贷类:P2P、小贷、消费金融风险预警


P2P、小额贷款、消费金融等服务行业,大都属于无抵押信用贷款范畴。消费者的还贷能力和还贷意愿,可从客户的信用中得到直接反映,信用维度包含历史交易记录、个人身份特征、家庭信用情况等方面。具体包含以下几方面:


  • 反欺诈:身份验证、黑名单验证

  • 还贷能力鉴定:职业信息、公积金、社保信息判断

  • 家庭信用状况:评估家庭整体风险(配偶信用查询)

  • 用户价值度识别:高价值用户--如灰名单用户识别


在信贷业务的整个生命周期中——贷前、贷后、催收等环节,颀灵鹰泽评分模型可与不同场景结合使用。


(2)贷前审核


贷前审核过程中,信贷业务员,除了审核客户提交的基本信息、审核材料外,还可借助客户“鹰泽分”的结果,对以下环节产生影响:







请到「今天看啥」查看全文