相对于传统风控,大数据风控在建模原理和方法论上并无本质区别,只不过是通过互联网的红利,采集到更多维的数据变量,通过分析数据的相关性来加强或者替代传统的强因果关系。
建模原理和方法论上并无本质区别
大数据风控即大数据风险控制,是指通过运用大数据构建模型的方法对借款人进行风险控制和风险提示。
要理解大数据风控,首先要把传统金融风控搞清楚。这里以银行的信用卡部门为例, 解析一下传统银行的信用审批流程。(附图综合了几家银行信用卡中心的审核流程)
信用卡审核简易流程图
从流程上看,银行的信用审核,是以风控评分卡模型的自动审核为主,以人工审核为辅的模式,在需要特定审核的环节由人工进行,比如验证你的工作、校验你联系人的真实性等。这也是为什么在现实生活中一部分人在信用卡申请过程中会收到人工审核电话,一部分人并不需要该验证环节即可获得信用卡。
从审核数据上看,对于银行来说,影响审批额度的主要因素包括客户基本特征(包括男女、年龄、教育程度等等)、客户的风险暴露情况(社会收入、债务情况、还债能力综合评估)、现有的社会表现(房贷还款情况、其他银行信用卡使用情况等)。
不管是中资还是外资银行,大致都遵循了这样一套风险评估和信用审核的逻辑。对比之下,就可以看出,时下互联网金融鼓吹的大数据风控在原理和方法论上跟传统金融的风险控制并没有本质区别。
市场空白给予机会以数据相关性替代因果关系
大数据风控相对于传统风控来说,建模方式和原理其实是一样的,其核心是侧重在利用更多维的数据,更多互联网的足迹,更多传统金融没有触及到的数据。比如电商的网页浏览、客户在app的行为轨迹、甚至GPS的位置信息等,这些信息看似和一个客户是否可能违约没有直接关系,但实则通过大量的数据累积,能够产生出非常有效的识别客户的能力。
大数据风控与传统银行风控的比较
数据量大是大数据风控一直宣传的活字招牌,至于多少的数据量级才能算得上大,业内一直没有统一或者较为通用的标准。 根据公开资料,蚂蚁金服的风控核心CTU 投入了2200多台服务器,专门用于风险的检测、分析和处置。新华网的报道显示,蚂蚁金服每天处理2亿条数据,数据维度有10万多个。京东金融2016年6月,投资了美国的大数据公司ZestFinance,之后还与其联合发起成立了合资公司ZRobot。ZRobot主要定位在为互金企业提供数据建模、信用评分、资产定价、欺诈识别等服务。京东金融依靠中国最大的电商-京东的数据量,在国内已算大数据拥有者。
聚秀资本合伙人江南愤青表示,按照惠普副总裁提及的大数据概念,全球有能力进行所谓的大数据应用的公司不超过50家。大量的公司只是在做数据的优化,根本不能称之为大数据风控。
在数据维度这个层级,传统金融风控和大数据风控还有一个显著的区别在于传统金融数据和非传统金融数据的应用。传统的金融数据包括我们上文中提及的个人社会特征、收入、借贷情况等等。而互金公司的大数据风控,采纳了大量的非传统金融数据。比如阿里巴巴的网购记录,京东的消费记录等等。
在运行逻辑上,不强调强因果关系,看重统计学上的相关性是大数据风控区别于传统金融风控的典型特征。传统金融机构强调因果,讲究两个变量之间必须存在逻辑上能够讲通因果。一位不愿具名的前城商行信用卡中心负责人表示,在银行的信用评审中,他们即便发现了一些非传统变量在统计上看来跟审核结果存在某种相关性,如果不能够在逻辑上讲通,他们也断然不会采用。
“比如我们发现在某个时间点来申请的客户,从后期数据表现上来看逾期的概率就是比较高。但如果没办法从逻辑上解释通其中的道理,我们是不会贸然把它作为因变量放在审核模型当中去的。”
但与传统金融机构不同,互金机构的大数据风控吸收的正是大量的潜在相关性数据。为何说是潜在?因为通过互联网的方式抓取大量数据之后,一定会有一个数据分析和筛选的过程,在这个过程中,大量数据会被证明不相关直接被踢掉。留下的相关性数据才会被运用到风险审核当中去。
传统的线下小贷公司在放贷过程中,会有一些自己的经验判断,在面对一些特定行为特征、生活习惯的客户会首先有一个自己的直观打分判断,这些是长期经验累积的结果。现在一些互金公司可以通过技术化的手段把这些也变成输入变量纳入到风控审核当中去。
大数据风控需要纳入非传统变量,将风控审核的因果关系放宽到相关关系是有其业务原因的。伴随着互联网金融的火热,大数据风控逐渐升温。中国的互联网金融,服务的客群简言之可以分为两类:无信贷历史记录者和差信贷历史记录者。而这两部分人群,恰恰是中国传统金融机构没有服务到的两部分人群。
这两部分人群包括中国的学生、蓝领、以及一部分的白领等。这部分客群,在央行没有征信报告,几乎没有过往金融服务记录,照搬传统金融的风险审核会出现水土不服的状况。
对传统金融机构而已,在对一个客户进行信用风险评估时,工作单位是强变量。这直接关系到他的社保记录。但对一个没有固定工作的客户来讲,工作单位就变成了一个弱变量,对于最后的风控审核助力有限。
同理,学历、居住地、借贷记录这些传统的强金融风控指标可能在面对无信贷记录者和差信贷记录者时都会面临同样的问题。这迫使互金公司需要通过其他方式补充新的风控数据来源,并且验证这些数据的有效性。
场景厮杀激烈 大数据风控有效性有待验证
相对于传统金融机构,互金公司扩大了非传统数据获取的途径,对于新客户群体的风险定价,是一种风险数据的补充。但这些数据的金融属性有多强,仍然有待验证。
而数据的金融属性取决于如何去挖掘,如京东电商上购物记录其实是目标客群很好的刻画,送货的地址,GPS经常驻留的地址等,是一个人的居住地的概率很大。在这一点上,腾讯的微众银行、京东金融,蚂蚁金服等互联网巨头手中都掌握着海量的数据。
各大公司的风控体系,来源:根据网络公开资料整理
根据《证券日报》报道,微众银行旗下微粒贷的单笔均借款金额低于1万元,逾期率低于0.3%。“微众可以拿到腾讯的数据,这是其他所有公司没发比的,在小额借贷领域,他们的优势太明显了。”前述不愿具名人士透露。
巨头优势明显,但大公司不可能面面俱到,布局下各种场景。并不代表创业公司的路已被堵死。在互联网巨头尚未涉及的领域,小步快跑,比巨头更早的抢下赛道,拿到数据,并且优化自己的数据应用能力,成为创业公司杀出重围的一条路径。
有一个稳定的场景,能够在自然状态下真实地采集到客户行为所展现的数据,这是大数据风控的前提。在一些尚未被巨头嗅到的场景领域,竞争厮杀已经非常激烈。
农分期、会分期、房司令、租房宝、蜡笔分期、学好贷、爱旅行、趣分期、分期乐、买单侠、优分期·······农业、租房、蓝领、学生、旅游等各个场景和不同人群下的争夺已经日趋白热化。