专栏名称: 朝阳35处
互联网金融大数据挖掘哪家强,平安前海征信帮你忙。分享数据挖掘和人工智能前沿技术,探讨其在风险控制、反欺诈等金融业务中的实际应用。每周涨点知识,多点谈资,定期举办行业沙龙。
目录
相关文章推荐
哎咆科技  ·  NVIDIA携手联发科杀回手机市场?没准真能成 ·  16 小时前  
哎咆科技  ·  干货:满血DeepSeek汇总,让你告别服务 ... ·  昨天  
EETOP  ·  任正非:缺芯少魂已减弱 ·  3 天前  
EETOP  ·  突破极限!1mm³ 存储 TB级! ·  4 天前  
51好读  ›  专栏  ›  朝阳35处

一起走进大数据风控的世界

朝阳35处  · 公众号  ·  · 2017-12-28 17:25

正文

最近参与了一个反欺诈相关的项目,因为是第一次做相关工作,笔者花了一些时间,整理和学习了一些大数据风控领域的相关知识经验,翻看过去的公众号文章,好像还没有普及过大数据风控的概念,正好笔者可以陪大家一起走进大数据风控的世界。

我们先来拆文解字:

大数据,当前最火的概念或者技术或者框架了,说了这么多“或者”,其实就是笔者至今还没有看到一个特别准确的定义,总之就叫大数据就对了,它的特点就是数据量大、指标量大、价值分布范围大、数据增长速度大……

风控,一般银行都会有风控部门,而且权责一般还不小,风控部门主要工作就是:事前防损,监控止损和合规。对于大部分人来说,可能征信这个词接触到的更多些,无论是人行征信,还是芝麻评分什么的,其实都是风控的一部分。实际上,风控主要工作是评估用户可能违约的情况,并采取合适的措施保障资金的安全。它主要有两项任务:一个就是信用评价,比如芝麻评分或者大家很熟悉的ABC评分卡;还有就是反欺诈,识别最初就想违约的客户。

再看大数据风控,风控在后是主词,大数据则是风控的手段和工具。那么为什么大数据风控概念会兴起呢?其背景还是近几年互联网金融公司的兴起。大家都了解,传统信贷的对象主要是对公贷款或者是有抵质押的房贷,政策类的学生贷款等,这就导致了有相当一部分长尾客户群体,贷款不易。互金公司呢则关注的是这一群体,但是风险必然就会更高,并且互金公司由于原始积累少,信贷相关的风控指标也比较匮乏,于是呢,大数据就该出场了。大数据的其中一“大”就是多样性,也就是维度多,而大数据风控呢,很多时候设计上万个维度指标,相对于传统信用评分的几十个指标是不是大了很多;传统信贷笔数不大金额大,而互金行业则是金额不大笔数大,传统行业信贷需要面签,互金则经常不需要接触借方,正是因为如此,互金行业需要特别注重风险分摊,大数据风控要做的是计算出可能会亏1笔,那么必须让余下99笔至少抵消该笔的损失。

大数据风控的流程

总结一下目前大数据风控的工作步骤,大概得到如下的大数据风控的流程,可能与构建大数据平台类似,只是最后应用的落脚点在于风控。

信贷流程中看大数据风控

1. 申请

主要是四要素:手机号、证件号、银行卡号和姓名,通过接入公安系统信息辨别证件的真伪,然后基于面部识别和指纹识别判断证件是你本人的。这些工作主要是对客户真实性的判断,传统的信贷也会进行这些验证工作。

传统信贷员模式需要亲见本人,亲见签字,而大数据风控能做到更多的是,会基于填写信息的位置、设备、网络等判断申请人的真实性。

2. 审批

首先,基于基本信贷政策,审核申请信息和证件资料信息。

然后,剔除黑名单,关注灰名单。

互金公司还会有一个评分过程,并且可能引入多家第三方评分,帮助对客户的评价。

通过以上三步的客户,分发进入不同的流程,比如根据评分授信高低不同的额度,新老客户的识别,以及对客户的进一步细分等。

而对于不通过的客户则需要反馈信息,比如审核不通过,进行信息备案;又或者资料缺失,反馈补缺;有条件通过的则反馈需要哪些条件。

传统信贷主要靠人工审核,互金公司则宣称主要依靠系统审核,人工审核更多是辅助。

3. 授信

互金公司授信其实基于两个准则:首先是公司政策,比如公司规定的贷款额度不超过5000,期限不超过三个月等等;另外就是信用评分:而信用评分则需要获取大量的数据维度和指标,涉及人口统计学、电商、搜索引擎、社交、信用卡、学信网、物流,支付等多达上万的维度信息。

传统信贷更多基于还款能力,比如房贷需要月收入大于两倍还款额,当然也会有抵押物价值、征信等方面的因素综合。

4. 贷后管理

主要是违约预警和授信额度调整;

联系方式失效、大额借款、逾期发生都引起违约预警,一些关联信息排查,譬如,黑名单数据匹配、异常资金流入流出、社交网络负面信息也会引起违约预警;至于授信额度调整,参考乐视网部分员工额度调整就了解了。大数据时代,这些都会基于BI实时监控。

传统信贷更多是有专岗人员去跟踪,尤其是企业贷款,可能会定期抽查相关流水、财报等。

5. 贷后逾期

从经验来说互金公司客户逾期的主要原因是还款意愿差或者还款能力不足,逾期客户和失联客户管理是贷后逾期管理的主要工作:

1. 一般逾期客户,主要是优化催收模型,利用大数据构建不同客户群的催收规则,采取合适的催收渠道和手段;

2. 失联客户,则需要识别和修复,比如申请信息失效了,大数据可以根据网购和物流信息等验证和修补。

6. 资金流动性管理

一般互金公司都会有贷款和投资两端业务和数据。这里实际上应用到了传统的BI,只不过要求数据实时更新了,也就是通过实时监控每笔借款和投资,监控两端的撮合状态,及时找到合适的接盘侠还要监测每天的赎回和投资,保证每天的头寸,实际上余额宝和各类P2P就是这么来保证资金的流动性的。

传统金融公司也会面对资金流动性问题,比如某段时间理财经理天天电话给你买理财,或者年底存款送大礼等等都可能是银行在解决资金端的问题,保证资产端放贷的需求。

7. 放款

放款更多的还是资金流向的约束,监控资金流向,甚至是指定资金流向,比如定向支付甚至指定账号划转资金。大数据能做的更多的是,拥有更多的渠道实时监控资金流转情况,比如你在某个商家买了奢侈品,然后就被关注了。

大数据风控模型

指标体系

大数据圈流行一句话:数据决定了数据分析的上限,而模型做的是逼近这个上限。

因此,构建一个完善的指标体系是非常重要的,大数据风控模型则主要涵盖下面几类指标:

申请信息:年龄、性别、籍贯、常驻地、工作、联系人;

用户使用过程信息:资料修改频率、IP定位、设备重复、填写顺序、其它行为记录;

交易数据:借款相关交易频次、金额,还款等;

第三方数据:一类是电商、社交、搜索、新闻、物流等信息的爬虫或接口导入;一类是设备信息的读取,还有一类是向第三方征信和风控公司进行购买。

风控模型

大数据风控更多应用与小微互金贷款,因此更多是还款意愿的控制,欺诈风险会比较高,因此构建好的反欺诈模型就非常重要,目前一般分三种:

1. 规则:根据经验总结规则,形成规则库;而基于规则的主要手段是交叉验证,对规则库,证件、通信、定位、指纹,面部识别进行交叉验证,保证客户真实性。

2. 黑名单和灰名单:基于以往发生的行为,进行名单匹配,对黑名单客户一刀切,对灰名单客户深入关注。

3. 机器学习模型:利用聚类等模型发现一些违反常识的规则,反推,在应用于后续的客户验证。

另外,传统信贷中非常关注的信用风险,大数据风控同样非常重视。信用风险对模型的应用应该说很成熟了,包括 ABC 评分卡在信用卡领域的使用,芝麻信用在支付领域的使用等。评分模型最常使用的就是 LR 模型,现在大数据风控在此基础上补充了 XGboost FFM 等模型来尝试新的方向,不过据了解,目前还是 LR 模型最稳定常用,新的机器学习模型或许还需要一段时间的实践和迭代。

面临的挑战

1. 泛化能力:上线效果好,但是后续命中率下降迅速;

2. 可解释性:需要提供相应的业务解释,否则面对客户的咨询和投诉比较麻烦;

3. 更新速度:大数据的一大特征就是不断变化,客户在变化,数据在变化,那么模型迭代一定需要跟上数据变化的节奏;

4. 指标是越来越多了,该如何选择;客户是越来越多了,该如何细分。







请到「今天看啥」查看全文