专栏名称: IT大咖说

大咖干货，不再错过。让不在大会现场的程序猿、攻城狮也能体验现场的精彩瞬间。

互联网金融风控中的数据科学

IT大咖说 · 公众号 · 科技自媒体 · 2017-08-02 20:34

正文

内容来源：2016年12月16日，宜人贷数据部数据科学家王婷在“GIAC全球互联网架构大会”进行《互联网金融风控中的数据科学》演讲分享。IT大咖说作为独家视频合作方，经主办方和讲者审阅授权发布。

阅读字数：2565 | 4分钟阅读

摘要

随着互联网行业的高速发展，互联网金融应运而生。它是传统金融行业与互联网精神相结合的新兴领域。互联网"开放、平等、协作、分享"的精神往传统金融业态渗透，对人类金融模式产生根本影响。宜人贷数据部数据科学家王婷根据自己在行业的实践经验和专业知识，从三方面来分享互联网金融风控中的数据科学。

背景

有了互联网之后，大家可以在线上进行理财借款。但是从线下转到线上会出现不同的问题和挑战，比如风险，我们会面临各种各样的信用风险和欺诈风险。

传统金融面临的信用风险比较大，主要是还款能力的问题。而在线上进行欺诈普遍是利用一些黑科技，国内的欺诈手段非常的复杂。

传统风控都是使用一些基于规则的风控手段。线上随着用户量和数据量越来越大，我们会使用一些数据科学技术进行线上反欺诈中规则的提取或智能欺诈风险发现。

互联网金融服务面临的风险

互联网金融——个人对个人的信用贷款

互联网金融除了借款人群还有出借人群，也就是我们常说的理财。它会给我们提供资金，这些资金会转化成债权去借给需要借贷的人群。

在这过程中宜人贷的理财APP可以很方便地在移动端进行操作，背后的流程简易，使用户体验好，完成了出借到借款的全方位信息服务。

宜人贷：极速信任——自动化信用评估。

网络信贷对速度的要求非常高，到银行或线下门店办理贷款可能需要几天甚至几周的时间；但在线上的APP端提供完资料后，经过分钟级自动化的审核，当日就能收到贷款。网络信贷就是在服务那部分不能被线下服务所满足的需要快速借贷的人群。

在线上，从客户获取到信用评估、交易促成以及客户服务，在整个流程中我们获取到的数据、场景或者人群都和传统金融有着很大区别。银行采取的是信贷员模式，而在互联网金融中，我们是以一种线上信贷工厂的模式，快速经过系统的风控体系审核，就可以批贷。这其中欺诈风险控制成为我们最大的一个挑战。

互联网金融行业中的风险

信用风险：主要问题是用户的还款能力。业界常用的解决方法是通过收集收入水平、消费水平、负债情况等对用户进行风险评分。但在国内没有权威的征信机构来提供这些数据，对于互联网金融公司来说，收集这样的数据难度非常大。而且传统评分卡的有效特征挖掘非常困难。

欺诈风险：欺诈风险包含了伪冒申请和欺诈交易。传统的应对方法是使用人工审查、信用黑名单或是基于规则的一些方法。这样做的缺点是效率太低，，没有权威的黑名单，欺诈手段更新太快，不能自动发现异常。

知识图谱在金融风控中的应用场景

互联网金融中的风控是一种机器学习的过程

互联网金融中风控和机器学习一样要定义Y目标和X变量。

Y目标和普通机器学习Y目标的区别就在于正负比例非常悬殊。好、坏用户的定义，好用户和坏用户的占比远远高于10：1，在使用机器学习训练的时候会造成较大偏差影响。

X变量会进行特征工程的处理。传统方法是进行人工特征工程，当我们引入图谱特征挖掘技术后，可以使用知识图谱技术和图挖掘技术，有效提取欺诈风险的特征。对于X变量有一个风险控制数据金字塔。最顶层的信用是对用户评估最有效的数据维度。自上往下的信用、消费、通讯、社交、行为，变量的有效性逐渐削弱，而从下往上数据的覆盖度逐渐减小。

知识图谱在金融反欺诈中的优势

传统反欺诈大多从客户资料出发，看客户是否触碰了黑名单、消费记录是否有异常。

利用知识图谱进行反欺诈，还会关注用户的关联关系，例如客户的一度、二度关系是否触黑，消费的关联商家是否异常。还可以快速发现一机多人的情况，以及识别组团欺诈。

构建金融知识图谱：FinGraph

FinGraph包含了10种实体、数亿节点。从系统底层的数据整合层面进行信用数据、金融消费数据、行为数据、社交数据、网络安全、第三方数据等一些数据的整合，然后进行特征工程、模型开发、异常监控。知识图谱的应用场景有反欺诈、智能搜索、贷后管理、营销分析以及运营支撑等等。这一套体系不仅可以服务于反欺诈，还能服务于互联网金融中的运营层面。

反欺诈分析实践：人以群分

数据显示，与坏用户有大量关联的借款用户的坏账率是未关联用户的2.9倍。这样的特征可以直接用来做规则的变量。

从整体借款群体的角度，用PageRank算法探索哪些用户与大量借款用户有关联关系。PageRank值越高，用户资质就越差。对特征进行分组处理后，可见PageRank高分段用户的坏账率是低分段用户的3.3倍，可以帮助我们去甄别一些欺诈或资质较差的用户。

反欺诈分析实践：识别组团欺诈风险

在整个网络中应用社区发现算法将人群进行聚类，把分群后的群体根据好坏用户比例打上标签，实时评估每个用户的组团欺诈风险。

欺诈案例调查的挑战：失联用户找寻

利用网络挖掘手段发现坏用户和哪些用户的行为相似，可以聚在同一个类别中，然后在社区内使用最短路径算法来发现失联用户与一个正常还款用户的关系链。

风控建模中的数据科学

在整个风控中，它是一个标准的机器学习流程。除了样本和数据与普通互联网机器学习不一样之外，其它基本都是一致的。

唯一和传统机器学习不同的是，金融模型或产出的特征需要有很强的解释含义。

大规模金融服务中的实时架构

FinGraph是实时风险监控的重要支撑

我们搭建了一套实时数据采集的平台，包括flume集群、kafka集群，到图数据库实时读写，以及包含一些离线风险特征的、在HBase和Codis中的存储。应用于风控规则、反欺诈服务和实时欺诈监控。数据在采集、传输、存储时能达到99.999%的可靠性。基于实时数据采集平台和图数据库，可实时捕捉风险特征，控制欺诈风险。

FinGraph是线上风险控统中关键的一环

总结：数据科学在互联网金融风控中发扬

图挖掘技术可以把风控工作，从局部考量提升到全局考量。结合了上亿节点和十亿关联关系知识图谱的能力，可以区分出高风险欺诈人群。也能利用图挖掘技术实时发现一些组团欺诈风险。

数据科学已经逐渐渗透到离线建模流程中的多个环节。知识图谱也成为线上风控系统中的关键一环。

今天要分享的就是这些，谢谢大家！

相关推荐
推荐文章
新浪微博平台自动化运维演进之路
支撑百度搜索引擎99.995%可靠名字服务架构设计

近期活动
直播 | FMI 2017第三届国际人工智能与大数据高峰论坛
直播 | 和小米、360、新浪等大咖面对面聊网络架构技术
预告 | 全国最新IT技术大会早知道

点击【阅读原文】进入干货密道