专栏名称: AI早餐汇

每天早晨，最新鲜、最全面的AI资讯尽在AI早餐汇！AI大事全知道，您的贴身AI小秘书！

宜人贷何林海：社交图谱在金融反欺诈产品的应用（实录+PPT）

AI早餐汇 · 公众号 · · 2017-08-31 09:10

正文

点击上方 “公众号” 可以订阅哦！

公告：「AI早餐汇」微信社群已成立！热烈欢迎人工智能领域一线的技术实践者加入！请添加下方Linda的二维码，拉您入群（请注明：姓名+公司）。更多的深度技术交流、精彩内容、PPT以及各种福利......不多说，快入群！

在今年的 「QingCloud Insight 2017」 上，麦思博（msup）组织了主题为“AI落地实践”的专场论坛。宜人贷数据产品经理何林海在本场带来了题为 《构建基于社交图谱关系的反欺诈产品应用》 的演讲。

何林海在演讲中主要分享了欺诈行业面临的挑战和产业链式发展、如何快速评估欺诈风险/平台搭建（框架体系）及实现、基于社交知识图谱的欺诈团伙发现、宜人贷面向行业的反欺诈解决方案“先知”等内容。

本文为早餐君根据速记整理而成，在不改变讲者原意的情况下做了编辑和缩略。 特别致谢青云QingCloud、麦思博（msup）、宜信技术团队对本文的贡献。

何林海 ，目前主要负责宜人贷反欺诈产品的搭建，在做反欺诈之前，主要负责SDK行为数据的采集，收集了大量宝贵的用户行为数据，目前在公司内各个项目中得到了广泛使用。在宜人贷之前，就职于美团数据工程部。

以下为何林海的演讲内容。

我是来自于宜人贷的何林海，今天主要分享社交图谱关系在金融反欺诈产品方面的应用。

关于宜人贷

宜信公司2012年推出的一款在线金融服务平台。宜人贷通过科技驱动金融创新，为中国优质城市白领人群提供高效、便捷、个性化的信用结款咨询服务。

2015年12月18日，宜人贷在美国纽约证券交易所上市，成为中国金融科技第一股。截止2017年3月31日，宜人贷累计服务了超过60万借款用户，近120万出借用户，累计促成借款总额达393亿人民币。

欺诈的行业挑战和链式发展

在美国，欺诈主要是由于信用风险而产生，但在国内，很多坏账是由欺诈产生，中国对于欺诈的惩罚不够，导致了类似事件频繁出现。作为一个行业的挑战，欺诈不仅只存在于在线P2P领域。

关于欺诈的行业挑战，举三个例子。

非银信贷： 行业整体风险偏高，由于门槛较低，滋生了大量团伙欺诈、身份冒用、老赖、多平台借款、黑中介等，带来巨大经济损失，坏账率居高不下。

银行：开展网络支付、直销理财、电商、消费信贷、P2P等创新业务中，和非银信贷面临同样的问题。

电商：电商领域的在线支付、恶意点击、广告监测、黄牛、账户安全等方面面临交易欺诈风险。

这些问题是全行业的挑战，宜人贷面临的主要是信贷申请时候的欺诈。

现在大量欺诈已经不再只是个人作为，而是一种行业性质的行为。我简单分成三类：上游、中游、下游。

上游，主要是黑产技术服务，能力不逊于技术团队，力量强悍，积累了丰富的工具使用经验，包括虚拟模拟资料，做帐单造假等，成员都是计算机高手。

中游，把恶意注册的帐号释放出去，或者是通过交流平台招揽技术人才。另外，由于需要很多资料，到农村收一些大爷大妈的身份证。对他们来说，赚一百块钱，身份证借用两天没什么关系，实际上这些资料被用来骗贷了。

下游，有专人用这些资料来做欺诈、盗窃、勒索，甚至用来刷单。

如何快速评估欺诈风险及平台搭建

宜人贷如何建立一套快速评估欺诈风险的机制呢？

2014年开始有这些想法，在现有风控体系外，把欺诈风险和信用风险分开做。欺诈风险单独拎出来，并将对用户的欺诈风险识别出来。 我们建立了一套从数据采集到机器学习，并快速给出欺诈评分的体系。

在数据采集时，通过SDK的方式，也就是采集SDK，可以在不同触点采集到用户的基本信息，只要用户触达任何一个终端，我们都实时地将这些用户信息送到SENT EVENTS上。

深度学习以前没怎么用， 监督类学习是基于欺诈和非欺诈的用户去做分类，无监督用了知识图谱的技术。 对于单个用户，每个事件会给出一个评分。

比如，用户打开APP会得分，因为怀疑安装了模拟器，用户进行申请时会给他提醒完善信息。对于优秀用户，根据他的设备或者关联出的其他信息，在注册时给他打一个好的分数。

这是对于不同事件进行实时欺诈评分的流程。用户在设备激活的时候得一个分，注册的时候得一个分，查看新手引导的时候又得到一个分，这个分会 实时变化 。每次过来，用户都会带上基本信息：设备、IP地址等等，可用作评估风险程度的特征。

上面说到的是反欺诈的基本架构，我们在内部做成一个产品化平台，今天主要介绍一下它的体系，主要基于三个层次。

首先是实时的数据采集，数据采集分几个部分，第一部分是基于SDK采集相关的用户行为数据，第二部分是用户授权的相应个人信息，包括消费数据和通话数据，第三部分是三方数据。

其次，我们用到了实时数据处理， 基于知识图谱构建了三个层次，第一个是欺诈评分模型 ，实时对用户的每个事件进行评分， 第二个是传统的规则引擎 ，我们用了一个非常强的规则； 第三个是团伙挖掘 ，这是一个很大的亮点。

前两点很多公司都在做。针对单个分类的问题，数据决定了模型好坏的上限，模型调的再好，只是决定效果无限逼近上限。 团伙挖掘是基于知识图谱，把用户通过图的方式，挖掘他们之间的关系，把这些（有类似欺诈行为或关系的）用户拎出来。

在实时欺诈发现阶段我们采用产品化的工具，在流程里通过调查工具，直接给到信审。把每个用户提报出来，通过这套流程可视化平台，帮助快速理解用户是否欺诈，我们会做中介发现，把中介找到。第三是团伙监控和预警，把欺诈团伙挖出来。

每个阶段的具体实现过程

下面讲讲每个部分的具体实现过程。

第一个模块是基于SDK的实时数据采集，获取一手数据。 我在去年加入了宜人贷，当时就在想，这么多的用户行为数据为什么不用来做反欺诈呢？用户的淘宝数据、消费数据，以及其他的很多临时性数据都可以作假，但是用户的行为数据一般不会去模仿，我们做了一个 SDK采集框架 ，分成三层。

第一部分是数据采集 ，覆盖宜人贷所有客户触达终端的采集能力，采集用户行为、设备指纹等相关信息，比如型号、是否模拟器、各项物理层，以及网络源信息，这部分非常重要，它连接着一些上网轨迹，还有Location，我们发现很多团伙都在一个地点，好几十个坏用户聚在一个基站下面。以上是采集层。

中间是实时数据处理 ，我们做了一层相应的配置，对于哪些数据是可用的，我们花了很多力气做数据清洗，刚开始的时候在这方面踩了不少坑，然后后续实时的时候会做一些数据回填，才达到一个比较好的运算。数据处理层分为离线和实时。实时数据直接灌到知识图谱里，离线数据做一些特征处理和建模分析。

在数据应用层 ，最简单的就是流量统计分析，分析用户的行为。其中 两个方面跟反欺诈有关，一个是反欺诈前置，另一个是流量反作弊 ，对每个渠道过来的激活都需要做是否作弊的评分。在反欺诈前置方面，我们会对每个用户进行实时的欺诈评分。

这是 SDK采集的基础框架 。 数据采集 方面数据由固定表头信息+事件信息组成，每条记录都是一个事件，包含如获取定位行为、或者设备信息行为、用户点击行为、页面加载行为。 数据发送 有些策略：实时发送、满N条发送、默认15条、失败重发等等。

采集的内容分为几个模块。设备数据 主要有手机品牌、手机型号、操作系统、设备ID、App列表。

行为数据 主要包括账号登录、页面进入、按钮点击、信息输入、广告浏览、操作时间等。我们有很多流程，比如，新手机运营商授权的密码，很多人都记不住，但是欺诈分子一下子就输入了，他的输入速度非常可疑，我们通过聚类把这种用户聚在一起。

位置数据 现在主要用四个：GPS、IP、基站信息、WIFI列表。比较精准的是GPS和WIFI，基站大概有100~200米误差。很多欺诈分子喜欢用代理IP。

基于以上，把用户实时行为数据采集完之后，对每个用户会形成一个实时的欺诈评分。

这是一个 实时预警流程 。我们真正用的模型不只是只有行为，但是它的权重非常高，我们还用到很多的其他数据，需要用户授权的一些数据，我们都会放到欺诈的特征里面。

我们做了一个 FICO评分标准 ，评分越高用户信用风险就会越小。此外还有一个 规则引擎 ，我们会发现一些强有力的单条规则，或者多条单一规则组成的策略，对每个预警用户非常有效。

预警出来会分成两部分，一部分信用好的就直接拒了，另一部分交给反欺诈调研，形成黑名单。所有流程都是实时的，保证跟业务系统完全解耦，有快的反馈速度，十分钟放款，就要判断出他是否是欺诈。

模型训练，我们有一个好的点给大家分享下，大家可能做过，正负样本非常不平衡，欺诈领域也有这个问题，我们面临的是想要找出一些坏用户，但很不易。

坏用户常见的定义就是MOB6里面的M3+（逾期三个月），不能把有信用风险的用户刨除掉，这个用户不一定是欺诈，他是违约了，但有可能就是没钱还，要把欺诈跟信用解耦出，可以信用风险的方式做信用定价。我们 构建了基于欺诈标注的自动化学习，可疑对实时新增的欺诈标注，快速反馈回模型训练。

基于知识图谱的欺诈团伙发现

以上是对于识别单个欺诈用户的应用。接下来谈谈如何基于知识图谱判断欺诈团伙，大家知道团伙其实很难发现，发现了也很难认定。

我们 采用了两种方式，第一种是通过无监督的方式，通过聚类的方式找到这些用户；另外就是通过知识图谱的方式发现关联关系。 我们的知识图谱关系网用的是Neo4j。

我们主要应用知识图谱做了三件事情：疑似中介识别、关联骗贷团伙识别、团伙监控&预警。

宜人贷何林海：社交图谱在金融反欺诈产品的应用（实录+PPT）

正文

请到「今天看啥」查看全文