银行智能欺诈风险预测模型研究

金融科技实战 · 公众号 · · 2017-10-30 07:02

正文

近年来，伴随移动互联网、虚拟现实等技术的飞速发展，银行服务模式日趋多样化。在客户享受灵活便捷服务的同时，银行欺诈风险呈现出更加隐蔽、专业的特点，发展出更多的作案手法和表现形式。传统欺诈检测通常依赖专家规则、黑名单库等方法，已经不能适应新的欺诈挑战。银行亟需研究并应用先进的机器学习算法，以数据价值为驱动建立智能化的风险预测模型，以此作为欺诈风险防范的强力手段。

一、银行反欺诈发展趋势

国内外银行在传统反欺诈管理中主要依赖专家经验，通过人工方式制定检测规则，当申请或交易信息与反欺诈规则匹配后即执行相应的业务策略。这种管理模式得出的反欺诈规则存在一定的局限性，不能枚举所有业务场景，无法对各类欺诈行为进行全面覆盖。与此对应，欺诈者会针对性的对已有规则进行回避，导致专家规则处于被动调整的位置，无法跟上欺诈手段的更新换代 ^[ ¹ ^, ² ^] 。另外，当专家规则积累达到一定数量后误报率通常会比较高，能够影响到实际风险决策制定和实际业务开展。

机器学习是一种重要的金融科技创新手段，近年来在国内外金融机构和金融科技企业中被尝试应用到风险防范、反欺诈等领域。例如花旗银行、美国银行、汇丰银行等机构广泛应用逻辑回归、神经网络等技术以提升欺诈识别能力；京东金融与ZestFinance组建的合资公司以数据挖掘建模为核心竞争力，在反欺诈领域深入应用机器学习技术以发挥大数据价值。机器学习是一种研究机器获取新知识和新技能，并识别现有知识的方法 ^[ ³ ^] ；通常针对大规模数据集进行全方位综合考量，挖掘深层次业务场景特征进而建立监督、无监督等类型的学习模型，在大量应用中模型的准确性、稳定性也得到了充分验证 ^[ ⁴ ^] 。

为此，我们针对信用卡申请审批这一典型业务场景，应用机器学习技术进行欺诈风险管理并设计数据产品对异常客户进行监控预警。区别于将机器学习技术应用到单一反欺诈规则制定的典型做法，我们尝试从整体视角对欺诈风险进行评估，实现精准量化预测并以此作为应对欺诈风险的强有力手段。建模思路及方法具有一定的可迁移性，可以被广泛应用到银行风险防范、反欺诈等业务领域。

二、 “会思考”的风控模型

在应用大数据支持业务发展转型的过程中，我们提出构建增强智能（Augumented Intelligence）系统 ^[ ⁵ ^] 的创新思路。一个务实的增强智能系统包括客户画像、数据挖掘模型和决策引擎三个组成部分。数据挖掘模型是智能化的核心，客户画像为建模过程持续提供特征输入，决策引擎将模型输出成果转换为实际业务行动。增强智能系统的一个重要目标是提升传统业务流程的自动化水平，过程中的大数据能力主要体现在三个方面，也就是下图中的三个组成部分：更好的客户认知、更智能化的算法、更快速的决策支持。

图1：增强智能系统组成模块

数据挖掘模型发挥动力引擎作用，吸收学术界和产业界先进机器学习知识成果并应用于银行实践。客户画像重点体现大数据背景下的客户多维度刻画，在静态信息和交易行为信息之外可以补充社交网络维度特征信息。伴随大数据的持续采集、生产和交换，客户画像能够进一步补充情绪属性、价值观属性乃至道德属性等信息，为数据挖掘建模提供源源不断的能源输入。决策引擎能够面对业务场景进行快速响应，通过可视化等手段提供自助式业务分析能力，促进数据价值转化为业务行动。

践行上述思路，我们结合传统风险管控和社交网络分析技术，加工基础维度信息和社交维度信息特征指标组成反欺诈客户画像，并应用随机森林等分布式机器学习算法建立欺诈风险预测模型。不同于传统风控模型以年为单位的更新优化周期，智能化预测模型每天都能够进行“思考”，通过更新网络关系并重新训练模型确定最新的欺诈预测思维模式。模型在研发和使用的过程中灵活运用机器学习和社交网络分析技术，催生新型数据产品的开发与应用从而带动传统业务流程的优化。

三、 模型构建与结果分析

以银行信用卡申请反欺诈为应用场景，详细描述社交网络构建、特征处理、算法实现、运行结果分析等阶段过程。

1、结合社交视角构造客户特征信息

社交网络分析是融合多学科理论和方法，为理解各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法 ^[ ⁶ ^] 。社交网络分析方法旨在建立一个网络与真实世界的实体与关系映射，在银行应用中的典型实体包括客户、账户、员工等。社交网络分析通常关注静态和动态两个层面的网络特征，静态特征包括提取网络指标、对网络特征刻画、识别网络群组等；动态特征主要包括描述网络如何随时间推移进行扩散、如何影响其他节点等。

分析信用卡进件审批数据，确定数据中包含四种角色，分别是申请人、申请人亲属、联系人和推广人。在建模实施过程中将申请人角色作为社交网络的关键节点，把申请人、申请人亲属、联系人及推广人这四种角色的移动电话、家庭电话、办公电话的相同作为关系类型。建模过程中构建的社交网络包括780万节点，2.33亿条关系。

在构建完成社交网络后，设计并计算一二阶度、一二阶欺诈数、一二阶欺诈占比、最短路径等网络指标。从网络视角衡量欺诈风险的传播，度反映节点关联好友数量，最短路径反映网络中节点间亲密程度。此外，建模中的客户基础信息包括申请人年龄、手机号、单位电话、电子邮箱、学历、年收入、职位等，针对这些信息需要进行结构化分解、离散化、频度计算等数据预处理操作，共同构建特征以用于后续模型的训练和验证。

图2：反欺诈模型特征构造过程

2、建模方案设计

对进行特征工程化处理的数据进行拆分，设置三组建模数据集，分别是基础信息的数据集（base）、社交信息的数据集（social），以及组合在一起的数据集（combine）。建模过程中采用3折交叉验证的方式完成欺诈风险预测模型建立和训练，并比较多组模型输出的计算结果。

算法选择方面，分别选择逻辑回归(LogisticsRegression, LR)，随机森林 ^[ ⁷ ^] (Random Forests, RF)和深度学习 ^[ ⁸ ^] (Deep Learning, DL)。逻辑回归是银行风控领域的经典算法，以此作为模型结果的标杆参考。随机森林是一种集成学习算法，利用多棵决策树对样本进行训练并预测；通常单棵树性能表现较弱，但进行组合之后能够提供较好的分类性能，同时算法稳定性较好。深度学习（DL）模型是包含多隐层的多层感知器系统，通过应用综合复杂结构和多重非线性变换构成的多个处理层及对数据进行高层抽象的一系列算法，建立具有数个隐层的多层感知网络并实现各种模式的识别和认知。

模型评价方面，选用AUC、Precision、Recall、Accuracy、F1-measure等指标。其中AUC ^[ ⁹ ^] (Area under Curve)是ROC曲线下的面积，介于0和1之间；AUC值表示将两样本正确分类的概率，AUC值越大说明模型分类性能越好。其他指标均是从不同角度衡量模型性能，这里不再详细说明。

3、建模结果分析

如下表所示，前三列数据为应用随机森林（RF）算法在不同数据集上进行的三组模型输出结果。比较结果数据可以发现，通过整合社交属性信息模型各项评价指标较基础信息模型结果均有大幅度提升。不同于基础信息，社交维度重在刻画实体在网络中的关系，其加工指标在建模后呈现出与欺诈风险相关的强特征关系。建模结果中AUC提升7个百分点，F1-measure提升2个百分点，充分验证了建立多维度视角对于提升客户欺诈风险识别能力的有效性。更重要的是，伴随大数据的采集和处理，可以从深度和广度上对客户欺诈风险认知进一步补强，进而持续优化模型的底层数据源。

后面三组数据是在整合数据集上应用三种不同算法，整体表现逻辑回归算法较弱，深度学习居中，随机森林表现最优。结果表明目前模型输入特征与预测目标关联性较好，并且总体特征数量为数十个的量级，还不足以发挥深度学习海量特征无监督优化选择的特性，相比之下随机森林、GBDT ^[ ¹⁰ ^] 等集成学习算法表现更为突出。

表1：欺诈风险预测模型结果比较

数据集	AUC	Accuracy	Precision	Recall	F1-measure	算法
Base	0.86	0.85	0.89	0.9	0.9	RF
Social	0.76	0.83	0.82	0.98	0.89	RF
Combine	0.93	0.88	0.92	0.91	0.92	RF
Combine	0.86	0.86	0.74	0.73	0.73	LR

银行智能欺诈风险预测模型研究

正文

请到「今天看啥」查看全文