金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟？

大数据文摘 · 公众号 · 大数据 · 2016-12-28 06:24

正文

请到「今天看啥」查看全文

本文来自 CreditX氪信创始人朱明杰博士在本月第二届“复旦科技创新论坛” 上的演讲

机器学习、深度学习等对金融业务有何帮助？背后究竟又是怎样去变革提升当下金融体系的？在本月举办的复旦科技创新论坛上，CreditX氪信创始人兼CEO朱明杰就金融风控领域的工业级大数据应用进行了阐述。

朱明杰表示，当下人工智能和金融的话题有些过热，我们应该冷静地看到，将AI技术移植到金融风控场景的道路其实面临着诸多磨合的困难，新业务的冷启动、大量非结构化数据加工以及前所未有的上千维度特征融合处理，包括线上的反欺诈识别，这都是横在AI与业务经验逐步结合前的鸿沟。

以下为CreditX氪信创始人朱明杰博士的演讲速记，在不影响原意的情况下，部分有删节：

新金融业务的冷启动是什么？

冷启动的问题其实主要是指新金融领域缺少样本，我们知道金融机构积累坏账样本的周期是比较长的，另一方面每一个坏账也都是血淋淋的教训，坏样本积累非常珍贵。

AI在这方面的一个解决尝试是采用互联网搜索领域常用的半监督学习方法，通过少量专家人工标记构建训练数据集，快速构建初始机器学习模型来对信贷主体进行风险和信用评估，后期通过不断迭代优化模型以达到最优的效果。此外，在大型金融场景中也可以通过Domain Adaptation的技术，比如我们积累了在不同金融业务领域的经过大数据集训练好的深度学习网络，就可以作为相似领域相同问题但只有小量标记样本用于建模时的特征生成器。

新金融业务面临的海量数据有哪些？

在这一点上，由于新金融业务客群进一步下沉，传统征信数据缺失非常严重，因此为了做到更全面可靠的金融风控，机构往往需要在申请信息之上补充大量诸如消费、运营商、社交、互联网行为甚至影像等等，然而这些海量超高维，稀疏，低饱和，多重共线的数据，传统的风控特征工程往往束手无策。

如果金融机构有大量无标签的数据和少量有标签的数据，其实我们已经可以通过深度学习的非监督或有监督算法，学习稳健，泛化能力好且饱含信息的特征用于分类任务。这里重点谈一下非监督的算法，包括受限玻尔兹曼机，深度置信网络等，包括目前尝试的是最先进的一些生成式算法譬如生成式博弈网络，算法启发于博弈论，由生成网络和判别网络两个网络组成，生成网络生成数据目的是欺骗判别网络，判别网络为判别数据的真假而得到奖赏或者惩罚。随着两个网络的不断博弈，生成网络可以学到很好的特征从而生成足以以假乱真的数据。

新金融风控正面临维度灾难

我们知道国内外目前成熟的风控系统很多都是评分卡体系，但基于之前的海量外部数据，其衍生的特征量很多时候都是上千上万维度的，远远超出了评分卡体系所能处理的能力范围，也就形成了维度灾难。那么对这些千维万维的特征该怎么很好地应用到新金融风控呢？

事实上，不同的数据类型，它的最优模型选择也是不同的，基于这种思想，我们去针对机器学习特征和专家人工特征构建最优的规则模型、机器学习模型、深度学习模型来吸收这些全量特征，就可以很好地化解这一问题。此外，在此之上我们进一步通过模型集成技术进行风险评分的输出，目前已经在与领先机构的风控场景中取得出人意料的效果提升。辟如在实际大型的消费金融场景中，这种集成模型无论在在稳定性或泛化能力上的表现都优于其他已知方法，最大ks值上也比传统逻辑回归提升近70%，从0.19能够达到0.32甚至更高。

新金融业务频频被瞬息万变的互联网群体欺诈攻击

最后，谈一下金融反欺诈。之前关心互联网金融的朋友应该都知道，现在网上薅羊毛的现象很严重，尤其是新上线的互联网金融业务，常常是第一个月就被网上羊毛党群体轮番攻击，这其实也就是线上反欺诈的问题，由于这些羊毛党都有专业的申请信息填写、个人数据伪造的经验，传统基于规则的风控很多时候根本无法识别。

基于大规模图学习的反欺诈网络很好地解决了这一问题，一方面我们能通过复杂网络来识别群体欺诈风险，另一方面我们也可以把基于图的半监督算法应用于预测“好”/ “坏”人的分类模型，即在有少量标签节点的图结构中，根据传播算法，预测无标记节点的标签类别。

举个简单例子，在申请网络中其实每一个申请人、手机号、设备、IP地址都可以是一张图中的结点，而诸如申请人拥有设备、手机号呼叫手机号等有向联系都可以是图中的边，边的权重为关联的紧密程度。在我们构建的图中，那些有违约与否标记的申请人是原始种子结点，通过使用基于图的半监督算法，把是否违约的标记传播给无标签的申请人，这样我们就可以在少量有标签的样本上构建出极为庞大的风险网络，并打造形成我们的违约预测模型。以下是在实际场景更为复杂的网络中，基于图结构的局部风险特征、欺诈Pattern的展示，尤其是基于图挖掘算法提取的全局风险特征，目前通过FraudPageRank、community detection、SocialAffinity等风险指标已经可以实现网络全局风险的实时识别。

时下，新金融正来到转型升级的十字路口，一方面AI被寄予极大厚望，另一方面将互联网级别的AI应用于金融领域也存在很多急需突破的挑战。相信随着需求驱动技术的快速发展，机器学习将在金融风控的工业级应用中发挥越来越大的价值，但如何真正释放数据的价值，我想我们的征途才刚刚开始。

CreditX氪信是一家机器学习风控解决方案服务商，CEO朱明杰为微软亚洲研究院博士、德国马克思普朗克研究所博士后，携程大数据部门负责人。曾在MSRA、Yahoo Labs及eBaySearch Science担任重要职位，拥有丰富的数据挖掘、互联网搜索和机器学习的研究开发和产品工作经验。

往期精彩文章

点击图片阅读文章

数据播报 | 福布斯发布2017年17大技术趋势：中国将成为全球最大机器人市场