长话短说「大数据风控真面目」

大数据风控联盟 · 公众号 · 大数据 · 2017-06-16 18:26

正文

谈了这么久“大数据风控，林林总总的概念说了一大堆，但是至今还是还少有人能说清楚：

大数据风控的真面目到底是什么？

大数据风控模型的构建，包含了明确模型目标、定义目标变量、确定样本、确定分析技术、构建模型、模型初步验证、数据处理、模型迭代等环节。其核心工作包括三方面，即获取数据、建立模型、模型在实践中优化、迭代。

数据的来源

对于大数据风控业务而言，数据来源主要包括几部分：

一是用户申请时提交的数据信息，如年龄、性别、籍贯、收入状况等，这些数据可以了解用户的基本情况，验证用户的身份；

二是用户在使用过程中产生的行为数据，包括资料的更改、选填资料的顺序、申请中使用的设备等，可以通过用户的行为来进行特征挖掘；

三是用户在平台上累积的交易数据，如果公司运营比较久的话，可以累积比较多的用户借款相关数据，这类数据对于判断用户信用会有很高的价值；

四是第三方数据，包括来自政府、公用事业、银行等机构的数据，以及用户在电商、社交网络、网络新闻等互联网应用上留存的数据。这类数据可以从多角度展示用户的特征，利用这些数据进行建模分析，可以找出不同特征与信用水平之间的相关性。

数据的建模

数据是基础，下一步要做的是构建模型，对数据进行分析利用。数据本身没有价值，数据中蕴含的信息有很大价值，这些信息可以逐步归纳为用户的特征向量，这些特征可以分为强特征和弱特征，强特征是大而广之的特征，如性别、年龄、籍贯、学历、收入档次等，弱特征可以认为是比较细微、小众的特征，如喜欢晚上喝咖啡、经常在早上打电话、半夜发朋友圈等，不同的特征与用户的违约概率有或强或若的关系。

大数据风控模型构建的两个必要步骤，一是发现不同特征与违约之间是否有相关性，二是为不同的特征赋予权重或违约概率，以确定拥有多项特征的用户的信用状况，决定是否提供金融服务、具体的额度以及利率水平。

建模的技术主要包括logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等机器学习算法，随着人工智能技术的进步，神经网络、强化学习等前沿的算法也已经运用到大数据建模过程中。

模型的应用与迭代

模型开发出来后，应用到具体的信贷等金融活动中，等若干个放款周期结束后，会有结果数据出来，这时候需要依据这些运营数据对模型进行修正，经过一次次的迭代，模型的有效性、实用性会逐步提升。

总体来说，目前大数据风控还在发展初期，未来行业一个可能的演化路径是：一些拥有数据资源和技术算法优势的企业在市场规模上具备了一定优势后，拥有更多的数据资源来支持模型的优化迭代，强化其技术优势，从而可以在控制风险的基础上提高贷款申请的通过率，使自己技术支持下的交易规模越做越大。在不考虑黑天鹅事件的前提下，行业可能出现强者恒强的马太效应。

REVIEW

◆

往期回顾

《如何成为一名优秀的风控从业人员》

《中国21个行业不良率排名！》

《【用户画像】基于大数据技术的手机用户画像与征信研究》

《十年银行风控人的见解:风险就是人与人之间斗智斗勇》

《互联网消费金融行研——谈谈围绕央行征信外群体的消费金融创业》

《银行合规操作顺口溜，无懈可击，值得收藏》

《深度好文：信贷业务的25个风险点》

《消费金融公司盈利能力大拆解》

《消费金融3年增长10万亿，将有10个千亿估值公司诞生》

《2016年消费金融行业报告-人群篇》