专栏名称: 大数据挖掘DT数据分析
实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
目录
相关文章推荐
数据派THU  ·  2024年度清华大学大数据研究中心“RONG ... ·  2 天前  
大数据分析和人工智能  ·  这届年轻人,逛商场只去B1B2 ·  1 周前  
51好读  ›  专栏  ›  大数据挖掘DT数据分析

直播|拍拍贷首席数据官顾鸣:大数据风控的关键技术

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2017-04-22 19:48

正文

去年开始,政策管控、行业调整,很多人问:互联网金融还有机会吗?答案是肯定的,互金行业并非进入尾声,而是重新洗牌——只有技术、风控等专业性有保障的公司,才能成功突围。

 

为促进互联网金融行业技术人才培养与交流,拍拍贷举办第二届魔镜杯数据开发应用大赛。在海量真实数据之外,拍拍贷提供真实脱敏的数据及多种功能的可调用接口,邀你共同打造一款数据产品。如果将大数据比作产业,数据分析是对数据的“加工”,那么现在,是时候通过数据来实现“增值应用”了!

 

为帮助参赛选手理解赛题,传播金融数据应用开发的前景与需求,共享大数据风控的关键技术,定于4月24日进行技术分享,欢迎参与。


  

分享嘉宾


顾鸣博士,拍拍贷首席数据官。

本科获得全额奖学金,美国格林内尔学院(Grinnell College)计算机系毕业,后获得加州理工学院(Caltech)计算与神经网络系博士。拥有超过14年数据分析建模经验,拍拍贷魔镜大数据风控系统的奠基人,上海浦东“百人计划”专家入选者。

 


  

分享内容


1.魔镜系统的诞生与应用

2.魔镜杯的起源发展

3.互联网金融的行业前景与技术需求


  

分享形式


时间:2017年4月24日 20:00(星期一 )

形式:QQ在线直播 ,请加群610095869

 

  

嘉宾观点


风控中的大数据和机器学习


1.风控的核心


风险控制需要做什么?我们认为相比逾期率的绝对数值, 对于风险的控制能力要重要得多。 借款人需要享受合理的额度和借款成本。 投资人需要能够得到合理的风险调整后收益。作为撮合方的P2P平台,则希望在满足借款人和投资人两方的需求的同时(这是先决必要条件),尽可能地服务更多的用户。在这个过程中的核心是对每一笔借款违约概率的准确预测 :



  • 借款人:基于借款人的风险预测,优质的借款人能享受更低的借款成本和更高的额度。相对不那么优质的借款人则需要付出更高但还是合理的成本。最劣质的借款人(甚至是欺诈借款人)则会被直接拒绝。



  • 投资人:由于借款人承担的利息成本是基于其风险设置的,我们可以在大数上设定为未逾期的借款人所付出的利息减去逾期借款人带来的本金损失后依旧能够达到合理的收益水平。 



  • 平台:需要合理地平衡借款人的成本和投资人风险调整后的收益。原则上,只要


1)投资人收到的利息足够覆盖风险(需在分散投资的情况下),

2)借款人能够接受成本,

3)这样的成本被法律保护,则平台就应该努力撮合这笔交易。


满足上述原则的过程,我们称为“风险定价”。

2. 线上风控的挑战和机遇

传统银行在做个人信用类贷款(例如信用卡申请)时,主要依赖申请资料、本行信贷历史以及央行征信报告作为风险评估的数据基础。基于相关信贷政策,各个银行会或多或少地利用反欺诈和信用风险模型,结合人工决策,来最终决定是否放贷。

相比于传统银行,P2P行业在征信报告和信贷历史数据上有着先天的劣势。拍拍贷作为目前全国唯一一家纯线上的P2P平台,其所有借款申请中的征信环节也都是在线上完成的,所以相对于传统银行甚至其它P2P平台,在申请资料数据的收集与核实上,面临着更大的挑战。

然而与挑战共存的也是机遇。相比传统银行和线下业务为主的P2P平台,线上获客拥有以下优势:


  • 互联网可以提供每个借款人的庞大的、碎片化的、种类繁多的信息。

  • 互联网的高效性和爆发性使我们能以较低的成本、较短的时间,积累大量的用户数据,为分析建模提供足够的样本量。

  • 这种大样本量、多维度、非结构化的数据非常适合各类大数据分析处理和机器学习技术的运用。



3.  大数据和机器学习在风控中的应用

我们所说的“大数据”并非指绝对的样本量的巨大。 跟传统银行相比,P2P的样本数并不在一个量级上。 如上文所描述,我们的“大数据”更多的是指运用大量的非常规的信息来评估风险,所以相比数据行数的多,主要还是数据维度的多和杂。 

举个例子,拍拍贷会实时更新记录每个借款人几千个字段的信息。 用户提交的电子化信息(如身份证、营业执照、房产证、学历证、工资单、社保,银行流水等),第三方权威机构的查询信息(如公民身份证查询中心、教育部学历中心、法院诉讼信息查询中心等可查询信息),还包括了海量的互联网碎片数据,如用户在各类电商的交易信息、微博等社交网络数据,百度搜索引擎数据等,用户每次登陆拍拍贷,在每个页面逗留了多久,修改了哪些个人信息,每次充值,提现行为都会作为字段被记录存储。说到底,All data is credit data.



除了数据上的不同,在对风险的量化方法上,纯线上P2P也需要创新。

  • 传统方法:基础决策树,回归类模型

  • 新方法:各类文本/图像/视频分析方法,SVM,多层神经网络,随机森林,Ensemble,等。


过去的10年里,机器学习领域有了天翻地覆的发展。我们认为在机器能够击败一流围棋高手的时代,让机器基于海量的、人工根本来不及消化的数据来评估一个人借钱后是否会还钱,其可行性是很高的!

不幸的是,量化信用评估领域在技术上的方式方法还是基本上停留在几十年前的水平,早已跟不上当前实时化,移动化,内容包罗万象的数据时代的节奏。非常简单的表现就是,除了少有的例外,目前在金融特别是风控的数据建模 / 数据研发的人才,无论是数量还是质量,都远远落后于互联网行业。

我们希望通过这个大赛,能够吸引更多的数据技术 / 机器学习的人才投身到风控领域。通过颠覆性的技术和方法,极大地提高风控的能力和效率,最终让更多的人能够享受到便捷、高效、低成本的金融服务。普惠金融的意义也正在于此吧。



点击阅读原文可了解第二届魔镜杯赛事详情