专栏名称: 注册风险管理师
这是风险金融行业最顶尖、最精粹的公众号,有专业的团队运营,13万人的粉丝群体;中国注册风险管理师协会(CIPRM)是风险管理行业的先驱者,培养风险管理人才,制定风险管理标准,做行业的引领者。协会官方网站:www.ciprm.org。
目录
相关文章推荐
有限次重复博弈  ·  图一申万绩优股指数21年见顶之后就一路下跌, ... ·  昨天  
经济观察报  ·  A股开盘:三大指数集体高开 ·  昨天  
神嘛事儿  ·  我回答了 @天天向上801006 ... ·  3 天前  
央视财经  ·  降息!近五年来首次!这一央行宣布→ ·  3 天前  
51好读  ›  专栏  ›  注册风险管理师

大数据风控有效性的探讨分析

注册风险管理师  · 公众号  · 财经  · 2019-05-10 09:45

正文


大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会其他各个领域。早在1980年,阿尔文∙托夫勒(Alvin Toffler,1980)在《第三次浪潮》一书中就预言大数据将成“第三次浪潮”。奥巴马政府将大数据定义为“未来的新石油”。凯文∙凯利(Kevin Kelly,2014)认为所有的生意都是数据生意。2013年互联网金融将“大数据”推向了新的高度。金融的核心是风险控制,将风控与大数据结合、不断完善和优化风控制度和体系,对于互联网金融企业和传统金融企业而言都同等重要。


大数据风控的有效性问题



近年来,大数据风控技术在各个应用领域的发展速度令人目不暇接。然而,从另一个方面,其有效性也受到了非常大的挑战。陈宇2015年在《风吹江南之互联网金融》中提出了大数据风控无效论。笔者认为,大数据是有效的,但其有效性不足。


具体如近期特别关注的P2P平台。自2007年我国诞生第一家P2P平台起,P2P平台频频暴露出跑路、停业、提现困难和经侦介入等问题。目前,大部分P2P平台均宣称,自家平台是采用先进的大数据风控技术,严进严出,基本能保障不良贷款率在P2P行业较低的水平。 然而,P2P行业的风控现状却总是事与愿违。根据网贷之家发布的《2015年P2P网贷行业年报》显示,2015年全国正常运营的P2P平台总数2595家,累积停业及问题平台数量高达896家,占比34.53%。问题平台总数高达2014年的3.26倍。因此,P2P风控之殇从一个侧面反映出大数据风险控制存在有效性不足的问题。



有效性问题的提出



在数据来源方面,数据孤岛仍然是制约我国金融信贷行业发展的重要因素。目前,政府、银行、券商、互联网企业和第三方征信公司掌握的信息资产难以在短时间内互联互通。正如吴昊(2015)所说一样,信息孤岛导致了信息不对称、不透明,带来了大量的多头债务风险和欺诈风险[6]。由此得知,金融信贷行业若想利用大数据风控技术大力提升风控水平,就必须打破信息孤岛,解决信息不对称和信息获取不及时的问题。


在数据质量方面,数据缺乏有效性是数据质量不佳的主要因素,也直接导致了大数据风控有效性的不足。近些年,金融机构、电子商务、社交网络、公共政务、OTO互联网平台等数据体犹如一台永不停歇的机器一般,源源不断地制造着每天2EB级别的海量数据。然而,数据格式多样化、数据形式碎片化、有效数据缺失和数据内容不完整等问题也随之而来。因此,改善数据质量,提升有效性成为大数据风控水平提高的必备环节。在数据采集和使用的制度建设方面,保护个人或企业隐私,一直都是我国政府制度建设的一个重大方向。如何合法地、适度地、有效地采集和使用大数据?这不仅仅是一个技术实现的问题,更是一个社会进步的问题。近年来,数据泄露事件频频出现,也成为了各大媒体争相报道的新闻头条和人们老生常谈的热点话题。


有效性问题的分析


纵观大数据风控有效性不足的三大因素,数据孤岛是当务之急。首先,公共设施、生活缴费、社会保险、交通路况、教育医疗等政务数据,依然掌握在相关政府部门数据库,尚未向社会公开,甚至可以说,政府部门内部都未进行共享。目前,虽然工商、司法、公益等信息已经向全社会开放,但是公共政务信息的开放程度仍然较低。况且,政府部门信息的公开必将是一个漫长且复杂的过程。其次,银行、券商、基金和信托等传统金融机构长期形成的合规文化氛围,主导着各项业务的规范发展,因而设计了诸多制约环节和监控措施。以至于传统金融机构的数据开放流程变得异常繁琐和低效。再者,掌握着大量真实信息的互联网企业、第三方征信公司和O2O平台之间也难以达到互联互通的程度。电子商务、社交网络、地理位置、信用评估、搜索引擎、移动互联网行为等大数据交叉集中于阿里巴巴、腾讯、百度、拉卡拉、九次方等企业。自IBM公布首例大数据商业案例以来,大数据技术在世界范围内得到快速普及。数据即价值,由此深深地根植于每一个现代企业的发展理念中,这些企业都希望抓住第三次技术浪潮的时代机遇。因为在其跑马圈地的过程中,互相之间存在激烈的竞争关系,所以大数据互联互通的目标目前看来难以实现。


从互联网金融元年开始的短短三年间,网络安全事件层出不穷,网络数据真实性再次被提及。王强(2015)认为,大数据时代的数据基本是垃圾进垃圾出,真实度可能只有50%。企业家和学者对数据真实性的担忧不是空穴来风,银行、P2P等机构都遭遇过严重的金融欺诈事件。比如,2015年,我国商业银行频现身份冒用、盗卡交易和频繁套现等安全事件。毋庸置疑,视风险为第一要务的商业银行仍然是大数据真实性最高的机构。然而,商业银行仍然会遭受上述风险。其中,金融基础设施不完善是最直接的一个因素。具体举例来说,在身份验证方面,一个自然人或企业很有可能会开通各个商业银行、第三方支付、P2P网络借贷、小额贷款等账户。商业银行通过央行征信系统来对客户在其他银行的表现进行风险识别和风险定价,对于第三方支付、P2P网络借贷和小额贷款等公司的账户数据,商业银行由于缺乏外部大数据采集能力和意识,并不能及时和轻易地获取。因此,客户除商业银行之外,在其他信贷渠道引发的信用风险,势必会叠加到商业银行的信贷风险中。


与此同时,网络安全事件也带来了严重的数据泄露风险。从国际数据泄露情况来看,Verizon发布的报告《Data Breach Investigations Report 2015》显示,全球调研覆盖95个国家,61个报告了数据泄露问题,共涉及79790个安全事件,损失高达数千亿美金。从国内来看,国内专业的互联网安全平台360发布的《2015年中国互联网安全报告》显示,共有1410个漏洞可能造成网站上的个人信息泄露,可能泄露的个人信息量高达55.3亿条。





一.大数据风控发展迅速,但有效性不佳


在应用层面,金融行业利用大数据进行风控已经取得了一定的成效。使用大数据进行风控已成为美国等发达国家互联网金融企业的标准配置。

美国Zest Finance公司开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。

为网上商家提供金融信贷服务的公司Kabbage主要目标客户是ebay、Amazon、PayPal等电商,其通过获取这些企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。

中国互联网金融企业对于大数据风控的运用也如火如荼。

阿里推出了面向社会的信用服务体系芝麻信用,芝麻信用通过分析大量的网络交易及行为数据,对用户进行信用评估,这些信用评估可以帮助互联网金融企业对用户的还款意愿及还款能力做出结论,继而为用户提供相关的金融和经济服务。

腾讯的微众银行推出的“微粒贷”产品,其风控核心就是,通过社交大数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易、基本社会特征、人行征信5个维度对客户综合评级,运用大量的指标构建多重模型,以快速识别客户的信用风险。

对于大数据风控的理论研究尚处于萌芽阶段,本文以“大数据风控”为主题在CNKI数据库进行搜索,与此相关的文献数量可以从侧面反映大数据风控的理论研究现状。

CNKI数据库中以“大数据风控”为主题的文献共46篇。在这些文献中,以报道性的文章较多,重要报纸全文库和特色期刊总共为33篇,占比72%;而理论研究的文章较少,中国学术期刊总库为12篇,占比26%;尚没有CSSCI2014—2015年的来源期刊(如图1)。

图1 CNKI数据库与大数据相关的文献数量和分类

虽然大数据风控在实践上已经有所进展,但是其有效性也受到一些挑战。

例如,以大数据风控为基石的P2P平台就频频暴露出各种各样的问题来。对于P2P平台来说,由于其纯线上操作的特点,大数据风控的有效性是决定其经营状况的重要因素,如果大数据风控有效性较差,则面临的坏账压力较大,容易出现提现困难甚至跑路的问题。

网贷之家的数据显示,2015年上半年新增问题平台419家,是2014年同期的7.5倍,已超过2014年全年问题平台数量。截至2015年10月底,全国问题平台数累积已达1115家。

二.当前大数据风控有效性不足的原因分析


一些学者对于大数据风控的有效性问题进行了研究。

王强(2015)指出当前个人大数据征信的问题,一是数据的真实性,二是数据收集的法律障碍,三是坏账的不可预测性问题。

甚至有作者认为大数据风控是无效的,陈宇(2015)援引各种证据认为大数据风控是无效的。

总体而言,当前大数据风控有效性欠佳的原因主要有以下几个方面:

(一)数据的质量问题

当前大数据风控的有效性欠佳,其首要原因就是数据的真实性不高,包括社交数据和交易数据两个方面。

1.社交数据的真实性问题

美国lending club和facebook合作获取社交数据,在中国宜信也曾大费周折的收集借款人的社交数据,最后两者得出的结论都是社交数据根本就不能用。美国很多大数据征信公司的信息错误率高达50%,垃圾进、垃圾出。

2.交易数据的真实性问题。

当前许多电商平台的刷单现象非常严重,这将导致交易数据的严重失真。随着网购的火爆,有关电商平台“刷单”的报道屡见报端。

电商“刷单”有两种方式,一种是商家找所谓的消费者进行“刷单”。卖家买快递单号,其收件人和寄件人与实际的买家、卖家不一致。

另一种是快递公司发空包,但快递公司并未完成配送,而帮助商家完成平台上的物流信息。

(二)大数据风控的理论有效性问题

从IT技术层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面,大数据风控还面临一些问题需要解决。

1.金融信用与社会信用的相关性不确定

目前大数据主要来源于互联网,而人们在网络中的表现并不能完全反映其真实的一面。相同的人群在不同场合呈现的特征是不一样的,尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。

例如有些人不善交际,却将自己做的美食展示在微博上,吸引大量关注,粉丝暴增。因此网络并不能确切地证明某人的社交圈子,也就是说互联网的数据很难还原用户现实中的信息。

2.大数据对于“黑天鹅”事件的滞后性

在现实世界,总会出现不可预测的“黑天鹅”事件,一旦出现则有可能冲击大数据风控模型的基本假设,进而影响大数据风控的有效性。大到美国的次贷危机,小到个人意外事件的发生,在某种程度上大数据风控是无法预测的,但这些事件的发生,对宏观经济和微观主体都会产生重大的影响。

例如,2008年美国次贷危机后产生了一种“策略性违约”行为——贷款主体本身有能力还款,但是其在房价远低于贷款总额的时候,重新购买一套房子,并对之前的房贷断供,贷款者可以此方法进行“套利”。

虽然此类违约者会因此有不良信用记录,但是这对信用报告的影响有限,因为其他的债务按期偿还。而大数据对这种突变事件的预测能力则非常有限。

(三)大数据收集和使用的制度问题

在数据收集和使用的过程中也面临着合法使用的问题。如何高效、适度地开发和使用大数据,不仅仅是一个技术问题,也是一个社会问题,这些泄露的数据大量流入数据黑市,造成了用户安全、企业安全甚至国家安全方面的连锁反应。数据的收集和使用在很多时候都没有征得数据生产主体的同意,这导致了数据的滥用和隐私的泄露。

近年来,个人数据泄露事件频频发生,因个人数据泄露而造成损失的新闻屡见报端。猎豹移动安全实验室发布的《2015年上半年移动安全报告》显示,截至2015年上半年,猎豹共监测到496起数据泄露事件,影响超过544万人。2015年10月19日,乌云网发布消息称,网易的用户数据库疑似泄露。

图2 2005-2014年国内外数据泄密情况

资料来源:上海汉均信息技术有限公司《2005—2014年全球泄密事件分析报告》

数据安全问题也将越来越多的企业推向风口浪尖。

上海汉均信息技术有限公司发布的《2005—2014年全球泄密事件分析报告》显示,10年间,全球泄密事件中,我国泄密事件数量占比为58.5%,其中高频发地域主要是东部沿海经济较发达、产业格局以高技术含量为主的一二线城市(如图2)。

Verizon发布《2015年数据泄露调查报告》,报告覆盖95个国家,其中有61个报告了问题,涉及79790个安全事件 Security Incident ,超过2000个 2122个 确认数据泄露 Data Breach

大数据风控有效性的提升途径



与其说大数据风控是无效的,不如说大数据风控尚处于初级阶段。在这个阶段,大数据风控有效性的提升需要以探索的方式解决数据孤岛、数据低质、数据泄露三个方面的问题。从而对我国原有过度中心化、同质化的风控体系进行升级换血,避免系统性风险带给我们的巨大危害。


在现有大数据风控模式优化的长期过程中,政府监管部门、传统金融机构、互联网企业、第三方征信公司、OTO平台将扮演不可或缺的角色。其中,政府监管部门的作用尤为重要。比如数据孤岛的打破,得益于政府监管部门积极的征集多方意见,制定公正严明的法律法规或行业规则,倡导多方加入到信息共享、数据互通的行列。因此,大数据风控有效性的提升,笔者认为,应该从以下三个方面来思考:


倡导数据互联互通解决数据孤岛问题


目前,数据孤岛是大数据风控体系建设过程中资源整合的最大障碍。各个机构和企业在拓展业务的同时,积累了海量的数据信息。但由于各个系统之间缺乏信息共享机制,导致形成了大量的数据孤岛,不利于我国信用基础数据库的建设。


倡导数据互联互通能有效地打破数据孤岛,然而,真正实现互联互通的目标,必须经历漫长的过程。回顾国际上发达国家的信息互通的历程,作为世界金融中心的美国,其信用大数据的开放方式是值得借鉴的。美国最初的数据开放源自于民众对信用数据知情权的诉求。1953年至今,从最早的《信息自由法》到美国总统奥巴马推动数据的开放运动,已经从国内成功地推广到了由美国、英国、墨西哥等8个国家发起成立的数据开放政府联盟(OGP)。


从国内来看,我国在数据开放水平上进步显著,近几年提出了很多创新举措。2015年8月31日,国务院印发了《促进大数据发展行动纲要》,正式将大数据战略定位为国家层面的创新战略。在这份纲要中,提出了 2017 年底前,我国跨部门数据资源的内部共享格局将形成。2018 年底前,将建成我国政府数据统一开放平台。2020年底前,我国将逐步实现金融、信用、企业登记监管、交通、医疗、教育、气象等民生保障服务相关领域的政府数据集向社会开放。


对地方政府而言,我国50个省市在贵阳市政府、贵阳大数据交易所的推动下,将共同发起中国城市大数据产业发展联盟,并于2016年5月27日在贵阳揭牌。中国城市大数据产业发展联盟的成立,不仅从很大程度上推动城市之间的信息共享、数据互通,全面激活大数据价值,而且有助于提升政府行政效率,提升科学决策能力。例如,而且将积极推动政府数据公开,打通部门壁垒、提高行政效率,提升政府治理能力,引领政府职能转型。举例来说,农产品的核心问题是合理种植或养殖农产品,正如郭文利,权维俊,刘洪2010年在《精细化农业气候区划业务流程初步设计》中所言一样,农业气候区划是农民种植好农产品的决定性因素之一。所以说,根据已有的气候、土质、病虫灾害、循环生长等信息,借助于大数据风控技术形成的生长趋势和消费情况报告,对农牧业的精细化生产尤为重要。随着政府数据的共享,农业部门通过气象部门的实时气候大数据预测,可以帮助农民完成科学种植。对企业而言,2015年1月,中国人民银行印发了《关于做好个人征信业务准备工作的通知》。通知要求芝麻信用、拉卡拉信用和腾讯征信等八家机构做好个人征信业务的准备工作,具体来说,截止到2015年末,央行个人征信系统共收录8.8亿自然人数,其中3.8亿人有信贷记录,企业征信系统收录企业及其他组织2120万户,其中577万户有信贷记录。数据量的爆炸式增长,反映了政府监管部门、金融机构和企业之间已经开始进行大数据的分享尝试。由此,拉开了大数据交叉互通的序幕。


增强数据检验能力提高数据质量和可靠性


伴随着数据采集渠道的日益拓展,通过交叉检验、生物识别和机器学习等技术来解决数据低质的问题显得迫在眉睫。


据悉,目前贷款包装、组团欺诈、账户造假等情况屡见不鲜。尤其在信用贷款领域,欺诈占了60%的比例,大部分采用身份造假和资料包装。其中,在实名场景欺诈层面,大数据风控模式需要对身份冒用、虚假信息和不良历史进行风险识别;在非实名场景欺诈层面,大数据风控模式需要警惕虚假注册、恶意抢购、买卖串通和营销作弊等手段。面对互联网金融在中国的爆炸式增长,商业银行等信贷机构缺乏外部大数据的采集意识和技术。举例来说,一家创业企业在银行成功获得授信额度为50万、为期1年的人民币贷款。这家企业同时在多家小型P2P企业获得多笔小额贷款,为了在银行获得更高的信用额度,其利用商业银行、P2P企业之间信息不对称的机会,将P2P借款还给银行,以获得银行的第二笔额度更高的贷款。如此循环,这种“类旁氏欺诈”并不会被银行和P2P觉察。然而,随着我国大数据开放程度的日益扩大,交叉检验等技术的日趋成熟,“类旁氏欺诈”的真实面目将会暴露无遗。


另外,现存的大量人工审核工作将会被智能审核技术所取代。比如第三方征信机构——芝麻信用积极地寻求外部合作,打通公安、工商、法院部分数据接口。拥有着丰富的内外部大数据,数据种类涵盖衣食住行、生活缴费、投资理财、转账支付、社会公益等数百种生活场景数据。与此同时,蚂蚁金服借助芝麻信用公司的信用大数据,利用机器学习、视频对话和笑脸扫描等先进技术手段,对内外部大数据进行交叉检验,有效快速地进行风险识别和定价。借款人从申请到授信,只需要7分钟。


推动数据安全相关制度的建设防范数据非法泄露



无疑,数据泄露是大数据时代不能忽视的一个风险来源。 1997年以后,互联网在中国飞速发展,我国逐渐进入信息化社会,民众的衣食住行现在已经和互联网紧密地联系在了一起。 由此,数据安全已经上升到与国家、社会、个人息息相关的问题。 对于国家而言,继国防安全、金融安全之后,数据安全已经上升至第一安全的位置; 对于社会而言,数据安全成为了信用伦理体系健康建设的重要一环; 对于个人而言,如果不能保障数据安全,那么个人隐私信息将无法保全,随之而来的是整个社会的信用风险的爆发。


我国在数据安全立法起步较晚,但是进展神速。2013年11月12日正式成立国家安全委员会。2014年我国在2013年11月12日正式成立国家安全委员会,并在2014年2月27日成立中共中央网络安全和信息化领导小组办公室,由习近平总书记任组长,这意味着信息安全正式提升到国家战略高度。2014年8月28日,工信部发布《工业和信息化部关于加强电信和互联网行业网络安全工作指导意见》,提出完善网络安全保障体系的总体目标。到了2015年6月24日,民众最为期待的《网络安全法》草案进入人大常委审议阶段,2015年8月5日意见征求结束,立法进入最后阶段,正式推出在望。《网络安全法》将从保障网络数据安全和保障网络信息安全等方面进行了具体的制度设计,这对于大数据风控有效性的提升,是最大的利好。


在数据安全意识方面,难能可贵地是,2012年的达沃斯世界经济论坛上,就一致决定将数据纳入到新的经济资产类别。我国学者刘玉在《浅论大数据资产的确认与计量》中探讨了数据作为一种经济资产的会计计量方法。


大数据风控的跨领域应用


2011年2月17日,全世界记住了IBM的沃森计算机系统。其在智力竞赛节目《Jeopardy》(危险)中打败了两名人类挑战者,计算机科学家们认为这是大数据超级计算能力的胜利。自此以后,大数据正式开启产业应用的先河,短短几年间席卷了金融、科技、政府、教育、医疗等多个领域。其中, 金融作为一个以数字体现价值的典型行业,大数据技术已经广泛应用于金融的多个领域,比如风险控制、客户管理、精准营销和产品服务创新等。

金融领域的应用


众所周知,大数据技术在风险控制领域的应用是非常广泛的。大数据风控在金融领域的应用,根据风险类型的不同会有所差异,如申请欺诈风险、交易欺诈风险、支付欺诈风险、信用风险、合规风险、市场风险、套现风险和洗钱风险等。笔者将从最重要的两类风险:欺诈和信用来进行探讨。反欺诈主要是通过身份核验,黑名单排查来解决1,数据真实性2还款意愿问题.征信,主要是对还款能力和还款意愿的一种判断。


举例来说,JPMorgan是较早采用金融大数据风险控制解决方案的投资银行。其反欺诈和信用风控的原理是基于事件驱动型的实时欺诈检测和信用风险监管。在信息采集方面,客户的数据大部分来源于线下业务系统累积的结构化数据,小部分数据是在Facebook和Twitter等社交网站上采集的半结构化或非结构化数据,比如文本、视频等。经过数据交换平台和Hadoop分布式系统的集中处理后,JPMorgan的金融大数据系统会将统一格式化后的数据存储在数据仓库。








请到「今天看啥」查看全文