我们给一个人做风险定价,其实就是看你违不违约,违约无非就两点,还款意愿和还款能力,在极小额下,5000块钱以下,绝对意义上不存在还款能力的问题,什么情况会导致这个人有还款能力的问题,有一个指标叫失业率,我就赌一件事儿,国内不可能发生失业率大幅上涨的问题,你要大幅上涨了,确实我的日子都没法过了,我拿什么还你钱,但凡失业率这个指标不受到影响,小额上应急的钱不会出现绝对意义上的还款能力问题,这个事情也是一个统计意义上的。因此,问题变成了看还款意愿,也就是判断想不想还,我怎么知道你想不想还,那些传统维度的数据我又没有。
移动互联网的发展会让一个人各种生活行为信息沉淀在线上,包括衣食住行娱乐各方面的数据,我就知道这个人是什么样的社会关系网、什么样的消费能力、什么样的爱好等等,所有这些信息都可以帮我们刻画一个人,但是这些信息对一个人的金融风险有没有刻画能力我不知道,我要验证一件事,叫有可能有,刻画能力是不是很强?一定不强,如果把它加在一起能不能对人做一些分类,兴许能分类,定量的事情让机器去做,当我分类以后,是不是有一波人或者不同波的人,金融风险会不一样,这是我们做这件事情之前的一些基本的大胆的假设。金融里最重要的问题是识别风险,任何风险都有一个生意可以去控制这个风险,只要我能有效的识别风险。
我们有一个这样的假设,我们就去做这样一个验证,机器学习本身的逻辑是,你给我这几种数学函数描述这个世界,我有几个基本的假设,你给我结果,我参考你的数据,我看看跟你标准答案之间的差距,我来做不断的验证和调整,最后我能不能达到你的预期效果?它有几个因素解决:
因素一,
你给我学东西要有相关性。
因素二,
你让我学的东西和预测的东西是一回事儿。
因素三,
我学的东西和预测的东西是一回事儿,我学习的目的就是无限逼近认识上限。
这三个事情搞定了,学习的效果就出现了。
数据和特征的差异是什么?从学术上来说,特征工程是把原始数据加工成机器学习可以去使用的矢量数据的过程,矢量数据比如说我是一个向量型的,里面有100个列,每个列代表一个含义,每个列有一个取值区间,每个列可以做一个标准化,这个事情我加工好了以后,跟原始数据千差万别,但是我给你做了一些加工以后,成为了一个向量,这就是一个矢量数据。特征工程要做的事情就是把原始数据都加工成什么样的向量的过程,它是一个反复的过程。
原始数据之间没有关系吗?也可能有,当我把原始数据之间的关系,通过组合的方式放到一起,也是一个新的信息。特征之间通过组合会产生新的信息量,特征工程需要解决各种各样的问题,至于上面如何做一些特征发现、特征挖掘、特征处理的方法,如何做一些线性的拟合,如何做离散化,离散化如何做一些泛化能力的处理,如何做区间化的努力等等,所有这些东西在特征工程里都是需要考虑的一些数学问题。
下一个问题是学习的能力,在金融领域里,到底用什么样的数学模型去描述是最合理的?现在没有任何一个标准答案,至少金融领域里还有一个问题是周期,你连完整的周期都没经历过,怎么就有一个结论告诉我,这个模型能够解决这个金融问题,对于我们来说要保证效果、预测能力,周期要经过时间验证,我要尝试不同的方法去看不同周期下效果怎么样、稳定性怎么样。
我需要有一个比较强的计算能力,里面的技术怎么干?技术实现数据计算的时候,如何接入,我如何保障足够快、足够安全、足够稳定、足够大的吞吐,接入进来以后要面临的下一个问题是数据要落地,落地叫做持久化,持久化我要考虑一个问题,未来用了,用的时候是不是任何都可以,拿硬件复制一下就可以,但是用的时候发现读取速度不行,寻址能力不够强,数据读取慢,我持久化的时候要选择一个合适的方案,根据你的数据结果和应用场景来定。数据结果有图,图得考虑图数据结构应该怎么来存,就选择一个技术选型,比如你里面有非结构化的,OSS可以解决的问题,也是不同技术,关键数据库也可以干,关键数据库就可以用一些开源的技术方案帮我解决这样的问题。
你对外提供服务的时候,要看你是一个实时性的给我提供服务,还是可以延迟性提供服务,在我这儿决定了我怎么去读,是否有缓存,缓存如何做失效,以及数据传输如何保证质量、不丢消息,这个使用是不同技术方案的解决。最后的效果要保证你的东西是可靠、准确、快速、足够大的吞吐能够解决对应的计算问题,这个问题就完美。我们解决所有问题,就要干这个事儿,要没有这个能力,你有再强的大脑都没有用,因为没有给你输入。
样本这一块需不需要做一些事?样本是我的目标,样本一定要调整,样本是对现实世界的抽样,你之所以拿样本作为一个目标函数,是因为你认为未来的数据和你的样本之间有代表性,在里面的所有样本难道都是OK的吗?一定有异常值,异常值意味着因为某一个异常值的存在,会让你在整个预测结果上看起来效果好,但是这个预测是有偏的,因为样本是有偏的,所以样本的调整、样本的选择,不同渠道到底是不是样本,不同人群是不是样本,不同设备是不是样本,不同时间段来的是不是不同样本,这个东西都需要我们反复论证去验证,到底样本选择在我的模型下学习的时候,怎么去学,样本的事情也非常重要。
大家都会提,我在里面有什么逻辑回归,有什么决策树,有什么随机森林,有什么神经网络,这些都是不同的数学描述函数,这些函数的不同意味着它们对现实世界描述的能力会有差异。我在做基础选型的时候,到底选的哪一个描述能力的函数去描述它,取决于我对业务的理解,我拿一个我认为可以解决这个复杂度的函数来测试一下,看能不能解决掉,我看看你是因为拟合有问题,还是效果有问题了,这个时候去做一个策略调研的过程,从这个角度来说,我希望大家能够去了解,人工智能到底是能够帮我解决什么类型的问题,哪些比人还做的好,以及人工智能真的能帮我解决所有问题吗?能帮我解决所有问题的前提就那三个,你得有一个描述能力的函数,你得有一个学习的对象在,你得告诉我一个目标函数,如果没有目标、没有学习对象、没有一个描述的函数,什么事都干不了。
三、关于智融集团
我们公司之前叫用钱宝,今年3月份刚完成C轮融资,C轮融资以后我们品牌升级叫做智融集团,智融就是智慧的金融,我们公司从成立第一天开始就希望能够从普惠金融的角度通过技术给每个人提供智慧的金融服务。我们发现在传统信贷领域,其实有若干种能力,一种叫获客,一种叫风控,一种叫放款,一种叫贷后,中间有一个决策叫坏账计提。传统银行的方式都是一个功能体打包,按照门店的方式在线下成立,承担了这几个职责。因为互联网的出现可以让我因为有新的手段,能够让这几种能力单独分离出来,能有更强的能力,获客不用通过线下门店获客,在线上可以通过一个APP获客;风控不仅能为自己的产品服务,一样可以为其他的产品服务;贷后不仅能够减少自己的不良资产,也一样可以为其他的公司不良资产服务,这一块相当于我们具备了不同种的能力,不同能力我们希望能够服务自己的产品,也希望能够向行业输出我们的能力。
我们的风控引擎,我们把它叫做I.C.E.,每个字母都有含义,I叫识别(Identify),特征学习知识点,C叫更强的计算能力(Calculate),E对应的是定价的能力(Evaluate),这三个能力加一起是对我们人工智能风控引擎核心能力的描述。
这是我们自己的风控引擎能力,我们做的还不错,背后计算能力还挺强,数学函数的描述方法还挺多,我们对于一些原始数据的理解和加工能力也非常强,这里面体现在你有多少维的特征,参考多少维的数据,我们其实蛮多的,但这个事儿跟大家说有点太广告,简单说我们做的还不错。最后的表现,我们在一个用户严格算Vintage(每个月分母不变)的情况下,按照严格的方式去算逾期率,而不是某一个期末逾期率,那会因为你的分母变大,你的逾期率肯定不准,就按照我们综合逾期率60天算坏账,一直都稳定在同行业平均水平的60%。
大家在不同类型的资产上,逾期率可能可比性会比较差,但在我们这部分非传统银行人群下,我们能够做到的结果,在行业里面是最好的。机构都说你们说假的吧?我说咱们不用说数字是真还是假,我既然找你来合作,我们希望能够建立合作,既然建立合作有一个环节一定跑不了,就是尽调,尽调的时候你给我相应的数据,我还要抽样,我要抽样至少15万笔可以支持你抽15万的数据,不管是所有月还是某一个月,看我最后的表现,并且能够逐笔的回溯,有流水的方式可以看到,到底你的表现是不是真的,这个一定是说一个非常准确的数据,因为未来大家一旦在一起合作,信用就非常重要。金融领域里有一个核心的点是信用,一个企业的信用需要很长时间的积累,我如果在外面说一些虚的事儿,大家一看不是那么回事儿,这个事情大家在金融领域都是半透明的,不管是对资金方还是对资产方。
牛顿说,自己好比是沙滩上玩耍的小孩,这边捡个贝壳,那边捡个鹅卵石,但是真理的大海就在他的面前。300年后的今天咱们已经积累了非常多的鹅卵石和贝壳了,我们需要做的事情是什么?用AI这艘能够带我们去远航的船,帮我们去探索未来的这些未知的世界。