7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。
在本次大会上,蚂蚁金服副总裁兼首席数据科学家漆远博士发表了主题为《金融智能的发展与应用》的演讲。漆远表示,蚂蚁金服今年的两个关键词,一个是“开放”,一个是“AI”。
在此次演讲中,漆远从风控系统、智能助理、定损宝等产品案例出发,全面介绍了蚂蚁金服产品背后的 AI 技术。
现场,蚂蚁金服的“模型服务平台”首次公开亮相,主打“模型所见即所得”。漆远表示,数据是资产,模型本身也是资产。未来,蚂蚁金服也会将这个平台作为其中一个AI能力向合作伙伴和客户开放。
以下为漆远博士演讲实录:
今天很高兴给大家作一个分享,介绍一下AI在蚂蚁金服的发展和应用。
首先我会讲一讲为什么我们要做AI,为什么呢?因为AI离不开场景和数据,为什么要场景,因为我们要解决真正的问题,产生真正有意义的服务。在金融里面我们有大量的服务,从支付、保险、财富、到风控、微贷等各个领域,其中典型的场景就例如要判断某个小企业是否具备相应的信用能够承受贷款的风险。
在所有的场景里面产生了海量的数据,而这些数据成为了人工智能的燃料,使得我们可以发展和应用一系列的人工智能技术。而这些场景、问题本身又为人工智能带来了挑战,比如说时间敏感要求一笔交易需要毫秒级完成判断。再如海量数据,一天几亿笔的数据,这就需要非常大规模的稳定的风控的系统。还有业务多样性,比如说怎么用迁移学习来发现不同任务之间的共性。再比如说系统性风险, 系统可以用一个网络来表达,那你怎样从网络的角度分析问题。还有强数据安全和用户隐私保护也是金融业务本身的属性。
面对这些挑战我们构建了一个金融智能的平台,从底层的图像理解,以及使用阿里巴巴集团的语音识别能力,在此之上发展了NLP的能力,然后这上面进行机器学习、深度学习,分析时间序列,比如说预测余额宝的利率变化;在最顶层,我们发展推理和决策的能力,使我们能够帮助我们的用户和金融合作伙伴做出明智的决策。
在这个金融智能平台中包括了一系列的人工智能技术,比如说强化学习、无监督学习、图推理、共享学习。这些技术具备金融领域的实时对抗性、大规模以及安全加密性。
今天讲几个例子,从例子出发讲讲背后的技术。在这之前,我先讲讲蚂蚁金服现在的两个关键词。蚂蚁金服我们定位为Techfin,而科技公司的一个核心的是什么?是AI。所以今年蚂蚁金服两个关键词,一个是“开放”,一个是“AI”,我们希望通过AI驱动所有的业务,同时作为科技公司,我们技术成熟一个开放一个,所以下面探讨的技术也是探讨如何开放给伙伴。
安全风控
首先是在安全风控中,里面有用户、设备、商家,他们之间通过资金流动形成互联。传统的风控技术中我们建立了很多的规则和模型。蚂蚁金服过去十年通过使用大量的机器学习建立强大的风控系统。但是今天我们希望进一步地升级风控系统。比如说可信模型,我们想判断有一笔交易是否存在账号被盗。而这里面我们使用了一个跨界的技术,其实就广告CTR预估的技术。 在2014年Facebook广告算法的文章中, 讲的是GBDT+逻辑回归。使用我们开发的参数服务器技术,我们把逻辑回归换成了大规模深度学习,使用到风控里面: 通过GBDT产生特征,然后DNN继续学习。 因为在风控里面很多特征我们无法判断哪些有用哪些没有用,我们用GBDT产生海量特征然后把这些特征feed给深度学习模型。
前面是说我们把GBDT和DNN结合起来考虑风控。深度学习往下走,我们也考虑关系,用户、商家、卖家等的关系,下面我举一个例子,我们通过embedding技术,把整个关系结合起来,形成图形网络,然后进行监督学习、加强学习。
给大家看看例子,比如说支付宝账号的账户(行为),我们一个网络有好人、坏人,有设备比如说手机、计算机,iPad等,我判断今天这个人是否注册一个垃圾账号特别简单。我们可以把整个的图关系通过一个embedding的技术产生一个深度学习的网络,通过机器学习产生一个隐层表达,这个表达不光涵盖了每个节点自身复杂的特征,同时还对网络结构做了一个encoding。在垃圾账号的识别上,在经典的Recall-Precision曲线中,Precision越高越好,接近1就是完美。原来的规则是不具可采信的,现在我们对图使用embedding技术后有一个质的飞跃,Recall在70%、80%的时候,Precision达到90%,而原来的算法Precision在40%几,这基本相当于瞎猜。这个和以前的系统相比,Node2Vec也是非常先进了,我们在此基础上又做出了明显的提升。
将图的关系和Feature结合起来,可以产生非常Power的模型,用在我们的模型里面。通过广告的算法提升了系统,我们进一步学习,将深度学习和图模型结合起来,可以融合网络关系与复杂特征。
智能助理
下面讲讲另外一个方向,在过去的很多年,不管是中国还是美国,讲起智能助理和机器人都是非常热的话题。这里对话很关键,在蚂蚁金服初始的对话从客服机器人开始,如果你使用支付宝,打开客服小蚂答可以问各种各样的问题,例如你问余额宝收益怎么算,他就给你一个这样一个答复,提供工具输入金额并计算。然后还有财富的理财渠道,你问某个企业业绩怎样就会开始进行舆情分析,舆情分析在金融里面非常多的应用,我们可以自动分析,海量的舆情在中国国内,为月新闻、周新闻相应地打出舆情分。
下面讲两个技术,在对话机器人里面,在客服里面,假如问了这句话我怎样申请退钱回来,它是没有场景的。在问答系统中要理解它,就要真正知道在问什么,我们可以根据用户的近期操作,这些操作本身就提供了一个背景和场景。我们通过LSTM对用户行为轨迹做一个编码,然后整个模型是一个深度排序模型,比较哪个更相似,通过LSTM建立模型,把怎样申请退钱回来的用户问题,和转账转错怎么办和为什么银行卡转账被退回来,这两个进行答案匹配。我们给出正确的选择转账到账户错了怎么办。这里有一系列的创新。这些创新今天不一一讲。最后的结果,去年双十一智能客服自助率做到97%。同时今年我们问题解决率超过了人工客服,机器人回答问题比人回答更为满意。
这里对舆情分析背后技术简单介绍,首先一个特别简单的模型,就是统计这些感情单元,同时又和深度学习的方法结合,最后产生整体的判断,这里面的话使用CNN,k-max pooling可以结合起来,还有TNN,将所有的信息结合起来进行一个综合的评价。
刚才两个例子讲到对话机器人,第一个是客服,第二个是财富号的舆情分析。再就是保险,同时支付宝本身也在进行升级,您对支付宝可以说话,比如说我要给我的同事通过语音进行转账,自动完成转账并记录到账单里面。
机器学习平台
下面第三个讲机器学习平台,这是我们团队在阿里第一年开始做的工作,后来在蚂蚁继续和阿里集团合作开发。现在它是阿里和蚂蚁金服使用最广泛的大规模机器学习平台。2015年我们用于广告取得非常好的效果,后来用于淘宝推荐,前年用到双11推荐,今年又用到了蚂蚁的风控里面,其实它的核心技术就是我们能够通过系统和算法的结合,处理海量数据。所以在风控系统里面,我们可以在同样安全覆盖的情况下,提升召回率,每天一千多万笔可以准确轻松地通过审查。这个平台前年做到了,但是今年才写文章出来。它能支持100亿特征、千亿样本、万亿参数。这是说它可以支持非常多的数据和特征,我们能从数据中提取价值做出预测。