专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
宝玉xp  ·  //@程序员邹欣://@张作风流行病学教授U ... ·  21 小时前  
黄建同学  ·  回顾 OpenAI 和 ChatGPT 的 ... ·  昨天  
爱可可-爱生活  ·  //@爱可可-爱生活:「AI深度思考」专题汇 ... ·  2 天前  
爱可可-爱生活  ·  【kubesre ... ·  2 天前  
51好读  ›  专栏  ›  机器学习研究会

北大 AI 公开课第3讲:蚂蚁金服漆远 人工智能驱动的金融生活服务(附27页PPT和回放链接)

机器学习研究会  · 公众号  · AI  · 2017-03-08 18:57

正文




以人工智能驱动金融生活服务为切入点,北大“人工智能前沿”系列课程第三讲为观众描述了AI在特定领域的实现和应用。蚂蚁金服VP、首席科学家、普渡大学终身教授漆远博士担任本节课的主讲嘉宾。北大人工智能创新中心主任、百度创始七剑客之一雷鸣则依旧扮演主导者、提问者和辣评者的角色。两位老师对AI技术落地经验的反思与讨论,则成为个人宣讲和强强对话这两个环节的点睛之笔。





金融生活的技术元素




今天主要向大家介绍一下蚂蚁金服在人工智能上的一些应用和发展,也欢迎大家和我进行沟通、交流。两年前,我来到杭州,并加入蚂蚁金服。目前,蚂蚁金服正在进行国际化建设,我们在硅谷也建立了团队。同时,我们的 country manager 在各国也有所发展。很多外国人并不了解杭州,当我们在介绍杭州的时候,我们首先会说G20刚在杭州举办,奥巴马、普京等各国元首都去过那儿。然后,我们会进一步介绍杭州与其他城市的不同之处。



其实,杭州的变化只是中国万千城市的一个缩影。3年前我回国,发现从早上打车到中午吃饭,从看电影买票到全家去泰国旅游,所有活动我们都或多或少使用阿里系的产品,例如飞猪、支付宝。这个背后蕴藏着智慧城市生活服务的概念。举几个例子,支付宝可以在杭州城区购买地铁票;当芝麻信用超过一定分数时,人们可以免押金入住酒店,免押金租房;人们可以使用支付宝在中医院挂号,可以乘坐公共汽车。其实所有这一切,都是依托场景。大家会问,讲AI为什么要讲这些? 最近有人写了一篇文章,讲AI的娱乐化趋向。其实是讲了一个 common sense,就是做AI离不开场景。



场景的 vertical domain 非常重要。在杭州,人们拿一个手机,就可以享受各种各样的服务,而这些服务的背后产生了海量数据。对人进行多维度刻画,也让我们对社会有更好的理解,产生更有价值的服务。在浙江,一年有6亿人次享受城市服务,全部通过手机实现。例如,95%的超市、便利店可以用支付宝进行付款。



其实,我们和城市政府直接对接超过100项市政服务,比如司机闯红灯,可以通过支付宝进行直接赔付。正如ppt上列举的,有很多各种各样的场景,这些场景可以说是金融生活服务,例如医疗,缴费,教育,乘坐高铁、地铁、汽车,交罚款,查税。这些在杭州,大家已经习以为常。但在3年前,我刚回国的时候,其实非常吃惊。因为在国外,大家基本使用电子邮件。我交水费一般去镇中心去交一张纸,要交信封的,包括交手机费也是在网上填写。在国内,手机费这些全部通过支付宝进行。还有一个非常有意思的应用,芝麻信用分比较多,若手机会没电,他可以帮你借充电宝。




所有这些案例背后,其实我们产生了一个显微镜或放大镜,可以看到人的不同的角度。如果把它piece together,就是所谓的信息融合,其实可以产生非常多有价值的服务。这张图其实说明了蚂蚁金服是技术驱动金融生活的一个公司。我们是一个技术重塑金融的公司,并不是要做一个银行,而是要做一个技术驱动的公司。就技术而言,人工智能、block chain(区块链)其实会推动金融行业发生重大的变革。



其实场景或者计算的背景,比如card computing,GPU图形计算卡上累计了各种各样的场景,这些场景一边为我们带来数据,一边带来真正有价值的服务。





人工智能驱动金融生活





我领导的部门在做什么?其实,刚才雷鸣有一个很好的介绍。我们在阿里做了一个科学技术研究院,后来我们希望更接近场景,在蚂蚁金服建立了AI部门。其实就是把智能的技术赋能于各条业务线和各种应用。这背后,首先,我们要有这种能力,比如自然语言处理、机器学习、图像识别等。然后,我们把这些能力应用在非常多的场景,例如做credit征信。大家知道,在美国,你想要买辆车,租房子,买房子,你的信用分直接决定你的贷款利率。我们说信用等于财富,在国内如何产生信用分?这是个技术活,我们需要从数据,从各个角度、维度来判断一个人的信用。当然不光是人,还有小微企业。我的朋友之前提到说,一个农民、一个小企业需要买个拖拉机,或者买点种子。那么如何做?传统的银行做贷款靠人力其实非常昂贵。我们希望运用大数据的技术,通过智能的技术把它自动化,降低成本。比如风控,搜索,智能助理和营销。关于智能助理,其实很多公司都在做。过去的一年,智能助理在硅谷有几百家创业公司。这两天有一篇文章说这几百家估计都要完蛋。为什么呢?其实因为你做这个东西,大家首先要问一个问题,你这个技术能产生什么样的价值,能提供什么样的服务。而蚂蚁金服有非常好的落地点,因为比如智能客服,我们有海量的电话要接,海量的问题要回答。比如,我们的基金销售,理财顾问,保险顾问,审核等。在这一系列的环境中,智能助理是一个非常落地的场景。



另外一个应用就是marketing(营销),营销从任何商业角度来讲都是非常重要的。假如,今年给你10亿做一个营销策略,你怎么来花10亿元?这其实是个数学问题,是个大数据问题,也是人工智能问题,那这个问题怎么解决?这张图我们总结了蚂蚁金服的一些应用。简单介绍一下一些主要应用。第一个应用,刚才提到的企业、个人的贷款,我们希望通过大数据,能够产生真实模型,包括定价,后面的反套现反欺诈等等。通过大数据、云计算,能够使成本急速降低,保证风控的质量,才能大规模,低成本。另外一个就是交易风险。显而易见,支付宝在迅猛发展中有几亿用户的情况下,我们推行国际化,我们在印度有合作伙伴ERE,我们在韩国、新加坡、菲律宾也有发展。如何把风控能力输出,一旦输出之后,其实每个国家都不一样,你怎么能够控制这个风险?


就刚刚提及的客服,我们延展了一系列这种应用,后面我会专门提到一些应用。财富,精准营销,个性化推荐,理财,智能投入等等。其实这两个是密切相关的,因为好像信用评估,它可以理解为企业、个人微贷的底层核心能力。今年,我们信用的核心目标是开放,开放,再开放。不只是自己在做,也希望有更多的开放平台,和大家合力一起往前做得更好。


另外就是保险。保险本身是一个数据驱动的应用,从营销到保险的个性化定价,到新的基于互联网的场景,新保险类别的开发等等,其实都离不开数据。下面给大家举几个例子,希望大家有一些直观的感受和理解。




第一个例子就是客服,刚开始的时候,我们是从回答问题出发,比如说花呗怎么还款,它能够自动找到相关知识点,进行回答,告诉用户花呗从哪里可以还款。其实如果只做一个Q&A的话,用到的技术相对简单,有可能是一个知识库的标准化问题,一个搜索的框架,有可能再结合简单的knowledge base或者knowledge graph,就够了,并不需要很多轮的对话。


第二个例子就是参与问题,比如,我们今天回答一个问题,我其实不光看到你说的话,同样也可以看到用户行为轨迹,多个数据源进行结合,然后自动判断今天有可能有什么问题。有一个真实的案例是,我们团队有一个同学,他拿出支付宝打开“我的客服”。当时在电梯里没有信号,等我们出了电梯之后,“我的客户”自动跳出问题——没有wifi的情况下应该怎么办?由于系统自动在分析当前你可能遇到的问题,没有问题,也在参与问题。而这个其实解决了百分之七、八十的客户问题。对于很多人来说,幸福都是相似的,不幸的是百花齐放的。其实对于客服很多不幸都是非常相似的,遭遇的问题都非常相似,特别适合机器学习,几个人问的问题,全国范围内都有同样类似的原因。先把前面的问题解决掉,学到之后,普世地全部应用。这样的话,其实学完之后,机器可以立刻猜出来,你要问什么,如果你没有问,我都知道你有什么问题了。


另外一个是客服工作台,就是人机结合。今天大家讲人工智能,其实是人工加上智能。很多地方机器做不到,我们希望人进来。那我们客服工作台就是,我们看具体的客服人员,看他们怎么解决问题。我发现当时客服工作台还特别落后,很多做得好的客服人员,他其实根本不看这个工作台,因为看到特别痛苦。那我们其实可以继续学习,怎么来优化,好的员工经验怎么使用,优化这个流程其实有重大的商业价值。刚才说的人工策略其实就是要判断你的问题。先进入自助,大家比较痛苦,然后人工再介入。



其实人工智能重要的是要识得准,读得懂。就是特别简单的一个问题识别(CTR),包括上下语义匹配,客户真实意图识别。然后进行标准问题映射,再找到多方面的服务标准化或需求驱动。而做了这个之后,自助转人工的需求猛地下降,也就是大家满意度提高,而这个自助服务占比已经从62%提升到90%。我们做了不到两年,在去年双11中达到97%。以往我们的双11。阿里所有的客户客服全部加班,做了不到一年半,其实他们去年已经没什么事了。以前都是比赛,谁回答问题多发iPad,去年都没有团队比赛。第一年的时候,我去看阿里的壮观数据,第二年我们要到一线,就去了成都的客服中心。和他们一起接电话,接到下午没电话了,发现大部分都回答了。第三年我们就不去了。


今年我们的目标已经不是自助率,而是问题解决率。什么意思呢?你如果猛烈提升自助率,百分之百自助,但是有可能大家特别不happy,大家都会最后要再转入人工。首先是浪费时间,用户体验非常差,所以,到今年夏天,我们的智能客服的问题解决率从百分五十几,到现在快70%,而人工的用户问题解决率是71%到72左右,我们的目标就是要超过人工。超过这个意味着什么?其实我不光能够自助,我回答问题比人还准。那其实这个代表什么?我们项目做了不到一年,当时就定个小目标,他们财务统计了一下,不到一年,我们为公司省一亿,除去人的成本和GPU的成本。我们客服部门去年其实裁了100人。减少的100人去做递推,做口碑业务,这部分大量的人力就省下来了,这就是AI真实的案例。



其实AI有各种各样的应用。刚才讲的应用有关问答、参与问题,假如有问题已经发生了怎么办?我们能不能迅速定位迅速来解决它?这个就是异常检测。核心思想有几部分。一部分就是实时计算,要把数据实时性提高,做到秒级定位。原来一个流程发现一个问题,到电商的商务异常处理,需要两小时。从发现问题13分钟,到响应介入50分钟,到异常环节75分钟,到最后环节要两个多小时,125分钟,这是以前的过程。现在的话,我们秒级解决问题,就是零分钟预知,解决问题不到半个小时。这样的一个例子其实省下了快1000通电话,而这个例子有很多,就省下无数的电话。这其实,大家说AI要代替人,其实也是解放人,因为做客服是比较闹心的一个工种,因为你每天听的都是别人在跟你讲我当前遇到的问题,心情都不是特别好,其实大量工作可以继续帮你解放人。


那我们能做客服,能不能往前再走一步,我们回答其他的问题,我们还有一个APP叫聚宝,比如我们的理财服务,我们这个余额宝的服务,就是余额宝货币基金,我们还有这个其他的基金服务。我们就开发机器人,专门回答关于基金的各种问题。比如说这个问题,他讲这个镜头是什么意思,然后就把相关的这个问题找出来。另外一个就非常个性化,他说我是不是这个mutual fund的持有人,机器人看到你已经有这个icon,有这个标志,自动就分析出来,你其实已经持有了,因为这个跟用户数据直接相关的。就是在做这种智能助理时候,一方面是你知识的理解,另外一方面是对用户本身的理解,我们要懂,你懂世界,懂这个外边的变化,要懂你的用户叫KYC,或者银行叫KY。另外一个比如说重仓跌多少,为什么涨?其实也是我们发展的一个project,那这个企业入驻,3500个是比较非常早期的,现在又过了半年,这个企业数字应该大幅增长了。我们不贪多,但是我保证质量好,我们的问题回答满意度超过90%,这样可以保证这个指数的曲线一直往上涨。


再举一个例子,就是保险行业。保险行业今天有什么难点,很多人买保险,产品就像在美国一样,国内也一样。就是特别小特别多,一看没看明白到底保险产品什么意思,或者理赔的时候,流程特别复杂,而很多过程本身,其实你可以通过智能助理的手法来进行解决,或者辅助用户,起到更好的理解产品的痛点,理解产品到底在说什么。



下面再给大家讲一个案例,就是个性化产品和资讯推荐。这个其实已经非常多了。如果只讲个性化推荐呢,其实不值得一讲了,因为所有的公司在做,但是为什么我讲这个呢?因为跟传统只做推荐不太一样,阿里是一个生态系,那生态系里面其实各个数据都会进来。我不是说因为你看过的文章,又推一篇文章。对吧,这是头条的经典模式,那有各种各样的,比如电商的购买行为能否助力财富和保险,我们叫迁移学习,或者叫信息整合。这种情况下怎么能做到?




比如说这个资讯阅读能否支付消费,其实还是比较跨越的。但是其实每一个人各个维度都有一个综合的理解。我们其实就开发一些基于深度学习的技术,叫我们叫蚂蚁DNA,就是一个编码技术,其实很简单,做一个embedding,然后把这个用户实体包括产品,文本和外面的article,我们做一个统一空间里embedding,转来转去有很多点。然后,把这个人在这个点里边直接表达出来。它的好处,比如说加密,如果你只看着点,你是不知道什么意思,但是很多合作方,比如说,我们保险公司合作,把这个用户的数据加密,非常关键的一个问题。


这里有两个简单的例子,一个是用户属性,另一个是阅读偏好。这个其实还是挺有意思的,有点surprise。你看这个我们发现男性45岁,政府机关,喜欢看财经政治教育,女性大学生喜欢看娱乐美食。我们后面会讲到保险,他们做推荐的时候发现具有谨慎性偏好。我后面再讲保险的会讲到这个例子。其实一旦做了100点之后,原来以为八竿子打不着,是你放在一起,大家从一个新的维度来看他,这个时候你对人的理解更加深刻,对产品理解更加深刻。但是你要看到,一旦你真正能够把算法、业务、系统整体的打通在一起看的时候,其实能得到很多好的效果。与以前算法相比,这个算法大规模提升深度学习近6倍左右。其实在我们聚宝里面,如果您看到一个基金推荐,不光那个基金是个性化推荐,连推荐原因都是个性化的。咱俩看到同一个基金,上面原因就是不一样。有可能你喜欢跟大V,我喜欢看这个产品本身的分析。






另外一个是我们对保险的运营,比如对保险产品进行个性化推荐。当然了,这个其实从一个科技公司的角度来说有很大好处,这个能力一旦建起来之后,你可以做舆情分析,财经智能问答。因为你把这个底层能力一旦建立起来,对文本分析的能力,对事件和个人的描述能力,其实可以产生很多新的应用。一个简单的demo,我们输入一个基金,可以找到相关的材料,比如说相关板块的股票走势,相关的股票等等。其实这全部是基于深度学习进行相关的开发。另一个例子是安全。安全上,其实我们每笔交易要控制是不是一个fraud,是不是一个虚假交易,那当然贷款本身有风险,这里讲的主要是交易风险,以及舆情风险。其实他是也是一个多个数据源的融合,也有人的策略,人的规则,是整个结合。





最后我们讲一下这个所谓的蚂蚁安全大脑。这是蚂蚁金服正在发展的,是从眼纹到人脸到正在声纹等整个结合,用来证明“你就是你”这样的问题。这个其实有非常大的价值。还有比如驾驶习惯,其实有很多都可以从技术来改变传统保险产品开发的这个一个定义。比如健康险,我们通过新的数据源融合进来能够反欺诈,更好地理解健康的风险;比如说场景险,举一个例子是完全互联网化的一个场景险。就是在一个新的场景下,我们产生了这个保险的种类。您看这张图有什么共性?其实就是穿紧身裤。embedding之后发现,穿紧身裤的很多人,在淘宝天猫上购买手机新屏幕服务,后来我们干脆就直接卖个保险?干脆我直接给你做个保险,这个保险呢,就是碎屏险。




就是你买了保险碎屏了,自动给你cover了。以前他们这些人就会就是在淘宝天猫上买哪能给我换换手机屏幕什么。这是非常小的一个险种。但是,非常值,就是直接通过大数据产生的。今年我在做这个报告,那个红杉周奎总,他穿紧身牛仔裤上来之后,说刚听了齐总的报告,拿出两个手机说,我两个手机屏幕都是碎的。然后他俩是男的,穿裤子非常谨慎,非常fashion,这真的不是我的托。


另外一个例子,这个也是真实的例子,你在淘宝天猫上买东西,不像Amazon,你买一个plan服务,就是每年交多少钱?你退货不要钱。中国很多用户对价格特别敏感,有些人买了东西就喜欢退,有人买东西都不爱退,那其实不光是一个财富能力,还有一个人消费习惯的问题,那这个时候你怎么办?怎么能够真正理解用户的消费行为,真正的提供这种服务。他有这个需求,有了需求之后呢?我们想怎么满足这个需求。应该说挺雷人保险产品,但是这个做出来之后,每年都是100%的速度增长,其实运费险平均大概5毛钱有一块钱有一块八,但是双11一天,我们上亿的保单,其实就是说长尾(long tail)现象,非常典型。它的特点什么东西能做到这个实时投保,差异化,实施预测,然后极速理赔。关于保险,大家不知道怎么买,是否需要不需要。


另外,理赔特别痛苦,我们不需要扯皮,我们立马给你赔了。这其实也经历了一个比较坎坷的历程,这个有这个需求之后我们开始做,阿里虽然搞运营挺强,但是我们运营一口价,5%。不管你的商品多贵,我5%。但是从商业角度其实不能成立,是一个亏本的买卖。后来那我们不懂,我们请人,我们请了精算师。精算师其实有很多行业知识了,比如在房屋、人寿、车险,但是这个保险精算师怎么能知道?是一个完全崭新的领域,所以其实也并不太好定义这个资本,毕竟是一个崭新的险种。后来我们自己拿R做统计模型统计来数数。当统计模型做完之后,效果好像靠谱点,但是再往后既然都做了这个,我们再往前走一步,我们要做的什么?我们其实在模型一个人,一个人买商品和退货,这3个之间的关系,最后我们算一个概率。这其实与广告里面,一个用户,一个商品,用户会不会点击这个广告其实非常类似。只不过把这个东西换了换。今天说我要不要退这个东西,广告说我要点不点这个广告。毕竟每个click,其实对所有的这个互联网公司,大众公司都会产生非常大的商业价值。


其实,我们把核心的广告算法拿过来用,用完之后效果特别好,这个广告算法就是海量音子,我也不是特别有情怀分析了,全部扔进来自动计算,然后计算概率——多大可能性这个人会退货。然后呢,预测很准,基本不能解释。利用百万的ID,但是效果特别好。但是今年机器学习一个重大趋势,就是想做可解释模型。有些场景,我们还是希望模型能够解释,但是对这个场景我并不关心解释性。我更关心的是,我能算出来这人多大可能性会退货。




技术创新助力普惠金融




今天给大家讲了很多例子。从开始讲移动互联网,讲mobile first。其实很多公司今天都正在,或者已经完成国内互联网领域的上半场。之后,大家开始真正竞争的是云计算的能力,比如阿里,比如蚂蚁金服云,比如Microsoft他发明的云计算能力,还有Amazon,背后其实就是数据。谁的场景数据本身有价值。而这背后的话呢?其实阿里的网有一个比喻,数据是土壤,土壤上要盖出楼,产生价值,那靠算法,靠人工智能。要真正能把价值能体现出来,而不是坐在金山上吃馒头。这个背后,我们就要通过人工智能,让用户包含的社会数据产生价值,并将有价值的服务带给用户。




挑战与机遇




我刚才问雷老师,我们的背景很多是理工科的。我就准备了一些机器学习相关的挑战。比如说基于加强学习的对话系统。其实在对话系统很多数据没有的情况下,一开始你很难做加强学习,有可能你就做一个规则技术。但再往后面,有可能你需要完成任务,以任务为目标的时候,你在做task completion时候,其实就像下围棋,你要完成任务,赢别人。这时候你和用户其实是interation。这个时候你可以考虑,怎么来介入,再往后面。大家也知道翻译模型,对话系统很多用翻译模型,我们叫做seq2seq,sequence to sequence。假如有一堆sequence,假如多轮对话,你能不能应付,就是一个sequence到另一个sequence,再到一个sequence。这其实都是技术的挑战。数据收集的挑战,数据标注的挑战,你技术能不能做到这一步,真正建立这个模型的挑战,这都是各方面的技术的挑战。


第二个问题的话呢?其实在也越来越明显了,其实今天讲大数据,其实有点令人误会。就很多场景下问题的复杂度而言,其实数据并不大。我们要分析市场风云变幻。就如刚才雷老师说,你看一个公司过去两年的这个交易数据数据,其实一点不多,把季报全都加进来。其实一年就4份财报。在数据并不多的情况下,怎么能够把这个小数据学习的问题解决?


很多问题的话,你要做推理,如果A发生了到B,B发生回到C,你怎样把推理过程做好。今天,大家做很多深度学习,比如说从一个文本里面,这件事会导致另外一件事,A会导致B的发生,你把这个相关的答案找到。但是并不能推到,B到C,C到D,他其实做不到的。如果做知识图谱,其实跟深度学习没什么关系,今天的深度学习图谱其实是建了一个图模型,然后把这这个点一个一个往下推,而这两个框架是完全分离的框架,那其实也是挺分裂的。那大家能不能真正有一套机制能有推理的功能?这其实有从理论上的价值到商业上的价值,都是非常巨大。刚才已经提到知识图谱了,大家其实现在有一系列算法讲知识图谱,knowledge graph,但是从学术发表的很多文章,工业上没法用了。就是有一些算法,我就不说哪个算法了。有的还是我好朋友写的,但是工业很难用,为什么呢?因为它他基本上不能达到需要的准确性。导致图谱一部分算法还有很多手工的工作。


另外的无监督学习,这个喊得比较响。跟小数据学习相关的。很多数据是有标注,很多数据没有标注,那怎么能够把没有标注的数据都用起来,真正的做到把数据的所有价值都真正体现出来。那当然,这里面还有这个在无监督学习和有监督学习,中间还有一个叫做半监督学习:有一部分有标注,有没有标准。我们怎么把它们结合起来一起进行学习?那这也是一个在今天的背景下非常有意义的一个方向。从工业界来讲,更实用的是数据和模型的压缩。刚才有人问我说深度学习能不能在这个量化交易用,尤其是高频。我说那高频呢,如果深度学习好几层的模型,做图像有100多层。然后您做高频交易,希望在千分之一秒或者万分之一秒,把交易完成了,这两个互相矛盾。那工业很多应用非常在乎实时性,不需要大量delay。所以怎么能做的快呢?这就需要模型的压缩,要用hashing等技术,那这个也非常好的方向。




AI落地经验与教训





那还有其他方向,我就不细讲了,比如说保护用户隐私,数据加密等等,都是非常有意思的方向。嗯,刚才那个和几个同学在吃饭的时候,很多人问了我好多问题,跟技术没关系的,跟商业有关系,所以呢,就临时又加了一个slide,就讲落地的经验和教训。今天做这个东西。首先不要为了技术做技术,一定要想到有商业价值的,有数据的场景,那场景非常关键,否则的话,你这个技术你在公司里面做,做了没有用,你在如果是start up,这公司已经注定要完蛋,这就是其实非常关键的一个point。比如说我在阿里做第一个项目,是做参数服务器,就是分布式机器学习平台,分布式的云计算怎么大规模学,但是我们找的第一个应用点特别简单,大家猜猜什么场景,会有商业价值。对,就是广告。


那我们就在CTR预估上采用这个系统。因为这个系统只要你能提升1‰,就是很多钱;提升百分之就是更多的钱。我们当时做这个项目,在双11实时预测的用户产品推荐,后来变成阿里巴巴第一大大规模机器学习平台。但是一开始你要找到一个商业价值的落地点,否则这个我们做参数服务器,同样的技术就是死路一条。在公司,在商业环境肯定是没有前途的。第二点就是说,从问题出发,不是要炫耀,要有核心价值。这个再举个例子,其实讲到客服了,其实硅谷好多公司都在做这类产品,至少有几十家,但是很多家都要完蛋。这些企业没有什么区别,都要做深度学习,都要做这个东西,但是背后的价值区别在哪里?它的落地点在哪里?其实公司没有很大区别的。这个时候就要问你的核心价值在哪里,那我们当时做这个产品,其实一开始我们很具体,就做客服,一开始大家觉得不是一个sexy的一个行业,但是真正能做好就有巨大的商业价值,但是你同时要在场景中体现能力。


第三个非常关键,技术、产品和运营真正的融合,如果这个中间有个重大的隔阂或切断,其实非常危险。对公司,对这个团队,都是非常危险的事情。这是经典的互联网公司的一个笑话了:产品经理都很恨工程师。工程师经常说,产品经理忍不住地笑工程师出事了;而工程师,比较痛恨产品经理。但是这其实双方应该有一个度,如果大家离开学校到工业、互联网公司会发现,真正的融合是非常关键的。最起码要on the same page,大家能够讨论这个问题,真正能想到未来的出路,要把技术的力量发展出来,把商业通过产品形式真正落地下来,这个也是非常关键的。




对话环节


雷鸣:非常感谢漆远的精彩演讲。我们知道蚂蚁金服的互联网技术在国内,我相信在全球范围内,排名都是领先的。他们内部用机器学习、深度学习等人工智能相关的技术做了大量实践。今天给我们披露了很多他们在实践中的过程、经历、解决的问题、所运用的技术,还有一些挑战和限制等等。



下面我就跟漆远老师就互联网金融做一些探讨。首先,提到金融,这个概念非常大,包含的东西太多了,如保险、征信、欺诈,金融客服等,刚才漆远提到了不少,如果同学们感兴趣,待会可以继续提问,我在这方面也有一些问题。另外还有一个问题我想再跟漆远探讨一下,刚才提到一家美国公司叫作Kensho,这个公司名头还是很大的,凡是提到人工智能创业,大多会提到这家公司,他们的技术发展到现在,你怎么评价?你觉得他们在信息服务,或者说辅助交易这些方面能解决多大的问题?


漆远:我其实去年和Kensho的CEO、Founder见过面,有过交流,谈了挺久,我对这个公司印象非常好。为什么好?他们有一个真实的问题,就是海量的资讯进来了,怎么能够立刻提取出来背后的知识点,然后使基金策略师能够使用到?以前你要一本一本看,那是相当痛苦的一件事情,最好的基金经理能看多快?再快也就像我们客服那个速度了。但是假如你真能够即时提取知识,这是一个真实的需求。而这个真实需求又能映射到一个技术问题,有的问题不能映射到技术问题,需要别的解决方法,有可能是人,有可能是法规、政策等问题。那这个技术问题,技术奖励做得好,确实能够很大的程度上解决,或者减少这个问题。


第三个的话呢,他们的思路我觉得也挺落地的。这个公司除了做机器学习,其实也搞了大量的众包,crowdsourcing,这就是我讲的人工加智能。Crowdsourcing本身也是非常有技术的问题,怎么建立奖励机制,怎么能够把这个任务分发到好的人,怎么评价一个人,这其实是mechanism design的问题。怎么设计一个好的机制,他们其实做得非常好。然后再讲他们是不是能够替换掉Bloomberg,我跟Bloomberg的CTO和技术方案方也有过深入交流。我觉得这两家公司定位上有所不同,Bloomberg有自己的优势和发展,我觉得很难做一个判断。但我觉得下一步的发展会非常有意思。


雷鸣:那就是等待时间来检验了。另外一个问题,我看现在也经常提到一个数据,就是关于机器在二级市场的自动交易问题。我们知道大量的高频交易基金,回到5年前或者10年前,占整个交易领域的比重还是没有那么大的。那现在的话呢?由于人工智能的崛起,用机器自动做交易的资金的比例最近几年提升得非常快,数据不确切,大概也有百分之五十到一百的提升。


漆远:在美国,几年前曾经的高潮时期已经做到百分之九十以上的order是机器完成的了,后来降了一些,保守估计也有百分之六十到七十用的是algorithm trading,就是用算法进行交易。这块国内目前发展也比较快。


雷鸣:你刚才提到把每天的高频交易都包括进去已经达到百分之八九十了,交易量很大,但其实不从交易量,从管理财富这方面考虑,应该没有那么高吧?


漆远: 财富管理和高频交易还是不太一样,从策略到产品,包括他们的目标用户都不一样。很多高频交易就是为自己挣钱,就是自己的钱自己挣,最出名的就是Renaissance,最核心的基金不对外开放。


雷鸣: 我想刚才你说的这些如Renaissance这些基金,他们交易量很大,如果当天看盘中的话,就是整个盘上交易可能占的比例确实很高,但是他们是拿基金来回倒,从真正参与基金比上看我觉得应该不会到百分之九十。但是有另一个数据,就是现在用机器来管理财富的比例在提升,那么从长远来看,你觉得将来会不会变成买股票的不是个人也不是基金经理,都是机器在做这些事情?


漆远:首先我想澄清一点,就是蚂蚁金服我们自己不做高频交易,刚才我讲过,其实它的目标是在做普惠金融,服务的是80%的普通的人。就是如果你特别有钱,你可以去找私有银行搞定,我们是去服务普罗大众的,包括小微企业,做200万以下贷款。特别高的贷款可以由大的国家银行来贷。这里面我们认为有非常大的社会需求,而需求背后,我相信如果技术能做到,技术一定会慢慢进行填补。我不能预测未来会变成什么样,但我个人相信这就是大势所趋,不管是交易还是理财,都会往这个方向走。美国其实已经有很好的例子了,一些技术公司转型开始做财务管理。大方向是在往技术方面走。


雷鸣:我知道理财现在很多基本就是根据人回答问卷做自动配置。


漆远:不光自动配置,一方面是了解需求,一方面是要理解市场本身,要进行对风险的理解,在控制风险的情况下,怎么把这个资产的回报进行增大话,但是不同的人也要理解他的需求,两方面结合,两方面都很重要。


雷鸣:这方面现在是不是美国很多比较领先的财富管理公司,包括一些传统的公司也在慢慢地接受这些东西,在往上转,这样的话,创业公司的空间还大吗?


漆远:非常好的问题。刚才也有个同学问类似的问题,创业公司的路在哪里? 其实美国有些计算机创业公司,IT公司也受到挑战,但今天他们并没有完蛋,他们还在往前走。传统的金融公司如果掉头做,也是完全可以做到的。所以就要想,我能够做什么跟他们不一样的,或者我能做什么让他会感兴趣,产生互补性的。我觉得应该从不同的角度来看这个问题。我现在在读一本书叫《从0到1》,我觉得很有帮助,就是说做一个企业一定要想解决问题,做和别人不一样的问题,如果你做的都是跟别人一模一样,或者别人掉头就能做的问题,那你这个策略要开始再思考。


雷鸣:下一个问题我就是想探讨关于创业公司和现在已经成型的这些大企业之间的关系。目前对互联网金融,智能金融感兴趣的创业公司还是很多的,比如刚才漆远老师讲的智能客服,再比如征信,贷款分析,自动交易等。其实每一块我们刚往前看的时候,都有很大的机会,人工智能在深刻地改变各行各业。但机会到底是谁的?金融领域比较特殊,特殊在于刚才漆远老师讲了很多次的数据问题。金融很多时候需要一个大数据,多一个维度的数据,可能就会能得到更多的特征,有更多特征,就可以把这个东西做得更准确。像蚂蚁金服的金矿,这么多商家的交易记录不对外开放,那么比如做中小企业贷款系统就很难跟它竞争。我个人觉得在智能创业过程中,需要找到一个比较好的切入点,要真正提供价值。另外一方面,想要提供价值,还得有数据,模型也不是编出来的。


漆远:价值我觉得跟场景相关,如果你做了一个APP,我们没有做,这个APP本身能收集新的数据,这就是新的数据产生了。场景和数据是密不可分,先做个场景,问题出发,然后做个场景,再解决问题,很难说撇开了场景和问题,单独谈数据。淘宝天猫的数据也是我们当年说的——没有天下没有难做的生意——为了这个目标去解决这个问题,后来自动产生了很多数据。另外,天猫淘宝阿里系有很多数据,但是跟真正外面的数据相比还只是大海里的一滴水。


雷鸣:你们每家都会这么讲,谷歌说我们公司绝对没有垄断,在广告市场只占比百分之几……


漆远: 我跟你讲,这件事就看你怎么看。如果往下走,我们的方向非常简单,就是开放开放再开放,就是希望跟更多的人合作,包括我今天来北大和一些老师谈合作,希望更多的合作来产生更大的效应。我不一定非要拥有这个数据才能做这个产品,大家应该一起来往前走。


雷鸣:对于小公司来说,刚才其实讲的挺好,也就是说,你可以自己产生数据。


漆远:希望再做一个淘宝的人是可笑的。再造一个谷歌公司,这种想法也是非常可笑的,但是你可以做其他的方向。我自己也看和AI相关的公司,我看过很多公司。举谷歌为例,当时谷歌自己做知识图谱,也是先买了一个小公司,大公司不是什么都要自己做啊。


雷鸣:所以漆老师已经指出了另外一个方向,把技术做好了,也有被收购的价值。(笑声)谢谢,徐小平老师来了也讲,其实我们看到现在创业和VC这个交互市场还是越来越活跃,因为中国最近5年,从整个VC的这个资金池的总额,到投资人,包括天使投资的数量都在急剧增长,然后被投资企业也在进行公关,所以我觉得确实,中国现在整个还在所谓创业的窗口上。因为资金量很大,但是失败的温度也是蛮高的。另外,好的项目,说实话,由于余凯和我们都是老朋友,余凯在创业的时候,你们看看余凯的股东列表,我觉得至少后面有6家VCR。如果你真的有好项目的话,VC恨不得把你给10万块儿瓜分掉。那么说到底人工智能对他们投资有没有什么帮助呢?也有人在想,能不能通过大量的数据学习分析之后,做一个所谓的VC机器人?然后,你把一份商业计划书交给他,他就会告诉你,这公司值不值得投,该投多少钱等等。


漆远:下面的观点谨代表个人观点,这个问题太开放了。嗯,这个问题,我觉得是比较悬的。原因很简单,我们看公司的时候一直看我刚才讲的,解决什么问题,有什么技术,但另外我刚才没有讲的是,我们还看是谁,看这个人,而这个东西就很难,今天机器还没有到这个能力,能够很好的判断一个人的性格。我看公司,就是看我是不是能真的欣赏这个公司欣赏这个人。这个人可能非常好,有可能就是我们不投脾气。有可能将来我的投后管理也特别痛苦,就像手里抓着炸药,我也挺难受的。投资是为了他的发展,对吧?就是为了挣钱。有的投资呢?还希望是看谁投了。有的投资,我们叫做战略性投资,有很多创业公司非常需要战略性投资,因为能够帮助他发展,而且战略性投资理念往往会看这个创始人本身,而这些人的特质,我觉得今天机器还是比较难搞懂的。


雷鸣:嗯,确实是这样。我记得徐小平老师说过,我们就是投人呢。如果我们看电影好,我们就投他,从这个理论来说,可能就有点惨了。因为他认为这个人好的话,这个公司不行了,他可能再起一个新的,他可以调整。从这个角度来说,机器分析一开始可能就不太好。现在我有几个朋友,其实在这个方向在做一些创业的工作,包括有家公司的CEO,可能明天上午我和他会打电话探讨一下,因为他们有很多的数据啊,有些数据库,有各种各样的东西,那么到底能不能分析出一些有意思的点来,包括各种公司的融资资料,他们做在什么事,创始人背景等等。嗯,我觉得刚才漆远老师讲的这点特别好,一个人是很难用人工智能来分析的,包括人的表情。


漆远:是的,表情怎么分析,今天都没有达到一个工业界能够实用的程度,再回到刚才讲的数据,假如真有这个数据,我要说我既不知道一定行,也不确定一定不行。


雷鸣:人工智能相关技术运用到实际上,最近对社会有什么影响和发展?就是说,在金融领域中,你觉得未来5年在哪些地方人工智能会推进的比较快一些,能有比较大的突破?这个突破,我们指的不是理论上,是说我们老百姓能感觉得到的。


漆远:这种事一般我都不干,因为未来很难预测。但是我觉得我们现在讲创造未来,对吧?我们把它做出来。我觉得我们正在做的几个方向,都比较靠谱。我觉得跟数据强相关的方向上,人工智能会比较容易发挥威力,比如说在保险行业,比如说在理财上,如果是在一级市场我觉得就比较难,因为人的因素太多,如果是和数据相关的,我觉得越容易使这个机器学习人工智能发挥能力。比如说有些数据是已经结构化的,很容易用。有些数据是非结构化的,其实还有有很多可以利用的非结构化数据。其实处理很多非结构化数据,应该有很多的应用。在商业上,我觉得从保险理财到微贷,都是非常好的应用。

金融这个领域的话,人工智能最近会有比较多的一个应用啊,突破不好说,但是呢,确实能够大幅度的提升以前的工作效率


雷鸣:从学术界进入到产业界,你觉得职业上最大的挑战来源于哪里,如何去应对这种挑战?


漆远:其实是两重转变。一个是从学术界到工业界,还有一个是从美国到中国,其实我过去十几年都在美国,我刚回国不到3年。我觉得最大的挑战其实不在技术,我讲实话。其实我一个技术,真正的落地是个系统工程,系统工程是什么意思?是说产品的构建需要好几方的力量,大家真正凝成一股绳,真正地落地合作。你要做最新的技术,最新的IDEA,那是奇思异想;而做工程,做公司,你要知道什么叫创造价值解决问题。这个时候你需要一个更体系化的思考。我觉得这是一个最大的区别和挑战,你怎么能够让大家真正的和你齐心合力,你能够听到大家的声音,也能让大家听到你的声音,一起往前走?我觉得不管是创业公司还是大公司,这都是非常重要的一个问题。你能够让大家理解到这件事的价值,你能够让大家理解,能够让大家拧成一条绳子一起往前走,这里面需要你自己的能力,也需要你团队的能力。


视频回放链接:http://www.iqiyi.com/l_19rrfk4wof.html

点击文末“阅读原文”即可观看




课程介绍


“人工智能前沿与产业趋势”课程由北京大学开设,并面向公众开放。课程由人工智能创新中心主任雷鸣老师主持,共14节,每节课邀请一位人工智能领域顶级专家和行业大咖作为主讲嘉宾,就人工智能和一个具体行业的结合深度探讨,分析相应技术的发展,如何影响产业,现状及未来趋势、对应挑战和与机遇。所有课程相关信息、通知都会在文末的公众号发布。



课程参与方式


扫描下方二维码,关注公众号


扫码福利:

⊙   直播、录播课程地址

课程精华文字版

人工智能交流群入群方式

⊙   群内每日精选AI内容更新

⊙ 参与群内活动并有神秘大咖进群交流互动




特别鸣谢:新智元