专栏名称: 雷峰网
中国智能硬件第一媒体
51好读  ›  专栏  ›  雷峰网

深度 | 第四范式陈雨强:如何利用高维度的 AI 解决商业难题?

雷峰网  · 公众号  · 科技媒体  · 2017-04-23 21:58

正文

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课,www.mooc.ai 现已开放预约。

雷锋网按:4 月 21 日,中国证券投资基金业协会主办的 2017 金融科技高峰论坛在杭州召开。“人工智能赢在维度。” 第四范式联合创始人、首席研究科学家陈雨强在会议上讲道,“将来的企业运营中需要有更高的维度,维度的上升使得 AI 能力提升,从而使得企业能解决更复杂的问题,提升企业效率,进而提升企业竞争力,抢到更多的客户,提供更好服务。”

据雷锋网了解,陈雨强曾在百度凤巢主持架构了世界上第一个商用的深度学习系统,在今日头条主持设计了中国用户量最多的新媒体人工智能推荐系统。

那么,什么是更高的维度?企业如何提升运营效率?如何用人工智能解决更复杂的问题呢?雷锋网对于演讲全文进行编辑整理如下:

人工智能赢在维度

亚马逊是北美最大的在线零售商,沃尔玛是世界上最大的连锁超市。最近几年,亚马逊增长良好,增长率高达 50%-60%,最低也在 10% 左右,而沃尔玛增长一直处于停滞的状态,有时甚至是负增长。那么两者为何有这么大的差别呢?

客户端复杂度

沃尔玛是一个超市,属于人力密集型,全球大概有十多万的员工,亚马逊则偏技术密集型。亚马逊员工人均年收益是 62.1 万美元,而沃尔玛员工的人均年收益只有 22 万美元,相差了 3 倍,这代表两者效率的差别。在这种情况下,亚马逊增长速率会越来越快,越来越多地蚕食沃尔玛市场份额。那是否说明沃尔玛是一个菜鸟的公司或在互联网时代不堪一击呢?

其实并不是。从某种角落讲,沃尔玛是数据挖掘的先驱,早在 20 年前,沃尔玛就有数据挖掘方面的探索和研究,啤酒和尿布的例子就是典型代表。

沃尔玛为什么在互联网时落后了呢?我们发现沃尔玛是基于地点推荐(Location Based)的,亚马逊则是基于用户推荐的(User Based)的,后者需要做到千人千面,每个人在亚马逊上看到的首页、搜索页、推荐页都是不同的,这种不同导致两者员工的人均年收益相差了 3 倍。亚马逊解决了一个更复杂的问题,所以增长率和市值都有较大提升。沃尔玛是曾经零售行业的老大,但在 2014 年 - 2015 年间,亚马逊以指数性上升的速度超过了沃尔玛,成为了世界第一。

库存管理复杂度

不仅如此,亚马逊和沃尔玛的商场或者库存管理也存在着很大的问题复杂度差别。

亚马逊做了一个 KIVA 机器人,它可以自动运送货架到捡货员面前,捡货员把需要打包的货物挑出来打包即可。而沃尔玛则是 N 个配货员配一种货架。两者的问题复杂度相差也很大。

运营效率

如今,运营效率变得越来越重要。在传统行业,跑马圈地是重中之重,这对于互联网时代也是一样的。对于一些传统行业来说,移动互联网和互联网只是增加了一种新渠道,但还是以跑马圈地方式做事。以这种方式行事时,只需把产品做到 60 分,满足客户的基本需求即可,之后便尽最大可能获取最大的市场,获取市场和市场增长带来的红利。

但随着市场愈加饱和,跑马圈地的模式逐渐失效。比如零售业的整体增长空间已经非常小了,剩下的无非就是你争我夺的过程。这时,如果谁从 60 分做到了 80 分,那就能将其它公司的客户转变成自己的客户。所以未来,运营效率代表着企业的核心竞争力。

总而言之,未来企业运营效率将会变得至关重要。我们可以通过解决更复杂的问题提升运营效率,而在解决复杂问题时,人工智能就需要粉墨登场。

人工智能如何影响企业效率

人工智能没有那么复杂,其实就是用数据解决问题。在数据方面,传统方法首先做的事情是分析数据。数据按照 “二八原则” 分布,大部分集中在头部。传统的分析方法会首先把尾部数据全部去掉,因为尾部的数据太多、而且杂乱,用传统的规则没有办法分析,而对于头部数据,会用十几~几十个特征或规则进行刻划。

这样的人工智能问题有什么问题呢?数据的价值并没有被完全发挥出来。

以证券公司为例,10 万客户和 1 个亿客户的证券公司,如果只用头部的客户数据特征的话,两家公司对客户数据分析得出的结论没有区别,无非是什么年龄、什么性别、什么学历的人会喜欢什么样的产品等特征。但如果能用到更多特征、分析更细分群体的话,两者的结论将会有很大区别。1 个亿客户的基金公司可能会发现一个 100 人的群体,他们的特征、喜好一致,那么公司就能基于此进行精准营销。而这 100 客户在只有 10 万用户的基金公司对应的可能之后 1~2 人,不能得到可信的结论。

只有用上所有的数据,并且分析得尽可能精细,数据量才能成为壁垒,量大的数据产生的价值才能比量少数据更大。

我曾经在今日头条、百度蜂巢工作过。当时,今日头条日活是几千万,特征总量大概有几十亿到几百亿,这意味着每个用户都有上百个标签,公司就能能精确区分一个用户在周二早上上班路上喜欢看什么新闻,或周五晚上下班后在家里夜深人静时喜欢看什么等,所以推荐效果可以做得非常精细。

百度的搜索广告也是类似的,我们对一个什么样的人在什么搜索关键词下会看什么广告的组合有非常精细的刻画,每天上新的广告有上千万,日活上千万,在这样复杂的场景下用机器刻画,会有大量的特征量、规则量。

高维度对商业的影响

2012 年,Facebook 上市,但上市后四个月,它的股价就连续暴跌。我们当时和 Facebook 从市广告技术同事聊天,发现那时 Facebook 只用了大概 2000 维的特征刻画用户,但这完全不能够非常精细的、非常准确地预测一个人点击广告的概率,或在什么场景上会想要买什么东西。

2013、2014 年时,一大批 Google 的广告、算法工程师加盟 Facebook 从事广告业务,他们把当时 2 千维系统做到 2 千亿维,相当于提升了 1 亿倍的维度。从 2013 年末到 2014 年始,Facebook 的股价一路攀升,走上了传奇之路,维度对于整个 Facebook 收入提升至关重要。

在全国性商业银行的信用卡中心,每天有大概上百万笔的交易,这些交易过了风控之后,由银行来决定能不能让某个人交易分期。对于能交易分期的人,比如每天有一百万个,可以通过短信方式营销。但如何锁定这群人呢?

首先把分期进行目标拆解,把用户收入拆解成短信发送量 × 短信响应率 × 分期费率。通过短信发送历史,就能知道每个用户到底最终是否办理了交易分期,并基于此建立预测模型。这样在发送短信之前,就知道某个用户接收之前的概率高低,并进一步优化响应率。这种数据量并不大,但在当时银行里也算是最大的人工智能数据。当时用到 2T 数据,大概有 4 千万左右的历史发送的短信量,我们在其中抽取了很多特征,包括短信的信息、帐户的信息、持卡人、卡片、交易的信息等,共有 5 千万维信息,并且,最终响应率提升 68% 的和收入提升 61%。

传统模型和 AI 模型的区别

传统模型和 AI 模型之前存在一些本质的区别。

维度是最大的区别。拿汽车分期问题为例,我们发现某个 POS 机进行汽车分期的概率会特别大,这个 POS 来源于一个小型母婴店, 这对于专家来说并不是特别复杂的问题。但问题在于这个母婴店很小,日流量是 100、200 规模,全国这样的母婴店有几千上万家,专家不可能逐家分析这样的母婴店,但机器可以,这正是机器的优势。只要我们能把问题变得足够复杂,机器就能分析每个维度。

另一方面是迭代自学习。传统专家规则是事先确定的,可能每隔一段时间,比如半年、一年进行一次规则调整。但改变很难,一方面成本高;另一方面,调整要求兼容原来的规则,同时加入新的规则,这是一件很艺术的事情。但对于机器学习、人工智能模型来说,在高维下加入新的特征、新的规则是非常容易的。正如 AlphaGo 每下一次棋,都会把棋谱拿回来复盘,使自己下棋的能力变得更高。

另外,电商推荐、智能理财、差异化定价、信贷、阅读、智能客服、个性化定制产品等都能用到人工智能。所以人工智能的价值是非常大的,想象的空间也是非常大的。将来问题的解决需要很高的维度,同时用复杂的模型,用高维的模型解决高维的问题。这个理论是有科学依据的。

Vapnik 和 Chervonenkis 两位科学家提出了 “VC” 理论,来描述模型里函数复杂度的问题。函数复杂度可以类比为人脑神经元的个数,如果有更高的 “VC” 维,有更高函数能力,类比为有更多神经元,即为更强的智能能力。比如说人脑脑细胞数量比小白鼠脑内数量要多很多,所以说人比小白鼠聪明很多。所以说在将来复杂情况下,我们要不断的提升 “VC” 维,让企业运营的效率得到不断的提升。  

最近深度学习在图像上的发展日新月异,从 2010 年到 2016 年,图象识别错误率在不断降低。2016 年错误率已经达到了 3.1%,而人做同样图片识别错误率是 5%。也就是说,2016 年之后,对于标准的数据库图片,计算机识别的能力比人要高。在这样的成绩背后,从 2010 年到 2015 年,图像识别维度从最开始几十万维,一直升到上亿维,更高的维度让整个效果有很大的提升。

总而言之,在将来的企业运营中需要有更高的维度,VC 维的上升使得 AI 能力提升,从而使得企业能解决更复杂的问题,提升企业效率,进而提升企业竞争力,抢到更多的客户,提供更好服务。

人工智能赢在维度。

基于此,让人工智能落地有五大要素。第一要有明确的业务定义;第二需要不断的外部反馈,比如 AlphaGo 需要不断与人下棋,需要外部反馈不断输入;第三需要很强的外部资源;第四需要顶尖的数据科学家;第五需要大数据,大数据加上机器学习等于人工智能。

2017 新智造成长榜评选启动

雷锋网正式启动 2017「新智造成长榜评选,旨在寻找智能未来三年十倍的创新变量。


即日起雷锋网接受创新企业的报名,最终榜单将由雷锋网于 7 月份举行的 CCF-GAIR 2017 大会期间公布。


如果您有意参加我们的评选活动,可以点击阅读原文」,加入榜单评选!