专栏名称: CV智识
欢迎关注
目录
相关文章推荐
51好读  ›  专栏  ›  CV智识

玩秘余轲:语音助理和客服是NLP领域兵家必争之地

CV智识  · 公众号  ·  · 2019-07-22 18:23

正文

请到「今天看啥」查看全文


7 19 日下午,投中网 CV 智识与英诺天使基金在北京卷石天地大厦共同举办了名为《 NLP 潜力觉醒,让机器更懂你》的沙龙,邀请了臻云创投合伙人兼英诺天使基金合伙人祝晓成,玩秘创始人余轲, 启赋资本投资总监司家奎 三位嘉宾先后做主题演讲与圆桌讨论。

以下为余轲主题演讲《 NLP 领域的兵家必争之地》实录:

余轲:祝总留了很多的问题,我也尝试来回答一下, 现在我简单地来回答一下祝总提到的NLP的技术大概能够做些什么的问题

在NLP之前大家都见到过了深度学习或者AI驱动的另外一个很大的领域,一般来说叫图像识别,也叫计算机视觉,不管手机的面部解锁,用脸部进行支付,还是安防的话题,识别有没有罪犯这些东西,有没有人去你家这些,这些领域统统叫计算机视觉,也叫图像识别。 这里边的公司大家有一些已经耳熟能详了,包括商汤、旷视等这几家。

我在介绍NLP是什么之前,把这两个领域结合起来说,大家可能更加有感受,其实刚才说的计算机视觉这个领域,基本就是整个深度学习所支撑两大领域之一,一个领域是CV叫计算机视觉,一个叫NLP,一个是基于图像的,一个基于文字的。

大家大概能够感受到如果基于图像的应用主要是在安防包括人脸识别的一些支付的场景,这个场景当然也不小,但是它是集中在这样一些相对垂直的领域当中的应用,而如果NLP做到未来的场景当中,大家可能都看过类似于像《Her》,《西部世界》,还有刚才提到的《黑镜》这些方面的电影,这里面的整个人工智能助理,未来人生活在一个根本不用点击任何手机屏幕,想做什么事只要说就行了的一个时代,这个是科技进步必然到来的时代。

NLP能支撑整个人工智能助理这个场景,这个听起来可能比在图像识别还要更大一些,因为相当于改变了整个人类的生活方式。 从这样的角度来讲的话,NLP未来的空间和前景可能会给人类带来更大的改变,整个行业的空间可能会更大,甚至大过于CV

可能大家有些大致的了解,像计算机视觉领域的这些公司,现在有的发展的比较快,简单提一下, 他们当中有一个有利条件是数据此前的积累量比较大,所以发展和发力会相对来说快一些,提早一些,这些公司当中发展比较靠前的估值已经到了50亿、70亿美元。

这是之前深度学习所支撑的大的科技领域,刚才我说了NLP这个行业可能从自己的项目当中感觉到与整个CV的行业可能还会有更大的想象和爆发的空间。

我接下来说一些跟NLP有关的技术,祝总提到的这些问题, 再简单说一下NLP能做什么,从最近的这个时代来讲的话,可能有两大方向, 第一点,有的时候你要出国开通国际漫游或者要给中国银行,中国移动的客服打电话,之前这个事情实现方式主要是人工,雇佣一些客服人员解答你的问题,这里面人工成本也是很大的,因为面临的客服量很大,如果NLP可以取代一部分或者全部客服的人力成本,就可以为银行和运营商节省非常多成本,这个显然是NLP可以做到的一个点, 这个属于客服方面的领域。

这个领域当中,除了客服以外,客服指的是顾客把电话打进来的情况,还有公司把电话打出去,比如有人信用卡欠款了,银行信用卡中心这边可能要打电话跟很多客户催收,这种是外呼,大家接到过骚扰电话,营销房子,哪有楼盘看一看,最近一年、半年我们注意到很多这方面的电话是由机器打出来的,因为说的样子很像一个人,但多聊两句就知道是机器打过来的,骚扰的这个方面今天不谈了,太细了。这个是NLP能够解决的一个很大的场景和问题,这个场景跟我们公司的业务关系不大,但是我们就说一句。

第二个场景,其实就是我们所在的场景了,叫做NLP语音处理, 这个里边我先说说怎么定义的,语音处理这部分,我们把类似于像Siri的服务提供给手机,提供给汽车,提供给智能音箱或者电视等等这样的设备,每一个终端都有语音交互的能力,像刚才的视频,以后每个人想看电影跟我们小米手机直接说话就行了,这个也是对人类生活效率的很大提高。

我举一个例子来说,我们看到很多用户跟我们讲,他想去美嘉影城看一个最早场的《战狼》,买两张票,就说了这么一句话,这句话说完要用两秒钟时间。

但如果你打开手机APP,完成这件事情要做多长时间呢? 简单过一下,需要先解锁时间,找到APP所在的那一页,把APP打开,等开屏广告结束或者点掉,之后再打字说《战狼》怎么样,之后再一步一步做,我们测算了一下大概至少半分钟以上。

我刚才说的那句话基本两到三秒,说了电影的名字,也说了影院的名字,也说了时间,也说了票的张数,两三秒的话就可以完成原本三十秒钟的操作,这就说明什么问题,说明语音的交互效率远远高于界面交互的,这是一个不争的事实,因为我的语音当中的信息密度很大,而且信息的维度,穿透层级,这都可以做到。 不是说因为语音交互这个事听起来更酷,人机交互就会从界面交互转移到语音交互,而是因为语音交互可以省掉原来界面交互时10倍的时间。

换一个话题的话,有点像说之前人类在三百年前的时候骑马,骑马之后发明了汽车,不是因为汽车长的多好看所以每个人开汽车,而是因为汽车的速度比马快了5倍所以最后所有人都开汽车,今天没有人再骑马了,就是这样一个关系。

如果你要说什么状态,什么逻辑,如果能够让一个人做一件事情本来要十倍、五倍的时间,把它缩成一倍,这个永远是人类的痛点,这个痛点叫懒。 懒永远是人类恒久的痛点 ,我骑马原来要五个小时,现在开车要一个小时了,懒的意思是不想把时间花在道路交通上,宁可去玩一会儿,去酒吧坐一会儿,这个就是为什么说语音交互会成为人类人机交互下一个必然走向的阶段。

下一步也定义一下语音助理,我们就是在给所有的智能终端,以手机为首,后面各种各样的智能终端提供语音交互的能力。这个部分我再简单说一下, NLP的客服外呼和语音助理,这两个是业界比较公认前景最大的两个领域了。

这两个领域当中简单说一下有什么特点,刚才说了客服是一项很好的业务,可以代替掉大量人工客服,这是一件非常有意义的事情也是能够创造营收或者成本降低的事情,从业务形态来讲, 客服更多属于纯粹To B的业务, 我们这个部分不深入讲。

在这个里边我们简单介绍一下,像我刚才说到的语音交互比界面交互效率高很多倍,未来最终一定要被切换掉或者人类会迁移到语音交互上去,还有一个问题,这个事什么时候发生,这个事如果是十年以后再发生,那就没什么太大必要现在说或者现在说的意义就不大。

但是这里面的话我们介绍一个趋势,大家可能会看到手机每个人都有,大家注意到前面三到五年的时间,手机厂商的宣传、广告,包括手机企业的高管,不管华为、小米、OPPO、VIVO,他们公开对外宣讲的时候都会强调这个手机的屏幕怎么样,摄像头怎么样,这是大家为了说我们手机有多好的一个硬标准。

再注意到最近这几年手机的企业,他们的高管出来讲话的时候提自己屏幕怎么样,摄像头怎么样的减少了,因为大家都知道屏幕、摄像头如何已经是上一个时代的主题了,这个时代是什么样的主题,就是一定要把整个手机作为一个AI化的最前沿的终端,要把手机的AI化体现出来,这是未来至少三到五年最大的主题,他们的访谈、报道在这方面都会非常清晰的讲出来这件事情。这几个手机厂商,有三家是在去年,有一家是在今年,非常正式的也非常全力的发布了他们的语音助理,这是最近一两年的一个趋势。

这里面我也简单截取了一些实际企业对AI的定位,华为的话是说,人工智能这项技术一定是近年来要极大程度爆发的前沿技术,已经成为电视、摄像头、全面屏之后手机行业又一最新而且体量最大的战场,这块战场规模将会前所未有的大,也涉及到创新研发投入等等,都将被赋予巨大的体量。

小米负责人也在之前公布了两三年前投入语音助理大量的研究和部署,我们也上线了小米的服务,带来了巨大的产业革命。大家知道九年前中国正式进入移动互联网时代,移动互联网时代带来了巨大的商机,不管微信、滴滴、大众点评等等,移动互联网带来巨大整个市场商机和整个行业发展的机会。

但现在行业当中大家普遍有这么一句话, 人工智能这个时代应该会比移动互联网带来的商机还要大好多倍。 我想介绍一下整个这件事为什么要做NLP,为什么要用NLP做智能终端上的语音助理的意义就来自于这个部分。

这个是我们这边的一个思考,我们简单解释一下,这个其实不用我过多解释,2 018年到2019年生活服务的市场大概有1.5万亿左右,就是在线订电影票、酒店、外卖这三个领域在中国的交易规模就达到了7100亿元。

这个市场规模到底是怎样的,包括从2015年展示了每年发展的趋势,大家每个人都生活在中国社会当中,都可以自己体会得到,不太多进行解说。

我再想多说一点,很多人问到我,玩秘怎么能用很清晰的语言定义出来自己在做什么?我们之所以叫玩秘,指的是吃喝玩乐小秘书这个意思,怎么很清晰的定义出来玩秘到底这个公司业务是什么,有一句话完整描述出来,就是我 们提供像电影、酒店、外卖等等生活消费这种领域的从人机对话到支付整个闭环式的NLP的语音助理的服务 ,这是我们整个业务的一个状态和形态,跟刚才看到的视频一样。

在这个里边的话,回到祝总之前提到的,有大量的术语,最主要都是NLP发展这么多年其中用到很多的技术框架,技术的底层,基础设施或者领先性的算法名称,这些没有必要一个一个过了。举一个简单的例子,我想让大家理解一下NLP这个技术他们的来源或者说技术的底层是大家不太能想象到的一种逻辑,我想说两个例子。

第一个就是在NLP的这种世界当中,比如有个人跟小米手机讲,我想去约会,给我推荐点什么吧,大家应该用一种语法,机器了解中文语法怎么回事,解读了这个约会,约会是什么意思,其实不是这么做到的,这是一个在NLP领域当中的一个非常好玩的例子,给很多人讲,不是做这个行业内的技术人都不知道。

他说我想去约会,给我推荐点什么吧,把这句话在NLP的技术世界转化成了一大行数字,很长串的数字,我知道现在年轻人尤其90后可能不会知道了,我们老一点的人都看过一个电影叫《黑客帝国》,那里边有些比较酷的东西就是敌人过来打了,主角把这个人看成一行行代码,在空中漂,差不多这个意思,就是说的这句话会被转化成一大行数字,怎么转化来的,为什么转化成这一行数字,比如说我想去约会,可能转变成一个数组,大概五千个数字,什么3、0.75、4.86、7.253这种状态,一千个数字组成数组代表你说的这句话,为什么转化成这一千个数字,不是别的一千个数字呢,这里边就有一大堆的深度学习和各方面的技术了,这是一个很好玩的常识性的东西,这是一个点,大家对NLP从一般理解上来说觉得技术路径怎么会是这样一个很好玩的事,不是用语文的方式在理解人说的话,是用纯数学的方式在理解说的话。

第二个事情,举个例子,这个事情跟NLP没关,但是这个事情是NLP底层的一个技术发展点,我们随便说,中国这么多人,大概十几亿人,比如我想研究一个问题,我说中国的这些所有的男性,比如我是成年男性,18岁以上的男性,一般身高有多高,最后你会发现,都不用想,大概知道,如果把中国男性所有人的身高,矮的可能1米4、1米41、1米42、1米5、1米6、1米7、1米8这样排一个轴的话,排成一串数字,如果1米7的人很多,就把1米7的人到底有多少个写在上面,就是这样一个用每个高度的上面会放一个柱状图表示这方面的人有多少个的话,发现中国男性的身高分布是这样的,很多人不是搞技术都听说过正态分布,比如说中国男性1米7左右人的身高是最多的,我想举个例子,越往1米8,1米85就会越少,1米6,1米65越少,就是这样一个正态分布。

这个事看起来和NLP完全什么关系也没有,但是你有没有注意到这个分布长的特别像一个对称的山峰。为什么长成这样?为什么不是1米4的人特别多,1米9的人有很多,中间的很少?这个问题听起来很无聊,这个看起来和NLP完全没关。

这个就是NLP和整个深度学习最大的基础, 这种科学叫概率论与数理统计。 这个就是整个NLP也好包括深度学习,包括强化学习,包括所有一系列现在最先进科技的基础,正是它支撑着整个NLP,包括CV这种领域。 我看了一句话,大概觉得它是什么意思,如何细化它的意思的这种细化的点到底是什么意图和什么槽位,这里有什么意思的转折,同样决定了为什么中国1米7的人是最多的,也就决定了整个NLP概率统计的这个世界是如何真正运行的。

我就简单分享这么多,谢谢大家。







请到「今天看啥」查看全文