专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
51好读  ›  专栏  ›  雷峰网

专访 | 讯飞马啸:语音助手应该先在垂直市场发力

雷峰网  · 公众号  · 科技媒体  · 2017-04-09 21:51

正文

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课, www.mooc.ai 现已开放预约。


雷锋网按:讯飞董事长刘庆峰在今年两会上说:“我们做了一个叮咚音箱,在京东这个平台上,销量排名不光是第一,还超过了第二名到第十名的总和,但它的影响力跟亚马逊相比,差距还挺大,我们在这个产品还没有树立讯飞在行业中这么大的名气。” 换句话说,Amazon Echo 碾压的不是某个厂商,而是整个行业。

今年年初,亚马逊宣布 Alexa 智能 语音助手平台已经拥有超过 10000 项 “技能”,相比去年同期,增长了近百倍。用户已经开始议论哪个 “技能” 更好用,甚至还有 科技媒体 列出了最受欢迎的 “技能” 排行榜。


此情景,像极了当年拉开移动互联网序幕的 APP Store。

根据 CIRP 报告,截止到 2017 年 1 月,Amazon Echo 用户已达到 820 万。同时,几乎所有国外 IT 巨头都相继进入了这个市场。人们纷纷猜测,在 Amazon Echo 暂未入华的这段空窗期,谁最有可能复制同样的成功。

带着这个问题,雷锋网采访了科大讯飞灵犀事业部总监马啸。他多次强调,讯飞是一家以技术见长的公司,在语音交互并未全面爆发道阻且长的背景下,他们不会追求大而全,而会向垂直场景渗透。

以下是马啸采访实录,雷锋网做了不改变原意的删减:

雷锋网:每个语音助手都说自己的识别率是最高的,难道行业没有明确的测量标准吗?

马啸: 有一些行业标准,但也要分不同的环境来讨论。比如在实验室环境下、在安静环境下、在有噪音环境下测量出来的识别率是不同的。讯飞在实验室环境下 99% 以上都能做到,锤子发布会上的识别率是 97%,车机系统上能够达到 90% 以上,识别率跟场景、噪声、口音等都有关系。

其实不管识别率如何,语音助手的好坏还是要回归到用户体验本身,大家心里都有一个判断标准:

1、能听懂我说的话;

2、能给我们带来帮助。

如果只是闲聊一下,那么它的商业价值并不是很高的。

雷锋网:为什么不同的讯飞产品在识别率上有很大差别?

马啸: 这要分三个方面讲。

第一个是面向场景的优化,这个有专门的语音模型。面向领域的比如演讲、聊天,面向场景的比如车载、会议以及手机近场说话的语音模型都是不尽相同的,演讲、聊天以及对着手机说话的语音模型都是不尽相同的,发布会上的那套系统就有面向会议的场景优化。

第二个硬件降噪。手机的降噪能力是比较弱的。而讯飞听见那套系统下面有好几个麦,各个角度,我们有声学实验室专门研究这个。

手机上在远场的识别率不如记录会议时那么高,原因就在硬件这,手机上并没有面向远场识别

的麦克风阵列,手机厂商考虑到成本一时半会是不会加的,这在产业方面的改变是要有一个过程的,随着我们把一些麦克风降噪的技术和产品标准输出出去,行业里逐步认可这个标准,才能更加的支持我们。但是这个改变又是非常困难的。不过我感觉这是个趋势,以后会慢慢好起来。

第三个是软降噪,也就是算法本身可以回声消除。虽然我们可以将软件放到不同的硬件里,但是也受制于硬件的处理能力。比如说一个非常低廉的麦克,后面没有一个 MCU,这个时候在跟它对话的时候,它只能把音不作处理的传过来,如果没有处理芯片的话,有可能效果就不好,这是很正常的。

雷锋网:讯飞里提供语音服务的各个产品团队在人员配置上有交集吗?

马啸: 讯飞听见、灵犀语音助手、录音宝这些产品都有各自的硬件团队,但底层算法方面的技术都是讯飞研究院提供的,出产品的时候,业务部门都跟后端的研究院有紧密协作的关系。

雷锋网:能否评估一下 Alexa 的中文识别水平?

马啸: 现在大部分语音识别都基于深度神经网络,它需要大量的数据来训练,还有面向不同语言的针对性算法优化和语义后处理技术,中文的多音字较多和容易产生歧义的语句也很多,还有方言等等。所以,中文跟英文识别还是有所区别,针对中文,还需要做很多优化。

所以这里有两点,一个是谁更了解中文,在算法调教上就有一定的优势;一个是谁占有更多的语料谁就能识别的更精准。讯飞在这两方面都是有很大优势的。

但是现在深度神经网络已经可以保证识别率在 80%~90% 了,这现在是及格线,以前如果没有深度神经网络,没有海量语料积累的话,连 60% 都做不上去。所以现在你要问 Alexa 做普通话的识别怎么样,因为他们中文产品还没有上市,所以不太好评价,但总体来看他们也做好也是有难度的。

雷锋网:语音助手打不开相关 APP,这个是技术问题还是商业问题?

马啸: 就是没打透,这是商业问题。为什么在垂直领域的接入会出现这样的问题,我认为这是 all in one 和 one in all 之争。

比如地图吧,高德和百度都使用我的语音能力,这是 one in all,就是我的语音 in all 所有的 app,我们把语音能力给他们,去壮大他们的客户端,这符合那些垂直领域公司的估值模型和商业诉求。

第二个是 all in one,就是所有的服务在语音助手上面呈现,all in one 相当于对他们来讲是渠道,给他导流就好了,有些公司愿意被导流,有些公司不愿意被导流。

雷锋网:在做智能音箱的过程中, 讯飞的主要考量是什么?

马啸: 音箱要看它的主要功能是什么,如果就是放音乐的话,不考虑政策方面的因素,Amazon 只需要把版权这件事情做好就行了。但如果要想提供一个智能入口服务的话,实际上路还很长。因为相比海外,中国的互联网又是一套生态系统。比如说如果出门要叫一辆车的话,在海外它对接的是 Uber,在国内它就要和滴滴来谈,相当于重新开始。







请到「今天看啥」查看全文