雷锋网按:本文作者陈孝良,工学博士,声智科技创始人。雷锋网独家文章,转载请联系授权。
智能音箱需要生态链打磨,功夫决定体验,不能忽视任何细节。很多时候我们给予大数据和深度学习过高的赞誉,反而让众多的研究人员犯了懒,这个世界从来不是搞搞数据就能明白的,对物理世界的探索,对人类哲理的思考,才是推动社会进步的力量。
随着Google Home的发布,智能音箱鼻祖Amazon Echo再次成为关注焦点,这款产品俨然成为了新时代智能硬件的代表。当然,Amazon Echo确实也不负众望,不仅销量攀升到千万级别,而且研发力量也超过了千人,前几日又开放了400人规模的职位招聘。
一般来说,国外成功的模式或者产品,最多一年左右时间,国内就会成功复制甚至快速赶超。但是Amazon Echo却是个例外,自从2014年发布以来,国外只有谷歌花了近两年的时间才推出Home这样的竞品,由于刚刚发售,具体销售情况我们还要拭目以待。但是国内情况怎样呢?国内花了两年多时间也仿制出了几款产品,然而都没有复制出Amazon Echo这种能被大众普遍接受的产品。
这也是国内很多厂商百思不得其解的问题,为何同样花了很多功夫,但做出来的产品就是得不到用户的认同呢?国内同类产品惨淡的销量,也让很多国内互联网巨头始终无法下定决心投入研发类似Amazon Echo的这样的智能音箱产品。这到底是为什么呢?
● ● ●
智能音箱需要生态链打磨,功夫决定体验,不能忽视任何细节
智能音箱,作为语音智能助手的家庭入口,远远超出了音箱定义的范畴,这是硬件?软件?还是平台?很难界定,智能音箱涉及了语音交互的完整生态链。如果不把这款产品作为战略产品来投入研发,估计做出的产品难免差强人意。虽然国内很多厂商都自认为投入巨大,但是相比Amazon Echo来说,这就有点小巫见大巫了。Amazon不仅投入上千人研发,还可以把Echo广告做进超级碗。这和手机之间的竞争非常类似,国产有些品牌手机也自认为不错,但是用户拿到手中,心中自然就会有个衡量区分。事实上,公司之间竞争,不在于投入20%实现的80%,而在于投入80%才换来的20%。大多时候,往往就是这20%决定了公司竞争的成败。但是国内愿意投入这80%的毕竟还是少数,特别是面向新兴市场的产品,若不能做到精致的用户体验,倾注足够的心血,得不到用户认同也就在情理之中。
事实上,Amazon Echo的诞生也不是一帆风顺的。
承担Amazon Echo研发任务的是Amazon 126,这个公司成立于2004年,主要担负Amazon硬件产品的研发任务。Amazon 126曾经同时研发了四款产品,Echo是处于Kindle、Fire Phone和AR之后的D类研发任务,甚至其研发成员主要也是AR项目组分出来的,2010年末启动的时候想必没人会看好这个音箱。Amazon Echo也不是最初的名字,而是Amazon Flash,甚至2014年发货前夕还是这个名字。Echo也是幸运的,由于Fire Phone的失败,AR项目被停止,这让Echo直接受益,短暂的内部调整后大大增强了研发力量,但是即便这样,内部还是存在不少争议,这让刚刚面世的Echo不敢公开销售,转而采取邀请购买的方式试水市场。
Amazon Echo虽然研发多年,对于技术的追求也是一种极致,但这并没有挽回Echo在2014年发布时候的尴尬,当时的用户体验也就是一个演示模型而已,从算法到内容,都存在不少问题。当然,随着用户规模的不断扩大,以及研发力量的持续增加,Echo也有了长足的改善,其内容聚合也因为其开放策略而迅速发展,这也为后来Echo屡次拿到100美元以上产品销量冠军打下了基础。
Amazon Echo的本质属性仍然是个音箱,虽然Echo的音质差强人意,但是在当前HiFi音箱衰落,蓝牙音箱当道的时代,音质对于大部分消费者来说已经不是第一要素。使用简单、外观漂亮才是用户购买无线音箱的主要动力。虽然Echo的造型设计中规中矩,但是Echo却是声学和智能相配的结合,智能仅是Echo的扩展属性,而刻意去掉的显示屏更凸显了Amazon对于语音交互的信心与执着。这种战略意识国内还是普遍缺乏的,过分聚焦于Echo的功能差异确实很难复制Echo的成功,更何况国内产品设计和策划方面确实还不如Echo精致。
这里说的精致,真的是需要用心体验的。
举一个例子,语音唤醒,国内总喜欢标榜超过了Alexa,然而,如果真拿指标这件事情说事,国内的产品虚警率飘高,莫名其妙的就误唤醒,这蛮讨厌,突然间一个音箱说话回应你一个莫须有的问题,这种事情偶尔发生也是受不了的。至于工艺设计方面,每个人都有一个审美标准,很难评判Echo和Home为何看着舒服,但是至少要比垃圾桶的音箱造型好看一些。
精心打磨一个生态链产品,除了需要考虑多方面的细节,还需要集中自家的优势资源。比如说语音交互,国外巨头不断收购相关公司壮大实力,而国内公司总是喜欢自家组建小团队搞定一切,试问精力如此分散如何才能超过国外的巨头?何况语音交互压根也不是搞搞深度学习就能解决的,这本身就需要对声学和智能都有深刻的理解和长期的积累才能做好。
● ● ●
语音交互的现场感和即时性是关键因素,但是目前还是欠点火候
语音交互毋庸置疑是继键盘、鼠标和触摸屏之后的主流交互方式,但是距离真正走入千家万户还总是差那么一点。
这里面有很多因素,比如说厂商总觉得语音交互根本没有智能,事实确实也是如此。世界上还没有任何一家公司能让语音交互做到不傻,语音智能的水平仍旧停留在关键词的内容识别和上下文分析,所谓的语法和语感学术界都还没有清晰的思路。这需要长久的研究突破,不仅限于当前火热的机器学习和大数据,更需要考虑物理世界的概念和模型,最起码也要明白婴儿学习语言的过程。从这个思路来看,现在的人工智能距离实现真正的智能语音交互还差着十万八千里。
很多时候我们给予大数据和深度学习过高的赞誉,反而让众多的研究人员犯了懒,这个世界从来不是搞搞数据就能明白的,对物理世界的探索,对人类哲理的思考,才是推动社会进步的力量。
上述或许只是个共性,Amazon Echo其实也面临同样的困境,甚至还有很多人批评Echo的语音合成也不够好,因为人类总希望自己的话语能得到类似的回应。不能说Amazon不重视这个问题,事实上Amazon强化了另一层面,不是语音合成的自然程度,而是语音回答的反应速度。语音合成当前确实很难做到如同人类一样自然,但是距离这个目标也不太遥远。上个月Google发布WaveNet引起语音合成领域的震动,这是一个新的思路。在此之前,语音合成已经很长时间没有任何实质性的进步,无非就是参数化和拼接式两种方法。这几种方法笔者在《如何评价谷歌的语音合成WaveNet和微软的语音识别“里程碑”?》做了对比分析,不过,事实上这不是现阶段用户关心的重点。
事实证明,Amazon Echo的押注选择是正确的,用户更为关心的是人机对话的现场感,从指标上来分析,其中一个重要参数就是机器的响应速度,Echo刚开始是5秒,后来压到1.5秒,再后来就是1秒以内,注意这是平均响应时间,而不是国内的峰值指标。
人机对话的现场感挺有意思,有时候也会说成沉浸感,这从人类语言对话的发展历程可以窥得一斑。我们知道,语言交流是人类交互最主要的方式,是人类交换信息、学习知识最主要的途径,但是由于语言太过时效性,记载功能太差,与之伴随逐渐就形成了文字。由于语言的时效性,所以语言交流往往是面对面即时完成的。当然,现在人类拥有了电话,但是即便有了电话之后,语言交流仍然保持着即时性。也就是说,电话其实就是人类语言交流的距离拓展,但是没有改变语言交流的即时属性,所以电信和互联网的发达本质上来说仍然是在享有这种红利。
当然了,电信和互联网的技术还很难做到人类语言交流的水平,很多时候破坏了这种即时性。技术上常常称为单工或者双工模式,单工的时候对话者的语言是“互斥”的,不会出现声音的重叠和打断。显然,以Siri和Echo为主的人机语音交互,就是这种单工模式。单工模式无法提供面对面交流时的畅快感和现场感,也就缺少一部分“对话”的体验。双工模式实际上是希望改变这一点,但是目前来看与人类还是有不少差距的,这些都是需要技术去克服的难点。
既然语音交互的现场感当前还无法做到人类水平,自然就希望先把机器回答的时间缩短,再次提醒这个指标要用平均时间,而且必须稳定可靠。这是至关重要的,试问你会和一个半天时间才冒出一句的机器对话吗?应该不会,这会让你崩溃,即便对方是人类也不行,或许还会涉及到尊严问题。显然,当前阶段人工智能还不能追求模仿人类智慧,这有太多的物理和哲学难题没有解决,也不要杞人忧天争论什么“奇点理论”,机器威胁人类还是漫长的过程,考虑这些之前,不如先想想如何解决产品中的每个关键问题。
● ● ●
东西方的文化差异也制约了国内语音智能交互技术的发展
国内外对于智能音箱的理解或许还有更多差异,但是当东方人尝试使用智能音箱的核心——语音智能助手的时候,这里还有个文化阻碍的问题,这或许是东西方文化差异的结果。理解这点之前,我们先把语音和语言区分一下,语音(Speech)是语言(Language)的信号载体,语音是人的发音器官发出的,承载一定的语言意义,而语言才承载人类的智慧。通俗的讲,语音是天生就存在的,婴儿的咿呀咿呀也算是语音,甚至其哭声也代表一定的意义,而语言则是需要学习不断进化的。人机语音交互实际上就是语言的交互,即便语音识别做到100%,对于理解语言来说也没有具体意义,何况语言总是个性的、场景的和情绪的。
语言是社会文化的产物,离开了文化就没什么语言可言了。语言又是社会文化的写照,不仅反映社会文化的形态,而且语言结构也反映了人们的价值观念。显然,不同国家的语言习惯是千差万别的,由于各民族生活的环境不同,由此而形成的文化内涵和语言习惯自然不同。毫无疑问,东西方由于文化的巨大差异,其语言表达方面也存在巨大的差异。而这种差异也决定了类似Echo这类语音智能助手的普及速度。
东方文化总是含蓄的,和西方直接表述不同,我们总喜欢拐弯抹角的表达意思。“是”时不说“是”,却说“不是”。“不是”时不说“不是”,却总说“是”,这让热恋中的东方男生时不时的就会崩溃。事实上,东方人的处事哲学中最重要的一点就是“话到嘴边留半句”。这可苦了语音智能助手,很多时候当东方人面对Echo这类智能音箱的时候,据我们大量实验观察,真的是还需要仔细思考一下才会出口。
这已经超越了任何技术的范畴,相比西方人来说,东方人使用语音智能产品面临着更大的心理障碍。与西方人觉得机器不够聪明不同,而东方人面对这类产品的表现更为含蓄和尴尬。再加上当前语音交互的现场感和即时性确实还不够好,更是加剧东方人这种心理上的障碍。这种障碍导致东方人使用Echo这类语音智能产品的时候,很难连续说出超过十句不同的表述。
事实上,东西方的二次元文化差异也折射了语音智能助手在东西方的不同地位。西方的动漫,比如说变形金刚,实际上就是典型的人机语音交互,而诸如钢铁侠、星球大战等等都有人和机器人的自然语音交互。反观东方的二次元文化,比如圣斗士星矢和最终幻想,更多的还是强调人人之间的交互和表达。从这个层面来看,东方相比西方,整体来说,人机对话和人工智能方面的普及教育要差很多,自然,东方大众对于语音智能助手的认同就不如西方。
国内的智能音箱或者说语音智能助手还在早期市场教育阶段,前面还有一段满是荆棘的小路去趟,即便明知有坑,或许也会跌落不少先驱,但是脚步必须迈出去,前景必然是美好的。趟路的过程,或许需要很大的牺牲,才能培养出一大波的技术人员、营销人员,积累出一大批铁杆用户。这个战略布局国外已经提前走了一步,国内也不要总幻想着弯道超车,哪有那么多弯道,别人也不傻,踏踏实实地迈出坚实的步伐即可。
国内互联网发展其实也这样走过,BAT也并非各个领域最早的开拓者,而是踏着先驱再不断发展壮大。不好预计这个趟路过程需要持续多久,毕竟不是预测国足的比赛结果,但是相信会比互联网和移动互联网的过程都会更快。