不论智能音箱多么火热,虚拟个人助理还离我们很遥远。
智东西 文 | 寓杨
《Her》是一部关于人机相恋的科幻电影。剧中男主角在一段悲惨的爱情后,偶然的爱上了一款先进的人工智能操作系统(OS),这个虚拟助手能够和人类对话,幽默风趣善解人意,又能够不断自我学习丰富自己的意识和情感。
而当下随着智能音箱等各种智能设备的出现,虚拟语音助手也成为我们谈论的热点。我们何尝不想拥有电影中的虚拟助手,它无处不在地陪伴着我们,并为我们提供各种服务。
就在昨日极客公园的奇点大会上, 出门问问创始人&CEO李志飞回应了这个问题“虚拟个人助理到底与我们生活有多远”,会后他接受了智东西等媒体的采访,并就出门问问的智能音箱、自然语言理解以及行业布局展开对话。
一、出门问问“软硬件结合+多场景联动”
出门问问是一家软硬件结合的人工智能公司,由李志飞在2012年10月创建。而在创办公司之前,李志飞是美国约翰霍普金斯大学计算机系的博士,之后在谷歌总部担任科学家,从事机器翻译的研究工作,这里面最核心的技术就是自然语言理解。
李志飞谈到,在公司创立之初,他们就希望在下一代移动设备或者是计算设备到来的时候,去定义下一代的人机交互方式。为此,出门问问也经历了三个阶段的探索。
在2012年到2014年刚成立的一年半里,出门问问主要做算法,问问团队把语音识别、语义理解、后面内容的对接、搜索、推荐系统都自己做了一遍。李志飞表示,由于之前技术的积累,这个阶段是比较简单的。然后李志飞开始探索技术到底应用在什么地方,并在手机上做了一些应用。
在2014年到2015年,出门问问开始走向软硬件结合的道路。李志飞谈到,“到底什么样的方式能够承载下一代的交互方式?我们就想到软硬件结合这个点”。具体来讲,就是把软件和硬件结合起来,去开拓一个新的品类,而出门问问首先做的软硬件结合的设备就是智能手表。
做完智能手表,出门问问具备了软件、硬件和算法的联合开发能力。在形成一个不错产品的前提下,李志飞又走向了软硬件结合+多场景联动道路的探索。因为人的生活场景的多元的,虚拟助手如果只是在手表上,是非常局限的,而通过多个场景的多款产品的联动,让虚拟助手无处不在,才能让用户更便捷的使用虚拟助理。所以,出门问问开始尝试智能家居、智能车载等更多场景的产品。
目前出门问问软硬件结合的产品已有智能手表Ticwatch、问问耳机Ticpods、车载智能后视镜问问魔镜Ticmirror、智能音箱Tichome等一系列产品。
二、出门问问智能音箱将更加注重音质
在智能家居的产品中,出门问问最早探索的就是智能音箱,并于今年4月份发布智能音箱Tichome以及虚拟个人助理“问问”。李志飞向智东西透露,该款智能音箱将在今年8月24日左右发布上市,月底进入量产。
他谈到,出门问问在去年下半年开始对智能音箱进行调研,今年开始着手去做,第一批样品已经在4月份亮相,目前产品已经打磨了近4个月。
当智东西问及价格时,李志飞表示,问问音箱的价格将会比市场上的音箱贵一些,大致价格在700-1000元之间。为什么问问智能音箱会比天猫精灵X1、小米智能音箱贵呢?它有什么优点?
李志飞谈到,首先在音质上,问问智能音箱要比市场上所有智能音箱的音质要好,主要是采用了高中低音不同的两个喇叭组合,音腔也更大,导致成本的上升。第二,围绕音质,出门问问会寻找更好的音乐源,更优秀的合作伙伴,花更高的成本投资在这一块。第三相比市场上的产品,出门问问在智能语音交互上做的更好,比如说多轮对话、百科问答等。
第四,在策略上,出门问问的智能音箱不止在国内销售,还在国外销售,在海外和谷歌合作,通过自身硬件和Google Assistant相结合。李志飞谈到做硬件只有销售更多的量才有规模效益,有更多的用户使用,才能支撑投入、售后、服务和产品迭代。智能音箱市场80%都在海外,而中国只占了20%,所以从最初起出门问问就要做一款全球化的产品。
可见,作为一款智能音箱,李志飞首先还是聚焦在音箱的核心功能听歌上,并提供更优质的音质和音乐源,其次才是智能化程度,这和苹果HomePod的理念不谋而合。
此外,李志飞也谈到,跟风苹果也没有什么不好,因为一个小的创业公司很难去定义一个产品品类,但可以在品类的基础上通过技术去创新。出门问问也在做一款类似苹果AirPods耳机,预计今年年底将会出产品。
三、虚拟个人助理究竟离我们有多远
电影《Her》描述的是2025年的情形,其中的虚拟助理具有自然对话、善解人意、无处不在、爱恨情仇四个特点。但李志飞表示,未来7、8年要实现这一款产品是非常非常困难的,核心瓶颈就在于自然语言理解能力。
目前的智能音箱更多的还是“one shot”模式,即一轮对话,多轮对话也只是应用在闲聊中。李志飞表示,问问音箱可以展开基于上下文背景的多轮对话,比如你可以说“播放音乐”,然后可以接着问“这首歌是什么名字”、“歌手是谁”、“他结婚了吗”等更深度的对话,但为了用户体验,每次发问仍然需要唤醒。
当智东西问及NLP(自然语言处理)的发展状况以及何时才能实现《Her》中的虚拟助理时,李志飞表示, 语音交互发展到今天,语音识别基本已经到了可用的程度,当然也需要对各种噪音和口音环境迭代优化,但根本瓶颈在于自然语言理解和对话系统上。
NLP和对话管理背后都是机器学习、大数据、云计算算法,但NLP更多的指一句话在上下文中如何去理解它;对话管理是前面进行到了一个什么样的状态,即机器说过什么、人说过什么,没说过什么,它是对化状态的管理,这两个技术都是语音交互比较大的瓶颈。两者的突破在于怎么能有效的把NLP技术和知识图谱、推理的结合。
而自然语言理解很难说它发展到哪种程度,说白了还是计算机没有常识,没有办法对物理世界进行建模。一个很有趣的悖论是,一方面计算机可以创造一个程序,打败世界上最牛的棋手;但是另一方面,计算机都不能像一个5岁小孩一样跟你进行正常对话,而这正是计算机没有对物理世界和常识进行建模和理解。
四、智能音箱是战略性布局
考虑到智能音箱在NLP上的瓶颈,以及国内使用的实际情况,那智能音箱当下在国内是否是一个伪需求呢?
李志飞坦言,不好判断智能音箱在国内是否是伪需求,尽管亚马逊Echo可以达到千万销量,但短时间内达到千万级别的量还是很困难的。
首先,国内用户在对智能音箱的认知上是远远低于美国的,他们的调查显示,在美国80%的人知道智能音箱是什么,而中国认知度20%都不到。第二美国智能家居的成熟度是比较高的,房子更大, 用户喜欢去DIY,而国内这样的环境是不具备的。总的来说,国内智能音箱发展不容乐观。
但对所有的公司,包括像出门问问以语音交互为核心的公司,智能音箱就是一个战略性的产品。虽然销量起来需要时间,技术成熟需要时间,但是如果今天不去做智能音箱,未来四年就算用户有这个需求,技术上已经成熟,那么跟你也没有关系。与运营的产品不同,这样的产品需要很多技术上的积累,像天猫、叮咚的布局更是看中智能音箱未来的战略价值。
当谈到小米智能音箱(299元)、天猫精灵X1(499元)的价格时,李志飞表示,出门问问不会选择低价路线,在市场不成熟的当下,降低价格不见得能够卖出多少产品,反而会降低研发、推广的成本。
结语:百箱大战即将到来
目前,市面上的智能音箱越来越多,叮咚音箱、天猫精灵、若琪音箱、小雅智能音箱、小米智能音箱、问问智能音箱等都陆续加入战局,还有一大波玩家正在路上,“百箱大战”即将到来!
有的玩家硬件把控强,拼性价比;有的玩家技术强,拼交互;有的玩家内容资源丰富,打内容;还有的打渠道等等。但没有一家企业全部具备以上优势,而未来的比拼一定是基于用户体验的生态。
而国内市场和用户最终是否买账也要画上一个大大的问号。但正如李志飞所说,智能音箱是一款布局未来的战略性产品,谁也承受不起错失风口的风险。
延伸阅读
点击下方图片直接阅读
往期回顾