自从亚马逊在2014年推出智能音箱Echo之后,苹果、谷歌、京东、阿里这些巨头都纷纷做起了智能音箱,当全世界最有钱最具前瞻眼光的公司都在做同一件事时,此事必有蹊跷。
记者 | 张俊潇
官网 | www.datayuan.cn
微信公众号ID | datayuancn
国内外的巨头们都在做音箱,恐怕有大事要发生
今年7月26日,小米跟上了巨头们的脚步,推出了智能音箱--小爱同学。虽然小爱这位同学在市场反馈如何还未可知,但拿她来作为我们研究智能音箱的“小白鼠”最合适不过。因为相比于亚马逊、谷歌和苹果的智能音箱相比,小爱同学更适应“国情”和“语言环境”,跟京东、阿里来比,小爱同学前端有更多的智能产品可以做连接,最关键的是小爱同学也是这些产品里面最便宜的,只要299。
相比之下Google home要卖到1199元、亚马逊Echo 1298元、苹果 homepod 2399元、天猫精灵499元、京东叮咚798元。
从定价来看,小爱同学绝对是一款负责冲量的战略级产品,而且值得注意的是小爱同学是小米品牌旗下产品,不是来自米家或者其他生态链公司的产品,可见小米重视程度之高,小爱同学如果不肩负点使命都对不起雷军。
巨头们为未来下的注码,智能音箱会是新一代的入口
小爱同学肩负什么使命,要看市面上这些产品还有什么东西没有做到。天猫精灵和京东叮咚倾向于内容应用,很像是一个装载了Siri的音箱;亚马逊Echo功能丰富,从点播歌曲、语音购物、控制家电、订外卖、叫Uber到查银行账单都能实现。
小爱比这些产品走得更远了一步,已经开始初步实现对智能设备的控制。当初被人们所诟病的“杂货铺模式”开始在语音交互时代发挥作用,看看这些产品,路由器、空气净化器、台灯、空调、扫地机器人、电饭煲…没有一个巨头能像小米一样,静下心干这些“低端”的苦活累活。而且同样是生态,反观乐视…
总之,前期的准备已经帮小米把智能家居帝国的骨架基本搭好,现在除了继续强化肌体之外,最需要的就是一个大脑。
现在看来,小米已经给出了答案,音箱可能就是智能家居的大脑,智能语音交互就是大脑的中枢神经。
包括小米在内的众多巨头都认为,未来实现智能家居的使用场景的方式是靠语音交互模式,所有像电饭煲、冰箱、空气净化器等智能设备,也许未来周围都会安装麦克风阵列接收语音。而音箱作为语音的接收器和传播器,在接收人类语音信号和反馈语音指令拥有天然的优势。而且其价格适中,体积较小还方便移动,可谓是居家旅行的必备神器,因此最容易普及和推广。
语音智能时代,手机要被抛弃了吗?
那么很多人就会问了,这个控制中心为什么不是手机?其实这个问题更准确的提法应该是智能语音交互时代,手机为什么不是绝对核心?
手机当然不可能会被完全抛弃,只不过不再拥有绝对核心的地位。因为,首先手机已经证明作为智能交互中心,基本是一个鸡肋般的存在了。以小米智能设备的应用场景来说,用手机app控制起来并没有物理控制方便多少。
而且即便是在智能语音的应用上,过去很多年里近场语音交互的尝试(比如 Siri)并没获得很好的成果,甚至连简单的语音输入法也没能普及起来,更不要提语音搜索了。
自从亚马逊的Echo问世后,连扎克伯格也认为,语音交互的未来基本上就属于远场语音交互的模式了。
因为语音交互本质上其实也是一种操作系统,音箱不过就是一个没有屏幕的操作界面而已。从机械、手指到语音操作,双手被一步步解放,近场语音交互并没有解放双手,也没有升级操作系统的空间维度,用起来很不科幻,实用性难以适应未来的发展需求。
家里面闯进了陌生人,智能潜在的挑战重重
尽管以智能音箱为载体的远场语音交互得到了业界的普遍认可,但未来的挑战也不容忽视。
最大的挑战来自技术本身,语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。再细分下来可能有成百上千种,一些抗噪音、多人声源分辨、方言识别等等细节性技术问题就不一一讨论了,这里只讨论两个大方向。
一个是和智能设备的联动问题。
小爱同学作为主流智能音箱,已经把行业最新的技术全部展示出来了,以目前的眼光来看,这样的人工智能距离人们想象中的未来要相差很远。
可以设想的智能家居生活,至少要达到这样的场景:当你下班回家,小米手环会根据你今天的行走步数、心率数推断出你的情绪,通过车载系统计算出回家的时间,数据反馈到小米手机,然后传递到十几公里外的家中。当你回到家后,说一句我回来了,电视随之开启,空气净化器自动调节室内湿度,热水器来到你平时习惯的温度,窗帘依着落日的余晖缓缓关闭,智能电灯的灯光随着你的情绪慢慢变化,电饭煲也慢慢蒸腾,你喜欢的音乐在室内蔓延……
目前来看,小爱同学和其他设备之间的联动还远达不到这样的要求。
和其他设备之间形成联动仅仅是智能音箱的第一层任务,更深层次的应用一定是和人的互动。
这个互动不仅仅是聊天,而是通过音箱和智能设备对人行为数据的不间断收集,最后形成对人的“了解”。
之所以称之为智能,就在于音箱作为器物却承担了“思考”的功能。语音交互时代必须要完成的使命,也是语音交互超越触屏时代的一个典型特征,就是要能为人提供最智能、最精准的搜索结果。因为语音交互不能接受像触屏时代一样信息的泛滥,人的一句订票、外卖、充值等服务需要最精准的答案,音箱要充当“思考”和“筛选”的功能。通过每天对人的行为大数据的收集和分析,音箱对人会有充分的认知,这种认知就是提供精准和感性服务的基础。
然而目前的技术还满足不了这样的需求。究其根本在于,目前基础声学和语音识别解决的仅仅是机器“听得见”的问题,而没有上升到“听得懂”的高度。李开复说:“其实,听懂讲的每个字不代表听懂了意思,甚至把英文翻译成中文,中文翻译成英文还是没有搞懂。你们不要看科大迅飞的演讲说懂得语音了,他一点不懂,他只能把音变成字,字变成音。你问他讲什么,一个字不懂。所以,语音识别还需要做的更好。”
李开复所说的机器“听不懂”的意思就是说,比如用户在家里哼唱“和我在成都的街头走一走”,智能音箱很有可能就凭借这句歌词给用户订了一张去成都的机票,直接规划好到玉林路尽头的路线。
显然这是有问题的。
NLP--自然语言理解技术的发展为解决这个问题提供了可能性,虽然得益于大数据和深度学习的发展, NLP也取得了很大进步,但是人类语言的复杂和多变性依旧是很难跨越的障碍,更不用说那些涉及因果关系、文字记忆和上下文逻辑推理等诸多层级的困难了。
智能音箱未来的挑战还有来自技术之外的,易观CTO郭炜就表达过这样的担忧:“如果日后家里摆着一台智能音箱,有可能你说的每一句话都会被时时上传到云端,想起来这是一件多么恐怖的事”。
但是,假如智能音箱缺少了大数据地收集功能,就意味着它没有了“记忆”,而“思考”是要建立在“记忆”的基础之上的,如何处理隐私和智能的关系也许是关乎行业未来走向的问题。
尽请期待,数据猿即将于10月底举办的“2017金融科技价值—数据驱动金融商业裂变”高峰论坛!投递案例、文章、产品,联系视频&文字专访,请勾搭数据猿~
相关阅读:
曾被167家VC拒绝,如今公司估值百亿,他说互联网金融本身就是技术创新的产物
来源:数据猿