在从事语音技术研发的第 12 个年头,周正友又一次感受到理想的磁石吸引。
关于智能时代可能的情景,孔雀开屏似得在眼前展现,在 36 岁的工程师心中激起了火花。生活幸福而安定,但是关于语音技术,我们能做的只有这么多吗?在不确定的未来,虽然看不清全貌,但智能两个字已经泛出光亮,对企业来说,放弃语音智能就失去了未来,而向前一步,可能就握住了开启智能家居时代的钥匙。
时势造英雄。2015 年,当科大讯飞 34 人的骨干团队拎着行李箱,吹着北京早春清凉的微风集结在亦庄万源街地铁站 A 出口,一齐走向京东智能团队所在的朝林大厦时,周围晨练的人纷纷投来好奇的目光。他们可能不会想到,这一刻基本上决定了中国智能音箱市场和生态的发展轨迹。
作为「全球 50 大最聪明的公司」,科大讯飞智能语音核心技术代表了世界的最高水平;而作为中国线上线下最大的零售企业,京东早已成为中国数码和智能产品最重要的渠道,并率先建立了完整的智能硬件战略。科大讯飞与京东合作,很快推出了「叮咚」智能音箱。目前,叮咚在国内智能音箱市场占比约 80%。
走在智能领域的探索之路上,他们很乐于看到同行者。从用户接受鼠标键盘到习惯触摸屏,经历了三十年。同样,由智能音箱掀起的语音交互革命,也需要时间的打磨。
这两年,让他们最有成就感的是,叮咚与用户的关系越来越近,越来越了解他们的需要、喜好和期待。他们提出的问题,希望使用的功能,每天与叮咚的互动,为产品优化提供了根据和方向。用户看到自己想要的功能不断实现, 除了感受智能音箱带来的简单和新奇, 还体会到了作为设计者的参与感。
近期,关于产品性能、市场与未来,有人叫好也有人非议。作为灵隆研发中心负责人,周正友说,未来还有无限可能,我们就在这条路上踏实地走,还要走得更远。
「你是谁?」
——南来北往、留鼻血的工程师,掀起语音交互革命
2015 年 4 月 24 日,由京东与科大讯飞共同出资,北京灵隆科技有限公司成立。
同年 6 月,第一款叮咚智能音箱发布,实现人机语音交互,及对智能家居的语音控制。
用户小林在自家客厅使用「叮咚」智能音箱
两年后,当新品叮咚 TOP 在 618 首发即卖断货,整个团队沉浸在愉快的气氛中时,对周正友这批工程师来说,第一款音箱研发时的情景仿佛就在眼前。
讯飞的队伍刚到北京就和京东智能对接,开始了紧张的工作。来北京不到 1 周,干燥的北京春天让团队所有人都流鼻血了。当时一个司空见惯的场景是,一个工程师从塞鼻子的纸团中撕下一截,递给眼前鼻血流下来的另一位工程师先塞住,好继续讨论方案。
到产品真正上线时,他们对领导的肯定不「感冒」,而是兴奋地挤到一起看用户交互数据。
从后台数据来看,人机语音互动给用户的生活带来了很多乐趣。比如,开机后很多用户会调侃叮咚,问它「你是谁?」此时,叮咚会回答,「我是叮咚智能音箱」。自从增加了自定义问答功能,我们能看到用户编辑的答案五花八门,有的很质朴,比如「我是张狗蛋」、「我是何鲜花」;有的很可爱,比如「我是人见人爱、花见花开的宇宙第一美男子」;有的很有趣:「我是你最好的朋友叮咚,每天监督你完成作业」……
灵隆科技首席科学家汤博记得,在产品设计之初,他们曾为叮咚的角色性格展开激烈讨论,最后通过投票表决,将叮咚定义为「20 多岁知性女性」。在用户的生活中,「她」应该是一个知识丰富、文雅得体,温柔又不失严谨的家庭助手,可以帮助用户解决各种问题。
「我们不是一家音箱硬件公司,而是致力于语音智能,将音箱作为智能家居中枢或入口」,汤博表示,叮咚是作为入口级产品,引导用户适应语音的交互方式。
实际上,当我们回顾移动互联网和移动智能设备的发展,最核心的趋势是用户交互方式的演进。80 年代中期以后,从传统桌面电脑的鼠标键盘成为用户体验的基准,到 iPhone 为智能手机确立的触摸使用交互准则,其间经历了大约三十多年的漫长进化。
同样,由智能音箱掀起的语音交互革命,也需要时间的打磨。
从技术上讲,早在 2002 年,谷歌就推出了语音搜索,着手进行语音输入、语义识别和语音文本转换等研究,经过十多年的演进,语音交互已经到达了能够为用户提供准确、易操作、相对成熟的使用交互体验的程度。
数据显示,今年使用语音助手的美国用户超过 6050 万,其中,千禧一代(目前在 25 到 34 岁)用户超过 2990 万人,这意味着超过 1/3 的该世代人群都在使用语音助手,而到 2019 年,这一比例将超过 44% 达到 3930 万。
语音交互实际上把用户从「低头族」中解放了出来。智能家居的理想状态是,通过互联和语音技术,家庭中处处是「入口」,于是在用户的意识中「入口」反而消失了。当你在做瑜伽时有人敲门,你可以不用停下来,直接发出语音指令:「叮咚叮咚,把门打开」;当你忙于工作时感到饥渴,可以直接请叮咚帮忙,「叮咚叮咚,帮我订一份卤肉饭外卖」;语音指令可以应用在生活中任何场景,伴随用户生活中的活动自然而然地发生,而你使用得越频繁,「她」了解你越多,人机交互就越顺畅。
在语音技术领域,科大讯飞是基础研究时间最长、历届评测成绩最好、市场占有率最高的公司,其智能语音核心技术代表了世界的最高水平。2017 年 6 月,入选《麻省理工科技评论》2017 年度「全球 50 大最聪明公司」榜单。
然而,做任何领域的探索者,都面临着很多不易。
在第一代叮咚音箱上市前,研发团队曾升级过一个语义识别模型。当时实现技术突破以后,整个团队非常兴奋,按照理论新模型上线后会进一步提高语义识别的准确度。没想到结果竟然是相反的,经过反复检查,发现某行代码的传值出现了问题。从想到方案时的兴致勃勃,到测试效果不好带来的沮丧,到解决问题后又高兴起来。周正友笑言,都说「程序员」枯燥木讷,其实我们心情起伏的状态还是很多的。
「黑洞是什么?」
——同舟共建、吐槽变「铁粉」,交互数据形成新型用户关系
目前, 叮咚已经推出 6 款产品,使用叮咚系统的其他品牌音箱更是超过了 10 款。把「她们」放在一起,就是一个「叮咚大家庭」。A1 是固定位置的,A3 是可移动的,TOP 则打开了更多家庭入口。同时,软件已更新 30 多个版本,开放平台第一次上线。150 多个应用已开发,准备上线。
「叮咚好像越来越聪明了!」看到客户群里这样的留言,产品中心负责人钟博觉得比什么都开心。
「叮咚」智能音箱受到很多家庭用户的喜爱
「对于叮咚,很多用户还是很喜欢的」,根据交互数据,平均每一个用户每天使用语音命令 10 次左右。相较于一般 APP 的日活跃度不到 10%,叮咚用户的日活跃度达到 30%。
与用户的互动,是一个有趣、诚意满满的过程。钟博回忆,产品刚上线时,有的用户疯狂吐槽,你回答他,真正重视他的建议,他就变成「铁粉」了。有的功能用户提出来不久,我们就实现了。然后用户很开心,逢人就「安利」叮咚。TOP 首发创造了销量新记录。我们翻出来看用户 2 年前的帖子,发现他们想要智能音箱实现的功能特别多,其中很多功能都已经实现了。通过语音交互数据,看到用户提出的很多「刁钻」问题,我们都回答对了。
用户们还留言分享了很多趣事。
一位用户把叮咚放在阳台上,结果有「发烧友」从窗户经过就喊「叮咚叮咚」把他家的音箱唤醒。还有个用户有急事,但父母没听到手机响,他用手机设定的自定义闹钟,让家里的叮咚语音播报:「有急事,快给你女儿打电话!」……
「这个团队响应用户的速度和诚意,挺让人吃惊的。」
北京「老炮儿」张先生先后买了 40 多台叮咚音箱,除了当礼物送人的,自己家里留了十几台,通过京东微联平台连接所有智能家电,过上了智能生活。
最初,张先生特别喜欢叮咚,用起来简单、很方便。后来发现,自己的孩子唤不醒叮咚。在用户群里反映之后,团队开始忙起来了。最初他们设定的用户群在 80 后、90 后等年轻人身上,没想到老人、小孩对叮咚的使用也很频繁。
灵隆把问题反馈给讯飞研究院,研究人员到合肥的小学里,让学生们排成长队,每个人对着麦克风说「叮咚叮咚」,采集大量的唤醒词童音,再通过技术手段分析、建立模型,使儿童对叮咚的唤醒率大幅提升。张先生马上感觉到了系统升级的变化,很为叮咚幕后团队重视用户的诚意感动。
「用户量越大,代表着需求的种类越多。」汤博介绍产品运行两年多,他们一直致力于通过数据提高语音交互的成熟度,同时拓展叮咚的信息量与知识面。
比如在 2017 年特朗普上任美国总统以后,很多用户问叮咚「美国总统夫人是谁?」,为了让叮咚顺畅地跟主人聊天,类似的热点新闻话题要快速补充到数据库中。
另外一个意外的例子发生在儿童用户身上。他们求知欲强,很自然地把叮咚作为学习和生活的伙伴,经常会问叮咚一些科普类的问题。比如经常有孩子问:「叮咚叮咚,什么是黑洞?」当叮咚调用信息回答:「黑洞是宇宙空间内存在的一种天体……」孩子常常会追问:「什么是宇宙?」
「用户需求的多样性,经常超出我们的想象」,我们每天都会收集用户对新功能的使用评价,两年来补充了很多数据,比如孩子们喜欢的睡前故事、英文儿歌,青年们喜欢的星族运势,告诉他们今天有没有水逆……
钟博回忆,刚开始时觉得很难,因为用户千差万别,各年龄段的兴趣也不同。但是长期来看,各种类型的用户需求还是有习惯和规律的,只要围绕着用户核心需求,不断进行补充和划分,未来可能出现针对各类特征用户的特色产品。
谈到智能音箱,有一个公认的难点是——机器对自然语言的理解。人们在生活的放松状态下,语言是很随意的,对任何一种算法来说都十分复杂。特别是在对语义进行判断,满足一个需求时可能放弃了另一个需求,这时候做取舍很难。
比如用户说「你是谁」?叮咚应该播放一首同名歌曲,还是给他一句回答?调研发现,在简单指令条件下,用户最反感反问,不是关键问题去反问,就增加了用户的交互成本。因而必须通过取舍、权衡去回答问题,争取答对。
叮咚在最初设计时,因为太重视理性和得体,客户认为叮咚太老实但不够可爱。这让一帮严肃认真的技术男不知所措。终于,运营的姑娘们看不下去,为叮咚增加了很多俏皮的答案。比如用户说,「你真是个丑八怪!」叮咚会答复,「我觉得还行啊,在机器人界还算是帅的」。
在京东平台上,叮咚音箱自上市以来,一直保持在 WIFI 音箱销量的冠军,是第二名、第三名的总和,基本垄断了中国智能音箱市场。今年 618 卖得特别好,他们和用户也越来越亲近了。在收获喜悦的时刻,第一款产品诞生、不断改革、各种争吵,过去的一切都历历在目。他们明白,硬件的推出和成熟完善将推动交互和使用体验的优化,而这种体验又进一步地刺激硬件设备的提升。这条路还有很长,他们会好好走。
「叮咚叮咚!……」
——语音通联、开放平台,智能入口为美好生活加分
作为物联网时代人机交互的新方式,语音交互为核心的智能音箱更多代表着以家庭为单位、中产阶级的一种生活方式。在当前,亚马逊的 echo 销量即將突破 1000 万台。Echo 也正迅速从早期用户的小众圈子进入以家庭为单位的大众市场。
Echo 的成功证明语音交互可以作为智能家居的手段被用户接受。随后,谷歌的 Google Home、苹果的 Home Pod、微软的 Invoke 也陆续上线。国内,京东联合科大讯飞推出了「叮咚音箱」,腾讯云发布了「小微」,百度宣布收购美国语音交互技术公司 KITT.AI,阿里发布智能音箱「天猫精灵 X1」。
据统计, 目前国内做智能音箱的企业已达到 50 家, 至少 500 家与之相关的硬件企业或技术提供商活跃在前沿阵地,又一个风口形成了。
「我们很高兴看到同行者,目前的情况需要更多力量一起把生态做起来」。周正友说,他们特别希望智能音箱领域有更出色的产品,具备他们没想到的功能,促使大家在现有的水准上有所突破。
对比来看,我们能看到,目前智能音箱面临几种不同的定位。比如苹果认为音箱首先应该满足音乐享受;谷歌、亚马逊则将音箱定位为人工智能控制器;酷狗音乐、喜马拉雅 FM 则是为自家内容业务找了一个硬件载体,试图在人工智能和智能硬件的双重浪潮中,掌握场景优势和用户入口。
从产业角度看,智能音箱的竞争颇为激烈。深圳南山区一公里以内有 112 家做语音智能的公司,猎豹移动 CEO、猎户星空投资人傅盛去年还表示,宁可倾家荡产,也要做机器人和人工智能。业内对智能前景的笃定,由此可见一斑。
其实,在十几年语音数据积累基础上,讯飞很早就尝试做智能硬件,但是长期叫好不叫座。讯飞意识到他们在把握终端消费者需要方面并不具优势,而京东是国内电子产品最大的销售渠道,除了渠道价值外,对用户需求的把握更强。同时,京东智能的微联是中国最早也是最大的跨品牌智能设备互联互通平台,搭建了智能家居的基础。强强联手的灵隆,围绕交互需要的技术积累、资源积累、供应链支持一样不少,甚至比其他产品更有优势。
除了数据库的维护和更新,针对用户生活需要,叮咚的产品功能和定位也不断在微调。
比如,在叮咚现有的应用中,新东方的口语练习很受欢迎,通过数据传递,老师可以在后台打分。未来叮咚可能不只是人机交互、也可以向人人交互发展。同时,用户表现出很强烈的热情想要塑造自己的叮咚,比如自定义唤醒词、自定义音色、自定义开关机模式等等,这些方向也都在产品优化的框架中。
同时,微联自 2013 年初开始建立,目前用户量已经很大,京东着力搭建的 Alpha 智能平台更是提供了大量的内容、互联网服务资源。因此,叮咚除了语音点歌,「智能」的另一个表现的即是通过微联控制窗帘、灯、智能电器,调用打车、快递等第三方应用及购物。这些功能意味着初具雏形的家庭物联网,让用户通过云端就可以消费内容,摆脱桌面或应用就可以直接消费。
目前,智能虽然尚未成为刚需,却能大幅提升家庭生活品质。从这个角度来说,每个家庭都需要一个智能中控设备。类似「我起床了」、「我睡觉了」,一个指令可产生多个连锁响应。早晨,用户醒来只要跟叮咚说一声「我起床了」,窗帘会自动拉开,灯点亮、音箱播放你喜欢的音乐,热水器开始加热……
同时,在内容方面,京东 Alpha 开放平台正在逐步完善,打车、洗衣、快递、家政等第三方服务都可以接入。汤博认为,服务平台可以聚拢优质资源,如何让用户不要每用一个应用就下载一款 APP,只要第一次设置以后用一条语音就可以调用了。如何打通这个连接,是未来一个重要的发展方向。
每个人都有家庭。对于每个产品,团队也是放在自己家庭中去体会。对于目前的形势,他们觉得很幸运,在人口基数 14 亿的中国,潜在消费者 6、7 亿,只要产品好,不怕没有市场。
最近,周正友回了一趟安徽的家。「二宝」刚过 1 岁,看儿子踽踽学步,他突然想到大家见到第一款走下产线的叮咚时,围在客厅各个角落跟它说话,好像它是他们的孩子,是有生命的。
和其他孩子一样,「二宝」也特别喜欢叮咚。一听到熟悉的「蜗牛与黄鹂鸟」旋律响起,就跟着音乐左摇右摆。父母亲人欢聚一堂、孩子们环绕膝头跑来跑去,在自家的客厅,他想到了众多在客厅里摆了叮咚的用户,也许他们现在也在某地,享受着家庭生活的幸福吧。
啊,多么美妙……
关于京东(JD.com):
京东(JD.COM)是中国收入规模最大的电子商务公司和收入规模最大的零售商。京东致力于为消费者提供最佳在线购物体验。通过内容丰富、人性化的网站(www.jd.com)和移动客户端,微信和手机 QQ 入口,京东为消费者提供卓越的用户体验。京东拥有全国电商行业中最大的物流基础设施和网络。截至 2017 年 3 月 31 日,京东在全国范围内拥有 7 大物流中心,运营了 263 个大型仓库,覆盖全国范围内的 2672 个区县。京东是纳斯达克 100 指数的一员和财富全球 500 强企业。 ■