专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
新浪科技  ·  【#飞天茅台散飞价格涨至2250元# ... ·  昨天  
新浪科技  ·  【#英伟达收购Runai获欧盟无条件批准#】 ... ·  2 天前  
腾讯研究院  ·  腾讯研究院AI速递 20241219 ·  4 天前  
51好读  ›  专栏  ›  DeepTech深科技

普利策获奖记者细述全球首个语音巨兽的诞生 | 深度

DeepTech深科技  · 公众号  · 科技媒体  · 2017-08-13 17:05

正文


此文来自 MIT Technology Review 中国大陆地区独家授权发布。作者 George Anders 曾因撰写《华尔街日报》的一篇报道而获得 1997 年的普利策奖。 以下是翻译整理后的全文:


眼下的这场交互革命与以往都不同:从前,所有人都倾向于让自己去适应技术产品,去适应打字、敲击或滑动等动作。现在,语音要想成为主流的交互方式,它必须迎合人类。


然而,这个巨大的挑战在一开始的时候并不在 Alexa 的“射程”范围之内,尽管它现在是语音交互市场的佼佼者。


语音怪兽的诞生




2012 年 8 月 31 日,四名亚马逊工程师提交了一项基础专利。他们只需要用十几个字和一个简单图表就能描述它的工作原理:一名用户下达“播放音乐”的语音命令,一台机器则回复“没问题”并开始播放用户所要求的歌曲。当然,完成这个任务用户得保证它处于一个安静的环境中。


这台点播机器就是 Alexa 最初的形态。亚马逊工程师们设计出这么一款产品,希望借助它与世界上最大、最复杂的数据集之一——亚马逊数据集——进行人性化沟通。


也就是从那个时候开始,基于语音的家用人工智能成为了亚马逊的一大业务,并且越来越成为亚马逊与竞争对手搏斗的战场。如今,这个战场上已经聚集了谷歌、苹果、三星、微软等公司,他们同样派出成千上万的研究人员和业务专家,竭尽全力地创造出具有诱惑力且好用的语音交互设备。



图丨亚马逊Alexa + Echo


自从 2014 年在市场首次亮相以来,由 Alexa 驱动的机器销量已达数百万计。在美国市场上使用语音驱动的AI设备中,亚马逊的销量占据了单位产品总销售额的70%。当然,竞争也在加剧。 对手家的 Google Home 也销售了数百万台,而苹果和微软也即将推出自己的版本。


据研究,谷歌、苹果、微软和亚马逊的 AI 平台各自显示出不同的优势。 Google助手是大范围搜索指令的最佳选择;苹果的Siri和微软的 Cortana 有其他方面的才能;Alexa对购物指令的表现特别好。


这些大公司争先恐后地涌入这个市场,是因为竞争优胜者将获得巨大的回报,那就是对三个重要市场的控制影响力:家庭自动化、家庭娱乐市场和购物市场——这三个市场中最小的市场是家庭自动化,单单这个市场每年就已经拥有超过 50 亿美元的份额,而去年美国的零售业总额高达 4.9 万亿美元,潜力十分巨大。



亚马逊期待智能语音助手像曾经的智能手机一样改变人们的日常生活:智能手机已经渗透到生活的方方面面,它改变了人们的约会礼仪,甚至改变了人的步行速度。类似地,基于语音的人工智能也将改变家庭生活的方方面。


但为了使 Echo 变得像智能手机一样普及,亚马逊需要做更多的事情。为此,亚马逊正在鼓励独立开发商在平台上建立新服务,就像苹果长期以来对APP开发者的扶持一样。 到目前为止,平台上已经建立了超过 15,000 个 “技能包”或应用程序。而且,应用程序的构建工具已经变得十分容易搭配。


现在,只需要一个小时,就能构建一个简单的应用,也不需要太多的编程知识。 平台上最受欢迎的应用程序是 Uber 和 Lyft 的搭车工具。不受欢迎的坏应用则包括 48 个用言语对用户污言秽语的应用。




在那些雄心勃勃的开发商中,既有与 Alexa 合作的硬件公司,也有提供与Alexa搭配的软件服务的公司。例如,CapitalOne 正在向银行客户提供基于Alexa的账单支付; 位于多伦多的 Ecobee 是一家智能恒温器制造商,它可以搭载Alexa驱动的版本,让人们只需说出几句话即可为房间升温或降温,Alexa设备是这家公司发展最快的产品线,Alexa设备已占其总销售额的40%左右。 


现在,亚马逊主要通过销售 Dot 和 Echo 机器来赚钱,价格从低端的 50 美元 Dot 到高端带视频屏幕的 230 美元Echo。如果这些设备能引导用户在亚马逊在线商场进行更多的购物活动,这将给亚马逊带来另一大回报——不过,亚马逊不会透露这方面的数据。


实际上,Alexa 驱动的 Echo 装置和 Dot 装置已是无处不在的家庭助理,它可以为你关灯,讲笑话,或者为你阅读新闻。 它们还可以收集有关用户的数据,用于改进 Alexa ,增加其用途。


对亚马逊而言,当初那个点播机器也早已改头换面。如今,它已经变成了极其宏大的怪兽。 


更好地聆听




如果 Alexa 或其附属产品可以在寒冬腊月替你锁上大门或启动汽车加热器,你还有什么必要去亲力亲为呢?


目前,亚马逊公司还没有试图去赚那些制造智能温控器、灯具和其他与 Alexa 连接的设备的企业的钱。尽管如此,仍然很容易想象,将来亚马逊会如何和这些企业分享市场收益。


亚马逊的当务之急是,让 Alexa 的人工智能系统建立在人类数据基础上,提高从人类的资源中学习的速度。 



几乎所有的语音 AI 玩家都知道,语音 AI 之所以对消费者这么有吸引力,是因为它能直接面对我们的需求,回应我们的发言和想法,而不需要我们在键盘或屏幕上打字。这也使得它在技术上极难构建,因为当我们谈话时,我们的话并不总是井井有条的。 相反,我们常常打断自己, 我们的想法摇摆不定,我们还以奇怪的方式使用词语、点头摇头、发出咕噜声。哪怕我们实际说出的话不可理解,我们也倾向于认为自己的话能被理解。


数千名的亚马逊员工正在努力应对这一挑战。这些人的工作地位于西雅图,加利福尼亚州桑尼维尔和马萨诸塞州剑桥研究中心。 即使这样,亚马逊的招聘页面最近还提供了 1,100 多个新的 Alexa 职位,它们分布在十几个部门,其中包括为机器学习专家提供的 215 个职位。



图丨亚马逊 Alexa 首席科学家Rohit Prasad 


对于 Alexa 首席科学家 Rohit Prasad 而言,为什么亚马逊需要这么多的人,什么时候他的研究团队才能完全满员?他长期从事语音技术工作已有20年,其中大部分时间得到的都是令人沮丧的结果。


问题的答案是,在过去五年中,巨大的机会降临了。


毫无疑问,创建一个真正有效的语音触发型 AI 是一个复杂且尚未被征服的任务。过去,语言科学家们努力想要在第一轮试验中就能确定混乱话语的确切含义。而如今,机器学习的新方法通过采取不同的方向取得了进展:他们从不完美的匹配中开始工作,接下来进行快速微调和临时的猜测。


关键是,分析大量用户数据,并从早期的错误中学习。 Alexa与用户交互的时间越多,收集的数据越多,它就会变得越聪明。 随着 Alexa 的进步,越来越多的机遇来临,从而需要更多的人力来配合。




“让我举个例子,”Prasad 说。 “如果你问Alexa,Adele的第一张专辑是什么?” 答案应该是“19” 。 如果你对它说“播放它”,Alexa就会知道开始播放那张专辑。“但是如果中间掺进了其他对话呢? 如果你第一次问 Alexa 这张专辑出来的年份,接着问它出售了多少份, 再接下来才要求Alexa “播放它”,早期版本的Alexa将被问题困住。 现在,Alexa的技术已经可以跟上人的思路,至少有时候能认识到“它”在这里仍然意味着“ 第一张专辑” 。


这种改进来自机器学习技术。机器学习系统重新审查了 Alexa 之前发生的数千个沟通障碍,并进行了改进。系统能学会用户实际想要听哪首歌曲,并在对话的较早部分识别出那首歌曲。 麻省理工学院口语系统团队负责人 James Glass说:“你一开始就需要做出一些假设,假定人们会问哪些问题。然后你收集数据,并调整你的模型。”


James Glass 表示,这种机器学习方法得到了广泛的认可,但要使用这种方法的话,所需要的数据量远远超过大学研究人员所能获得的数据。随着 Alexa 使用量的激增,亚马逊现在可以访问一个扩展的人机界面语音交互存储库,使其在对语音技术进行微调方面处于领先地位,正如谷歌在文本搜索查询领域所享有的领先地位那样。


为了加强与下一代 AI 和言语研究人员的联系,亚马逊还邀请全球十几所大学的工程学生来搭建可以持续 20 分钟对话的语音机器人,而在今年11月最后期限前取得最大进展的团队将赢得50万美元的奖金。




外部数据的加入也是有帮助的。例如,2016年,亚马逊把海量歌词数据库加入了Alexa,这样,当用户说出“drove my Chevy to the levee”这样的歌词时,Alexa将自动联想到 Don Mclean的歌曲“美国派”。


Prasad 团队的最新项目之一突出了这种方法的灵活性——这涉及到如何破译用户是不是在反悔其初始请求。 不同用户的指令可以有很大的不同。 有人会说“不,不,不”, 其他人更喜欢说“取消”,还有人喜欢说,“等等,实际上,这就是我想要的”等等。Alexa不需要破译每段话语。大样本和半监督机器学习使它能够概括出一组可能的否定性语音标记,然后在话语变化之后提取出连贯的新请求。


总之,Alexa正在努力成为更好的听众。



还有太多话要说


可能有不少人能猜到,语音AI 最热忱的使用者是那些无法轻易使用手机或平板电脑的人——这一点同样在Alexa身上得到了验证。


为残疾人士提供住房和服务的费城 Inglis 公司执行官 Gavin Kerr 已在八个残障居民家中安装了 Amazon Echo 和 Dot 设备。一旦初期测试完成,他希望最终将它们添加到所有300个住宅之中。 “对残障居民而言,这是一个不可思议的福音,他们可以过得更舒服。 它为他们带来了独立性。”


比如说,对于那些卧床不起或使用轮椅的人来说,一个怎么也够不着的墙壁恒温器将是巨大的折磨。 对此,Kerr解释说:“他们的身体很难适应温度。 一个72°F 的房间可能会让他们前一个小时感到炎热,后一个小时又觉得冷。”由于行动不便,如果房间不提供摇铃即来的人类看护,这些残障人士很难让自己变得舒服一点。




经过一些调整后,Alexa 软件还可以服务于那些语言能力受限的人。Kerr 谈到了一个30多岁的有语言障碍的人,他想要离开康复医院回到日常社区。 Kerr 回忆说,“他告诉我们,他怎么也无法使用Alexa的命令。于是,我们问他,你能说哪些话? 然后我们修改了软件,这样他可以使Alexa按他的要求来工作。现在,当他想要打开厨房灯时,他会说'约翰',当他想打开浴室灯时,他会说:'妈妈'“。


虽然 Inglis 公司会为其Echo用户提供四个小时的培训,但是多数新用户更喜欢自己去探索。 将 Echo 拉出包装箱后,一些特别常见的应用程序如播放音乐、设置闹钟或更新购物清单等选项将突出显示出来。使用多装置的用户可以在智能手机、笔记本电脑上调用Alexa控制面板来调整其设置,发现新应用程序,或获取关于怎样让应用程序具有最佳效果的指导。




微软产品经理 Darren Austin 在 6 月发表的一篇热门博客中写道,Alexa的广泛的成功在于,它减轻了超负荷生活中的压力。 Austin 写道:“通过简单的语音询问,Alexa缓解了人们关于不确定性的负面情绪和对遗忘的恐惧”。用户把各种各样的困惑和欲望都对 Alexa 诉说,在这个意义上,Alexa已成为随时准备回应用户需求的伴侣。


每个星期,有时更频繁,Alexa总经理 Rob Pulciani 都会浏览 Alexa 和 Dot 用户最常见话语的总体数据。 通常,最常见的话语是关于音乐,新闻,天气,交通和游戏的。然而,从今年春天开始,一个新的热门话语正在快速上升:“Alexa,帮我放松”。




当用户提出此请求时,他们会被引导到各种舒缓的声音之中——鸟的唧唧声,遥远的海浪冲撞岸边;,货运列车在夜里发出隆隆声。如果用户愿意,这种环境噪声循环可以持续播放数小时。 


当这些内容 2015 年第一次出现在 Alexa平台上时,团队曾将这些应用视为不那么重要,然而这些内容迅速获得了追捧。比如说,压力过度的成年人在这些声音中睡着了。父母将这些声音变成摇篮曲来哄婴儿。


在接下来的几个星期内,团队对Alexa的内部架构进行了微调,以便新的Echo买家在想要尝试新的应用时,可以快速发现舒缓声音这一选项。


流的可持续性 




语音 AI 的最终胜利必将是与用户进行现实的、持续多分钟的对话。这意味着,即使用户没有提出明确的要求,机器也要有能力辨识出用户的意图。这将是机器能力的巨大飞跃。


毫无疑问,人类很容易弄清楚,当朋友在说“我几个星期没去健身房了”的时候,他是想要谈压力还是想要谈自尊。但对于AI软件,这将是一个艰难的飞跃,理解突然切换的主题或拐弯抹角的暗示,这对AI来说是极大的困难。


在某个周末,我们测试了六台Echo机器人,对每个机器人都从简单的查询开始,逐步变换到复杂的、允许各种可能回复的开放式问答。 当一台Echo问我:“你看最近的电影了吗?”时,我们回答说:“是的,我看了 Hidden Figures 。”机器人并没有枯燥扔出一段对这部电影的影评,而是对我说:“我认为, Hidden Figures (隐藏的人物) 在数学方面实际上很弱。”这句话并不符合我对这部电影的看法,但当这句话从机器人口中说出时,实在是件很迷人和得体的事。


没多久,我们的谈话便停滞不前,但至少我们有过一个简短的美好时刻。




唉,其他Echo都没有这么好的表现。 最令人困惑的是,当我以为我正在和机器人谈论互联网站点时,机器人会冒出一句“你喜欢停车送餐服务吗?”这样的句子。 我说了几句尖锐的话来批评机器人的缺点,机器人却莫名其妙地反问我:“你能集体谈判吗?”


几天后,当我问亚马逊的 Prasad 对社交机器人的看法时,他认为早期的那些失败并没有困扰到他。 


他告诉我:“这是一个非常重要的领域,这是一个可以让 Alexa 变得非常聪明的领域,但这比玩围棋或象棋这样的游戏更难。 在这些游戏中,即使有多个可能的出招方式,你始终知道最终目标是什么。而在对话中,你却连对方的意图都不知道,就更别提做出判断了。” 


也许,当有一天,Alexa能够理解对话者的真实意图时,那才是真正的智能对话。


-End-

编辑:朱不换