十年前,iPhone的触摸屏开启了人机交互的新篇章,引爆移动互联的巨大市场。十年后,我们可能又站在一个新的风口,通过语音人机对话的方式,改变计算的形态乃至生活的方方面面。通过语音与电脑对话是一种自然的互动方式,甚至会彻底消除“用户界面”这一抽象概念的必要。没有了显示屏和键盘的电脑有潜力变得比人们今天所能想象的更有用、更强大和无处不在。
本文来自《经济学人·商论》一月刊,欢迎登录App获取双语版本。
会话式计算
现在,我们说上话了
语音技术让计算机不那么令人生畏,且更易接近
英国科幻作家亚瑟·克拉克(Arthur C. Clarke)曾说过,任何足够先进的科技看起来都与魔法无异。迅速兴起的语音计算技术证明了他的观点。使用语音就如念出咒语:对着空中说几个词,身旁的设备就能满足你的愿望。
亚马逊Echo
是一台置于桌面、由语音驱动的圆柱形电脑,会对Alexa这个名字做出回应。它能播放音乐和广播、讲笑话、回答琐碎的问题,还会控制智能家电;
圣诞节还没到它就已经入住了约4%的美国家庭。智能手机里的语音助手也在激增:苹果的Siri每周处理超过20亿条指令,美国安卓手机上20%的谷歌搜索由语音输入。
现在语音输入电子邮件和短信的可靠程度已经足够使用。能说话的时候为什么还要打字呢?
这是个巨大的转变。尽管看似简单,但通过提供一种自然的互动方式,
语音有能力改变计算的形态。
说到和计算机打交道,先是视窗、图标和菜单,之后是触摸屏,都因为比输入复杂的命令行更为直观而受到欢迎。但是能对计算机说话彻底消除了对“用户界面”这一抽象概念的需要。正如手机远不只是无线电话,汽车远不只是无马之车,
没有了显示屏和键盘的电脑有潜力变得比人们今天所能想像的更有用、更强大且无处不在。
语音不会完全取代其他形式的输入和输出。
和机器交流,有时打字仍然会比说话更方便(据说亚马逊正在研发带嵌入屏幕的Echo)。但是在人们与身边科技设备的互动中,语音必将占据越来越大的份额,无论是与告诉你还需要多久洗完衣物的洗衣机互动,还是和企业热线的虚拟助手交谈。不过,要充分发挥潜能,这项技术还需要更多突破,
而且必须解决由它引出的棘手问题——在便利性和隐私之间权衡。
Alexa,深度学习是什么?
计算机语音识别系统已出现多年。但在以前它并不可靠,而且需要漫长的训练才能学会识别特定使用者的语音。
如今计算机无需训练即能可靠识别几乎任何人的语音,这一新能力是“深度学习”力量的最新体现。
深度学习是一种人工智能技术,用通常来自互联网的数百万个范例来训练某个软件系统。正因为有了深度学习,现在的机器将语音转为文字的准确度才堪比人类。计算机翻译系统也正迅速改进,而把文字转为语音的系统也变得越来越不那么机器腔,听起来更加自然。
简而言之,计算机在处理各种形式的自然语言时表现大幅提升。
尽管深度学习能让机器能更可靠地识别语音、说话也不那么生硬,
但它们还是无法理解语言的意思。
这是这项技术最棘手的地方,而且如果语音驱动的计算要真正蓬勃发展,就必须克服这一难关。要进行一段连贯的对话,计算机必须能够理解上下文,而不是仅仅对简单的一次性语音指令做出回应——它们目前所做的大部分都是后者(比如,“Hey,Siri,设个十分钟提醒”)。各大院校和大小公司的研究人员都在钻研这一问题,努力开发能就更复杂的任务进行更详尽对话的“机器人”,无论是做信息检索、房贷咨询还是安排旅行。(亚马逊为能开发出进行“连贯生动地”谈话20分钟的机器人悬赏一百万美元。)
当咒语取代拼写
在决定语音计算如何发展上,消费者和监管机构也将扮演一定的角色。
即便是在目前相对初级的阶段,这一技术也已陷入了进退两难的窘境:语音驱动系统若要发挥最大的作用,就得个人化并能获准访问各种数据源,如日历、电子邮件和其他敏感的信息。这引发了对隐私和安全的担忧。