2017人工智能的热度依旧高涨,一系列炫酷黑科技的不断发展和进步,必将在未来改变人们与机器互动方式。未来的交互方式会变成什么样呢?业内从业者的身位往往决定着他们的看法和倾向,大家观点不一,谁也说服不了谁。
从人体解剖学角度来说,手指是人体神经分布最丰富的器官,对应的大脑皮层面积也最大(参考运动侏儒 motor homunculus),这使得它可以完成大部分的精细操作,造就了现在以触控为主的交互方式,因此在未来以手指为主的交互方式依旧是主流。有没有一种新的交互方式来补充当前主流交互的不足呢?当下很难说,还不太清晰,不妨看看国外大厂的战略布局。
不废话,请看本台在过去几年收到的的消息
2014,亚马逊推出智能音箱Echo
2016,谷歌推出智能音箱Google Home
2017,微软联合哈曼推出智能音箱Invoke
2017,苹果发布智能音箱 HomePod
看完国外的,我们看看国内各大厂商今年的动作
1月,百度发布 DuerOS对话式人工智能操作系统
1月,CES展会上,联想发布智能音箱
3月,海尔发布智慧家智能音箱
5月,Rokid发布自己第二代智能音箱 若琪.月石
6月,京东叮咚发布叮咚音箱第二代
6月,喜马拉雅等四家厂商联合发布小雅AI音箱
6月,腾讯分布语音智能平台小微
6月,科大讯飞在深圳发布MORFEI(魔飞)麦克风
7月,阿里发布天猫精灵X1,推出AliGenie开发者平台
7月,小米发布AI音箱
...
可以看出国内外各大厂商都在蜂拥挤进语音交互领域,原因很简单,所有人都记得诺基亚是怎么在智能机时代被革了命,在未知的人工智能时代,先上车是最重要的,没时间解释了!
语音交互领域的火热催生了一个新的设计分类—语音交互设计(Voice User Interaction Design)。这个职位具体是做什么的呢?不妨再看看国外大厂的情况
作为业界标杆的亚马逊,在Echo团队的介绍视频里,就有对它们语音交互团队的介绍,这个职位也正式出现在公众视线里。视频中访谈了团队中的几位核心成员,他们简单介绍了对话UI设计的不同,思考如何用语音购物,语音在智能家居中的作用以及Alexa的人设(Persona)等。
视频地址:https://www.youtube.com/watch?v=oIapDT6X0-Y
Amazon 语音交互团队访谈
继Echo之后,Google也推出了自己的智能音箱-Google Home,凭借其在搜索和人工智能领域的长期积累和强大技术支撑,带来了更加智能的体验,可以说Google Home 内置的 Google Assistant是目前最聪明的语音助手。在谷歌开发者的网站中,其语音交互团队leader的演讲比较全面地介绍了语音交互设计。Nandini Stocker女士从宏观的语言对人类社会发展的意义,到VUI与GUI在构建上的本质区别,再到具体的设计的原则和步骤介绍的比较详细,感兴趣的可以去看一下这个视频(《Design is [Helpful]》)
视频地址:https://www.youtube.com/watch?v=TJFAzXNvW4E&t=284s
Nandini Stocker, 谷歌VUI设计团队主管
巨头们在行动,创业团队也不甘落后。他们的团队里面,也有语音交互设计的职位。比如在国外很火的Cozmo机器人,在他们的团队访谈中,就出现了两位声音设计师的身影。
COZMO团队的音效设计师
COZMO团队中的这两位设计师的title是音效设计师,这和具体的产品有关。Cozmo机器人是一款娱乐性质的游戏机器人,角色定位是无敌破坏王那种,它有很强的移动能力和多种运动模式,因此在为其设计声音的时候,邀请音效设计师来主刀也情有可原的,语音交互设计师更多参与在前期的机器人角色定位和人设中。
看完国外的例子之后,对这个职位有了大概了解,那么具体要干什么呢?
这取决于具体公司做的产品,还是举例COZMO。语音交互设计师需要做的工作中最重要的就是定义COZMO的性格和背景,它是谁,它怎么产生的,它产生的目的是什么,它为什么要和人类玩耍,它玩耍的对象又是谁等等。为此,甚至可以需要写一部科幻小说或者IP来扩展这个机器人的故事性和话题性,作为在未来市场推广上的流量点。机器人性格架构是非常重要的,这个“机设”将会贯穿产品的整个设计过程,是千万不能崩的。COZMO的性格定位是个爱玩,搞怪,胜负心强,情绪喜形于色,所以在声音上就不能是个成熟稳重的低音炮(比如演员王凯的声音),或者温柔可爱的萝莉音(初音未来的声音),而是采用了类似小黄人的声音,而且弱化了语言功能,突出音效。
COZMO机器人
基于产品人设去挑选合适的声优也是工作的一部分。这就需要语音交互设计师有一些配音方面的知识了,高中低频音哪个更合适,声优的声音是要虚点还是实点,声线年龄能不能符合人设,声音稳定性如何(有的声优为了达到要求会调整自己的声线,后期会有声线不稳的风险)等等。
还有一个重要的工作就是了解技术,清楚语音交互的技术边界在哪里。任何设计都是基于技术去实现的。在弱人工智能时代,技术做不到一百分的情况下,通过设计是可以解决一些问题的。比如,语音交互中的目前的主要技术难点在多轮对话,就是AI无法联系上下文或是缺少人类普遍了解的常识,从而无法准确识别用户的意图。举个例子:
用户: 周末有什么好玩的地方
VUI :都说西湖美景天下无双,出去玩当然首选西湖
用户:那我要怎么去那儿?
VUI :对不起,我不知道这个问题的答案(无法联系上下文,了解’“那”的指代意义)
设计能做什么呢?其实也就是讨巧的办法,就是在这种闲聊的对话中,在第一轮就尝试关闭对话,结束对话的轮转。
用户:周末有什么好玩的地方
VUI :周末宅在家里是最舒服的
这里要强调下,设计在这里是治标不治本的,还得依赖技术的进步,才能给用户带来更好的体验。
另外的工作是基于具体工作场景来写对话脚本,这和产品的设计和配置有关。目前常见的智能硬件(手机)是有显示屏的(保留原来的视觉交互通道),传统的GUI经过很多年的发展和积累,有很多可循的规则,但是如何让显示配合语音呢?信息如何合理地分给视觉通道和听觉通道,这就衍生出另一个新的设计门类—多模态设计。
还有的工作内容和传统交互设计师一样,做用户研究,可用性测试等等。举一个经典的例子,大家都知道语音信息的线性的,用户是依靠短时记忆来处理语音信息,因此语音长度上要严格控制的。在亚马逊Alexa的开发者手册上给的建议的是一条语音不超过20秒,这是基于英文语境和用户的原则,中文语境下可以直接拿过来用吗?影响用户体验究竟是语音时长还是语音包含的信息量或者其他的变量,就需要配合用研去论证这些基础的原则。
语音交互设计师的产出
VUI在国内还属于比较空白的阶段,可供参考的书籍和教程很有限。国外同样也不多,值得推荐的几本书都是英文,大家可是尝试去找一下。
《Voice User Interface Design》,作者 Michael Cohen,James Giangola, Jennifer Balogh。这是2004出版的书,相对比较老旧,针对是早期的IVR(Interactive Voice System,交互式语音系统),不过里面的一些设计原则在今天依旧适用。
《Designing Voice User Interfaces:Principles of Conversational Experiences》,作者 Cathy Pearl,美亚4.5星推荐评分,力推。这本书是2016年底出版的,里面的例子非常新,而且结合作者的实际项目经历,很有实战意义。
另外还有一本有中译本的 《Sonic boom》(中文译名 《音爆》,作者 Joel Beckerman,Tyler Gray),这本书偏向产品音效设计和声音品牌化,从一个更宏观的层面去看待声音对产品和市场的巨大作用。如果有时间和兴趣,可以参考电影里面的配音配乐技巧。个人非常喜欢的作曲家Ramin Djawadi,他的配乐总能契合主题,气势恢宏,个人风格比较弱,这和做设计的要求是类似的:配合具体产品,契合产品风格而不是突出个人特色。什么?你问Ramin Djawadi是谁?云音乐一下,你就知道
如果还想深入,对于语言学的基础知识也要有了解,比如字母,字义,句法,语言分类,对话,汉语表达的独特性,甚至方言及其背后的语言文化。同时,就是上面提到的编剧的基本功,产品会说话之后,它就不是简单的物理存在了,没有人设也得有“机设”,人设不能崩,“机设”也不能毁。
总之,语音交互设计需要的技能很庞杂,知识面非常广,也正是这份工作吸引人的地方。即使语音交互设计师做不成,说不定能成编剧呢!想想是不是还有点小激动呢?所以乘那个语音交互设计师还没飞远,赶紧跳起来抓住Ta!
最后的思考题:当用户使用粗俗语言与AI对话时,是否需要回应?如果需要,AI要如何回复?
下期见!
·End·
微交互 ∣细节设计成就卓越产品
长按,识别二维码,加关注
分享文章,让更多的人知道微交互