专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
新浪科技  ·  【#SpaceX计划进行星舰第八次试飞#】美 ... ·  昨天  
新浪科技  ·  【#小米YU7新版本车型完成申报#】 ... ·  2 天前  
新浪科技  ·  转发微博-20250221195420 ·  2 天前  
51好读  ›  专栏  ›  腾讯研究院

AI新入口—智能语音系统全景分析及游戏探索

腾讯研究院  · 公众号  · 科技媒体  · 2017-07-20 17:25

正文

腾讯互娱研发部游戏研究组  陈泽伟  林杰


全景分析篇


导语


短短的两个月时间,国内外智能语音助手设备市场风起云涌,平台之争一触即发。形成这一情形的原因,一方面是自然语义识别整体技术上有了新的突破,另一方面也由于目前世界范围内智能家庭设备的渗透率极低,市场几乎真空,海内外各大厂商争相进入这片蓝海,开始布局。


背景


1.    市场热度


5月9日Amazon发布Echo Show。6月6日Apple发布HomePod。6月22日,腾讯发布小微智能服务系统并联合优必选和华硕等企业发布Qrobot智能机器人。7月4日,京东发布新一代智能音箱叮咚TOP。7月5日,上午百度发布搭载DuerOS的智能家居新品,下午阿里发布精灵X1智能音箱。


2.    产业数据


Strategy Analytics近期发布的研究报告《全球Wi-Fi音箱预测2014-2022》显示,全球基于Wi-Fi的无线音箱出货量在2016年增长62%达到1400万台,其中搭载智能语音系统的达到42%约590万台。Amazon在智能音箱这分类中,达到510万台,约占总数的87%,占据统治地位。紧随其后的是Google Home,出货量为50万台。预计到2022年,全球智能音箱产品出货量会增加十倍以上。

2016年全球wifi音箱出货量


3.    关键技术


自然语言处理

从2013年开始,基于深度学习(Deep Learning)的自然语言处理(NLP)模型的训练得到了广泛应用,在机器翻译,文档摘要,阅读理解,关系提取方面得到了重要进展。2017年阿法狗战胜柯洁更是将深度学习的热度推向新的高度。


麦克风拾音技术

从2016年开始,拾音技术,麦克风阵列技术,都获得了长足的进展。更清晰的拾音,帮助更好的语义处理,也能扩展用户应用场景,从封闭式环境(客厅,房间)到开放式环境(酒店,餐厅)。


4.    相关政策


现阶段国内外均没有相应的标准和规则。各智能语音助手开放平台处于生态圈初始建设阶段,形成完整生态圈还需要很长时间。


国内外产品简析


国外智能音箱及其智能语音助手平台


1.    Amazon Echo

Amazon Echo


  • 设计

亲肤塑料材质的极简式圆柱体,高约莫20公分,宽10公分,顶上有一圈蓝色LED灯,突出科技感。


  • 智能语音助手平台

Alexa,最早的语音助手开放平台,目前有1万5千多的技能(Skill),与数十家著名硬件厂商合作。唤醒词,“Alexa”


  • 优势功能

可以方便的在Amazon上购物和控制智能家电。


  • 价格

Amazon Echo180 美元 Amazon Echo Dot 50 美元 Amazon Echo Show 230 美元


2.    Google Home

Google Home


  • 设计

如一个巨大的空气清新器的瓶子,色彩是粉色系且可定制,更能与现在的家装设计配合上。


  • 智能语音助手平台

Google Assistant,背靠整个Google AI和 Google Search组。在安卓手机上有多年的开放经验。唤醒词,“OK, Google”


  • 优势功能

在常规问题回答方面,Google Home的优势明显。而且首先实现声纹识别功能,使得多用户使用同一个Google Home成为现实。


  • 价格

130 美元


3.    AppleHomePod (尚未发售)

Apple HomePod

  • 设计

像一个大棉花软糖,摁下去感觉会弹起来那种,延续苹果一贯的极简设计风格,颜色有苹果白和极致黑。


  • 智能语音助手平台

AppleSiri,智能手机上第一个语音助手。唤醒词,“Hey Siri”


  • 优势功能

能与家中苹果系设备无缝相连。注重音质,搭载6个麦克风阵列,4英寸低音炮,底部配有7个扬声器阵列。


  • 价格

350 美元

国内智能语音助手平台


1.    腾讯云小微

腾讯的“AI即服务”产品,由微信AI团队发展而来。


  • 构成

硬件开放平台,Skill开放平台,服务机器人平台


  • AI能力

人脸识别,情绪识别,人体识别,实时翻译,图片识别,人机对话等


  • 优势

海量服务内容(视频,小说,新闻),腾讯社交关系链


2.    百度DuerOS

百度AI推出的“对话式人工智能系统”


  • 构成

百度DuerOS开放平台


  • AI能力

人脸识别,图像审核,知识图谱,结构化数据抽取,语音识别,翻译理解


  • 优势

海量业务场景,海量解决方案,先进的语义分析技术,大量合作家电企业


3.    京东叮咚


由京东和科大讯飞联合发布的智能音箱开放平台


4.    阿里精灵 (尚未正式开放)


由阿里AI Lab研发推出的的智能语音交互系统


行业格局


海外 – 四足鼎立


Amazon由于先发优势明显,拥有最多的合作伙伴,于2015年开放Alexa平台,拥有最多的服务支持;谷歌通过Google Home这一单品,和Google Assistant这个全球用户量最大的语音助手平台,拥有最庞大的用户数据,在个性化智能化上面高歌猛进;苹果通过发布HomePod和HomeKit这一生态圈开发系统,宣告苹果构建智能生态闭环正式加速;三星凭借全产业链的优势,快速给产品赋予智能,并逐步最广自家的Bixby智能语音助手。


国外前两年的市场竞争经历可以很好的给国内市场竞争者做为参考。


国内 – 硝烟四起


在家电智能化前期,仅仅局限于将产品接入互联网并可以用手机控制。这也是由于传统家电企业的短板所致。进入2017年,以腾讯、百度、阿里、京东为代表的互联网科技企业带着各自的AI技术正式加入这一市场。汉语语音交互技术的技术突破,使用户对智能家居的控制和使用更加方便。各传统家电厂商和互联网科技企业间的合纵连横将是未来一两年的主题。


趋势分析


1.    硬件 – 即将成为主流家庭电子类消费品


据VoiceLab预测,2017年全球智能语音设备出货量将会达到2450万台。在北美地区的家庭渗透率会达到20%,智能语音设备成为主流电子类消费品将在2020年前达成。

智能语音设备的保有量统计及预测


另据VoiceLab调查显示,只有11%的人会在购买一个品牌的智能语音设备之后再买另外一个品牌。这说明智能语音设备是智能家庭的核心产品,一旦用户围绕一个品牌打造智能家庭之后,忠诚度极高,改变的成本也会是极大的。因此,可以解释近半年有如此多的智能语音平台发布,如微软 Corona, 京东叮咚,科大讯飞开放平台,腾讯小微,百度DuerOS,阿里精灵等。


预计在2017年内,BATJ都会推出杀手级的硬件产品,让智能语音设备正式进入国内的家庭用户。


2.    软件 – 差异化,专业化是留住用户的本钱

智能语音设备的重中之重是软件,也就是背后支持语音交互的人工智能(AI)。


国外市场,经过两年的发展,在基础功能趋于同质化的情况下,差异化和专业化是各大平台需要突出的地方。

国内市场,尚处于起步阶段,目前还未有占绝对优势的平台出现。可以预测BATJ将会凭借用户数量优势抢占市场先机。

未来布局


载体 – 多元化


对于智能语音助手的载体选择,音箱是一个很好的切入口。


音箱几乎可以说是一个家庭家装时候的必备品,特别是现在无线互联的时代。据Futuresource的研究表明,2016年无线音箱的出货量达到6500万台,其中智能音箱只占到10%。因此,智能音箱发展空间巨大。


但是作为智能语音助手的载体,音箱不一定是唯一,可以看到腾讯推出的Qrobot这种智能机器人也可以成为载体,并且由于机器人的可移动性可拓展出在教育、培训、工业等方面的更多可能。


开放平台 – 打通大家电和产品内容的最后一公里


用户对智能产品的印象比较繁杂,而且一般偏向于小型设备,如灯泡,门禁等。而传统大家电除了电视以外,与智能能搭上边的很少。这是由于传统家电企业在智能化的技术储备上的不足导致的。BATJ的加入能很好的解决“产品智能化”这个环节。而开放平台能更好的打通内容与大家电的联系。让用户真正体验到一个语音交互入口控制家中主要电器设备的便利场景。


房地产商 – 智能家庭推波助澜


现在,越来越多的房地产商在设计项目的时候,将智能提升到一个战略性的方向,从而吸引高端人群的青睐。如万科、碧桂园、恒大等。正是在这些房地产商的推广下,房屋购买者对智能家庭的搭建有了一定意识。所以,与相关房地产商建立合作伙伴关系,对平台的推广,智能产品的销售会有相当的促进作用。


游戏探索篇


【卷首语】


智能音箱这一产品已推出三年之久,但却鲜有游戏玩法问世。这是因为智能音箱的设计师进入了“失去屏幕=无法游戏”的误区。


可是,在游戏规则中,屏显也只是一种交互方式,屏显能做到的,其他方式就一定不能做到吗?缺少屏幕的我们,虽然丢失了一种最常见的交互手段,却获得了从前在游戏规则设计中很少用到的智能语音。


在克服不利设计条件的同时,对新功能加以充分利用,我们就必能发现崭新的游戏乐趣,甚至消除屏幕交互方式带来的不足。


本文中便展示了这样一种可能性。


随着AppleHomePod的发布,AI语音交互技术,尤其是智能音箱产品,又一次受到了世人的关注。此前,据外媒报道,最早开辟这一领域的Amazon Echo系列产品的销量已突破千万,销售额更是高达9-10亿美元,俨然成为了Amazon引领世界智能消费潮流的现象级产品。腾讯X音箱也开始内测。

腾讯X音箱


众所周知,智能音箱没有除语音外的交互手段,仿佛是它的一大劣势,但智能语音的相关功能一旦得到有效运用,我们依旧能够在这一平台建立优秀的游戏玩法。


我们初步认为,有两种游戏形态(共四种玩法)比较适合智能音箱产品:


一、语音交互型游戏


在开始叙述之前,首先让我阐释一下语音交互游戏的基本运行过程。


大约五、六年前,部分概念借鉴自法国著名桌面游戏《只言片语(DIXIT)》[1]的《你画我猜》曾经在各大游戏平台风靡一时。这是一种基于绘图和文字输入交互的游戏形态,绘图者根据系统给出的谜底绘制图画,供猜谜者解答。

《你画我猜》


《你画我猜》的游戏过程为文字(输出谜底)→绘图→文字(输入答案)→文字(反馈结果)。可以很清晰地看出,这套规则是依赖鼠标(数位板)绘图与基于键盘的文字输入进行交互的。其呈现方式,理所当然是电脑的屏幕显示。







请到「今天看啥」查看全文