提示
:
点击上方
"
行业研究报告
"订阅本号
,以便随时来访。
目前中国智能语音市场被科大讯飞、百度和苹果占据绝大多数市场份额,2015年三家合计达79%。
其中,科大讯飞市场份额为44.2%,处于市场领先地位。百度进入势头强劲,市场份额增长快速。
PS:免费索取报告,请关注“行业研究报告”下方菜单栏“我要报告”项。
IPO咨
询
,请关注下方菜单栏“我要合作”项。
来源:张颖 方证券研究所
行业报告研究院
一、智能语音:谈入口太早,但不可或缺
智能音箱是台面上的狂欢,本质还在用户、数据和服务
自2014年11月Amazon推出收款基于语音交互的智能音箱Echo以来,2015年科大讯飞发布智
能音箱叮咚,2016年谷歌发布智能音箱Google Home。
而进入2017年以后更是密集,5月联想
发布智能音箱,Amazon发布带触屏的Echo Show,微软联手音频设备制造商哈曼.卡顿合作打
造Invoke,6月苹果发布HomePod。同时国内BAT等互联网巨头也纷纷有意入局。
智能音箱本身不是目的,争夺的是背后的用户、数据以及服务入口。
其实基于语音交互技术的
入口产品可以是音箱、电视等家居产品,甚至可以是室内可及的智能设备,之所以选择音箱作为突
破口,只不过看重这样一款在初期能承担除交互之外其他功能的载体。
对于用户而言,需要的
是能够将众多繁杂的应用和接口进行封装的工具,不再需要自己主动到每一个具体应用上获取服务,
而是借助语音交互统一的入口提供。
对于巨头公司而言,目的在于借此获得移动互联网之后一
个能够获取用户数据并持续提供服务的入口。
单就智能音箱而言,交互体验和连接的服务是影响用户选择的重要因素。
抛开智能音箱的设定,
其本质是一款基于语音进行人机交互的智能硬件,在算法层面涉及到降噪、远场识别、唤醒与打断
以及多轮会话、语义分析等自然语言理解技术,硬件层面主要涉及到进行声音采集的麦克风阵列技
术以及声音播放时扬声器处理。软硬件的协同配合方能使得人机交互更为自然。
如果说播放音
乐是传统音箱的主要功能,那么对于智能音箱而言,这已经几乎成为附带选项,互相之间拼的不是、
或者说不只是音质问题,更多是人机交互的体验,以及交互背后所能支撑和兼容的服务数量与质量。
无论是对接线上的互联网服务,还是线下智能家居系列产品,若无法形成产品、应用以及数据的生
态闭环,则智能音箱的入口目标就难以达成。
国内智能音箱的惨淡销量还与消费习惯相关,用户培育需要时间。
与Amazon Echo千万量级
销量相比,国内科大讯飞与京东联合发布的叮咚音箱销量似乎逊色不止一筹。除了在技术和应用层
面可能存在的差异之外,各自根植的土壤环境也有着先天的差异。
若去掉“智能”的概念,智
能音箱首先是个音箱,与欧美超过85%的家庭音箱普及率相比,国
内甚至不足20%,在对音乐以
及音箱设备的需求观念上的差异导致音箱对欧美人群或许是“生活刚需”,而对国内用户或许目前
还只是少部分人的爱好。
正如前文所述,音箱只是恰好成为载体之一,最核心的依然是物联网
时代智能终端的人机交互入口。
信息获取与表达决定语音交互成为阶段性不可或缺的一环
互联网PC时代人机交互主要依赖鼠标和键盘,移动互联网时代触摸屏交互成为标配,那么人工智
能时代的交互会由哪种方式主宰?基于语音控制的智能音箱还是智能电视?
这些或许有可能成为
智能家居入口,但即便Amazon Echo已然达到千万级销量及超过1万项技能点,似乎也不足以成
为人工智能时代交互入口的产品担当。
从信息获取以及表达的角度来看,交互入口的演变必然是从习惯到本能的革命。
从信息获取来
看,研究表明,人的各种感觉器官从外界获取信息来源=视觉60%+听觉20%+触觉15%+味觉3%+
嗅觉2%。
其中视觉、听觉及触觉累计高达95%,基于此或许就不难理解为何无论是互联网时代的
PC还是移动互联网时代的智能机,不仅无法离开键鼠套装和触摸传感器,而且还无法离开那块或
大或小的显示屏。
从信息表达来看,1967年美国著名心理学家、传播学家艾伯特梅拉比安
等人经过大量实验,提出人类在沟通中全部的表达信息=肢体语言信息55%+声音信息38%+语言
信息7%,或许这也能在一定程度上解释为何各家智能音箱先后登场却依然未能挑起入口大梁。
我们认为,从键鼠输入的抽象符号到触摸屏直接的滑动与按压,这已经在一定程度上靠近了人类习
惯,而未来的交互方式将更为接近人的本能。
语音或许是人机交互的阶段性成果,基于语音的人机交互或许会成为某个特定场景的入口,但语音
与肢体动作的融合或许更可能担当得起一个时代的交互入口,至于更为遥远的未来,或许会有类似
脑电波等其他方式。
二、智能语音相关技术及发展历史
智能语音主要研究人机之间语音信息的处理和反馈问题,从表现形式来看,即研究如何通过语音实
现人机交互,相关支撑技术主要可划分为基础语音技术、智能化技术以及大数据技术。
语音识别准确率在引入深度学习之后得到快速提升。
语音目标在于使机器最终能够将识别语音中的
内容、说话人、语种等信息。在技术思路经历了基于标准模板匹配和基于统计模型(HMM)两个阶
段;
2010年开始由微软的俞栋、邓力等与Hinton合作,在语音识别领域引入深度学习替换传统的
特征提取,随着深度学习的引入以及在此基础上派生的各类模型的组合,语音识别准确率大幅提升。
2017年3月IBM通过长短时记忆、WaveNet语言模型和三个强声学模型的组合,在Switchboard
数据集上电话语音识别错误率降低到5.5%,
无论是对比微软2016年测试结果给出的人类速记员
5.9%错误率还是此次IBM给出的人类5.1%,机器都已经极为接近人类水平。
语音合成已有200多年悠久历史,表现力尚有待继续提升。
在计算机技术出现之前主要模仿人体
发声原理制作相应硬件,计算机技术出现后音质、音色和自然度都有提升。
随着技术演进,语音合
成的复杂度、自然度和音质都已取得不错的成绩,目前研究重点在于提高合成音的表现力,如语气
和情感等。
声纹识别目前也正向着深度学习方向发展,但不管是用传统算法还是深度学习,都需要事先建立声
纹库。
声纹识别主要根据语音波形反馈的说话人生理和行为特征,自动识别说话人身份,在安
全性上可与指纹、掌形和虹膜等生物识别技术相媲美,目前已经用于公安和司法系统证据鉴定中的
身份鉴别,以及银行支付过程的身份认证。
声纹识别和语音识别结合,能通过识别内容防止录
音假冒,和情绪识别结合,则可以感知识别对象是否处于受胁迫状态。声纹识别需要相应的声
纹库,且至少要保证合理的性别、年龄段、地域、口音、职业分布。
测试样本应该涵盖文本内容是
否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况
和情感因素等主要影响因素,因而声纹数据库成为声纹识别技术突破的重要门槛。目前最全的是公
安部的声纹鉴别库。
自然语言理解目前尚处于浅层语义分析阶段,大致包含词法分析、句法分析、语义分析这三个既递
进又相互包含的层面。
目前机器对句子的理解还只能做到语义角色标注层面,即标出句中的句子成
分和主被动关系等,属于浅层语义分析技术。未来要让机器更好地理解人类语言,并实现自然交互,
还有待深度学习等机器学习方法的进步。
多轮对话,主要建立在语音识别、合成以及自然语言理解等技术基础之上,自然度和准确度有待提高。
多轮对话系统一般分为任务型和闲聊型,任务型是协助用户完成具体的某项事情,如:设置闹
钟、查天气等;而闲聊型是实现人机的情感聊天互动,如陪护型机器人。多轮对话相比单轮对话方
式提高了用户交互的自然度和准确度。
对话管理是实现多轮对话系统的核心,功能分为对话状
态追踪(DST)和对话决策(Dialog Policy),前者作用是更新对话状态,记录到目前为止用户所有的
聊天记录和系统行为,后者依据DST对话状态产生系统行为,即决定下一步反馈或调用等行为。
三、智能语音产业发展现状
市场规模快速扩大,且国内增速显著超过全球
在移动互联网、大数据、云计算、深度学习等技术的发展推动下,智能语音技术渐趋成熟,行业发
展进入场景应用布局阶段。
移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音
产业规模持续快速增长。
2015年全球智能语音市场规模达62.1亿美元,同比增长34.2%。中国智
能语音产业市场规模也逐步扩大,2015年40.3亿元产业规模约占全球市场份额10%,且增速显
著高于全球市场,预计至2017年份额占比将提升到14%。
各要素齐发力,推动智能语音形成完整产业链
借用我们前序报告中提出的人工智能商业化应用“人机料法环”模型,智能语音产业在人才储备、
计算设施、数据积累、技术算法以及应用场景等五要素共同推动下已形成较为完整的产业链。
从产业链角度,智能语音行业可分为四个部分。
基础研究机构:语音合成、语音识别、声纹识
别等基础技术的研发和技术输出;语音语义数据提供商:为算法研究或技术输出机构提供语音、
语义数据库以及定制化的数据采集和处理;
语音技术提供商:将基础技术转换为软件或行业整
体解决方案,提供嵌入式或平台式的语音软件服务、行业智能语音系统整体解决方案;
智能语
音应用提供商:智能移动设备、智能车载系统、智能家居等智能终端厂商,以及输入法、娱乐等各
类APP或软件客户端等,从产品属性来看主要包括消费级产品和专业级行业应用。
算法红利逐渐消失,一家独大转向多方竞争
随着深度学习的引入和发展,智能语音的算法红利正逐渐消失。
Nuance自2005年与ScanSoft
合并后,成为全球最大的语音技术厂商,凭借自身先进的语音识别、自然语言理解技术以及优秀的
语音解决方案在2012年全球语音市场中占据62%,加上谷歌、微软合计占据超过85%。
2010
年深度学习首次引入语音识别,随后配合计算能力的提升和海量语音语料数据的积累,识别准确率
得到大幅提升。尽管2015年Nuance全球市场份额仍居第一,但已大幅下降至31.6%,而谷歌、
苹果、微软及科大讯飞市场份额增长较快,分别达到28.4%、15.4%、8.1%和4.5%。
科技巨
头对于深度学习算法及机器学习框架的开源使得智能语音技术的调用变得更为简单,模块化的设计
使得应用部署与实施门槛显著降低。
目前中国智能语音市场被科大讯飞、百度和苹果占据绝大多数市场份额,2015年三家合计达79%。
其中,科大讯飞市场份额为44.2%,处于市场领先地位。百度进入势头强劲,市场份额增长快速。
美国权威杂志《麻省理工科技评论》公布的2016年十大突破技术,百度硅谷的Deep Speech2智
能语音技术赫然在列。谷歌、微软、苹果、百度等互联网巨头在资金、数据和2C应用用户拓展三
方面优势明显,各方强势介入将使得全球智能语音行业由一家独大演变成多方参与竞争的格局。
技术驱动,场景应用 并 借助数据形成正反馈,三者成为智能语音行业的主要壁垒。
技术算法壁
垒:随着智能语音技术的发展,语音识别技术日益成熟,开源语音识别工具降低了语音识别的门槛,
但使用过程的稳定性仍有待解决。
语音识别技术进入突破量变到质变的临界点,相关技术和配套设
施的研发能够为企业筑起护城河,百度、搜狗、科大讯飞等公司安静状态下语音识别准确率大都达
到 97%,目前均在向更高准确率以及非标准环境下的应用发展。
应用场景壁垒:2B应用涉及金
融、电信、医疗、交通等行业,这些行业对系统的稳定性要求非常高,非常重视实际应用案例情况,
会通过严格的招投标选择最具实力和经验的智能语音技术和服务供应商,一旦通过评测会保持稳定
合作,新企业进入壁垒较高;2C应用层面互联网巨大具有商业应用和信息入口优势。
数据积
累壁垒:智能语音在各场景应用用户体验和客户粘度提升的关键是积累真实环境下的各种语音资料
和文本资料进行迭代优化,智能语音应用后形成数据闭环将不断提升壁垒优势。
目前智能语音产业的参与者可以分为三大类型:从科研实验室走出来的独立语音技术研发和服
务提供商,如源于斯坦福研究院STAR实验室的Nuance、与中国科学技术大学合作的科大讯飞,
围绕智能语音技术研发到应用各环节的初创企业。
如思必驰、云知声、出门问问、声智科技、
三角兽、蓦然等创业公司,希望抢占下一代人机交互入口的科技巨头,如苹果、谷歌、微软、
亚马逊、百度、腾讯、搜狗等。
2010年开始,互联网巨头纷纷通过自主研发或者并购/参股的方式深入布局智能语音产业参股的方式深入布局智能语音产业 。在智能
语音上的布局重点围绕虚拟助手,并且为占据一定的市场先机,纷纷开始布局智能车载、智能家具、