就在明天 大咖云集 思想碰撞
1
次对人工智能全领域的深度解读
探索独角兽秘籍
距大会开幕仅1天
4月13日
北京四季酒店
报名请戳上图
二维码
语音是人类最自然、最重要的信息交互方式,得益于深度学习和人工神经网络的发展,语音识别近年来取得了一系列突破性进展,并逐渐成为各智能设备的标配技术。
据Research and Markets公开数据现实,预计到2020年,全球语音市场规模预计将达到191.7亿美元。为了争夺人机交互的下一个入口,互联网巨头开启了在智能语音市场疯狂的“军备竞赛”。
◆
◆
◆
投资人“唱衰”语音识别,行业巨头加紧市场布局
面对各大公司在语音交互市场的明争暗斗,一向看好AI创业的李开复却泼来一盆冷水,他表示,语音识别是所有技术里面最不成熟的,99%的项目会死掉。
“语音的识别和理解完全是两个事情,我听懂讲的每个字不代表听懂了意思,所以自然语言理解到平台化使用还有十万八千里。”
无独有偶,新入局的互联网巨头Facebook也及时调整了其AI研究的战略方向。由于Messenger聊天机器人的错误率高达70%,在有人力干预的情况下,能够正确处理人类请求的概率不到30%,Facebook决定消减对机器学习和
人工智能
技术的投资,转向于训练Messenger聊天机器人专注处理一些特定的任务。
然而,行业其他巨头在语音、语义技术等领域的研发和创业势头依然强劲——苹果、亚马逊、谷歌、微软、三星、科大讯飞、百度和华为等巨头纷纷通过并购与自研推出自己的语音产品,加大市场布局。
2010年,乔布斯2亿美金收购自然语音应用软件Siri,随后又收购了英国语音技术公司VocalIQ来改进Siri,尽管Siri看起来更像iPhone可有可无的鸡肋存在,但苹果依然可凭借十亿级的设备数量以及HomeKit平台来争夺智能家居入口。
亚马逊方面,搭载人工智能语音助理Alexa的智能音箱Echo仅去年就卖出了超过650万台;随后,谷歌推出了家用智能硬件Google Home,作为智能家居的中枢控制音箱,用户可与之进行双向对话来调节灯光、恒温器等;
微软智能助理Cortana(小娜)后来居上,为提高语音识别精度,微软采用了神经网络来存储海量的数据,帮助识别软件更“聪明”地识别出人类语音表达的模式。
同样,三星于去年斥2.15亿美元的巨资收购了加州一家虚拟助手初创公司Viv,Viv团队就是苹果Siri的创始团队。据称,在处理复杂要求的能力上Viv比Siri更为强大,且具备更强的机器学习能力。
再看国内,科大讯飞旗下的讯飞开发平台是全球最具规模的智能交互技术服务平台,目前已为超过6万个App、以及8.9亿终端用户提供智能语音交互服务,占有中文语音技术市场70%以上市场份额。
百度是国内最早布局人工智能的互联网企业,不久前完成了对渡鸦科技的全资收购,并同时将原度秘团队升级为度秘事业部,加速人工智能战略布局。
此外,华为也在深圳组建了100名工程师团队,用于开发语音助手服务。尽管项目还处于早期研发阶段,但目标却瞄准了苹果Siri、亚马逊Alexa和Google Assistant。
◆
◆
◆
市场日趋明朗化,但技术还不够强大
种种迹象表明,智能语音交互市场的趋势逐渐明朗化。相比5年前,今天的语音识别技术准确率已经提高了20%以上,但基于用户特定场景需求的逻辑理解能力以及成熟可靠的商业模式,依然距离遥远。
首先是噪音等干扰下的识别率问题。
目前业内普遍宣称的97%识别准确率,更多的是在安静的室内并近距离靠近麦克风的场合。但在噪音或者远场识别环境下,错误率是近场识别错误率的近两倍。
其次是更好的识别算法。
例如其快速自适应的方法(unsupervised adaptation),比如面对口音、方言,机器或许一开始听不懂,但几句之后就能听懂了。这种方法在很多情况下能够提升语音识别率。
第三,人机对话缺少语境。
正如亚马逊Alexa负责人Toni Reid所说,“目前用户最大的期待,同时也是人机对话中存在的最大问题:语境。比如,我和你面对面交谈,很多视觉线索会告诉我你是否真的听懂了我在说什么,或者是否赞同我的观点。但是在人机对话场景下,这种视觉线索是缺失的”。从AI角度来说,补齐缺失的语境,是解决人机交互体验的当务之急。
此外,现有的语音识别技术还缺乏逻辑推理与表达因果关系的能力。
即使是行业巨头的人工智能语音助理,基本定位也只是在信息检索、资讯收集等非常初级简单的工作,例如它们能够回答今天天气怎么样,但面对稍微复杂的问题,附近的麦当劳是否可以用微信支付等就无能为力了。
显然,无法根据逻辑进行多层次推演,就无法承担起更深层的服务。这也是我们看到即使是巨头研发的聊天机器人,都只能做到几轮对话的原因。
创业不是科研项目,从科研出发到核心技术,进而形成产品,关键的地方在于“致用”。
为此,猎云网将4月13日于北京四季酒店召开“解码人工智能·2017人工智能产业创业创新峰会”,正是希望通过人工智能领域著名学者、顶级专家和业界精英代表的参与,共同探讨当今AI的发展创新与变革,将产业与人们的实际应用相结合,为人工智能的普及奠定可行性的基础。
◆
◆
◆
创业公司缺数据难拼巨头,切入垂直场景寻找方向
AI的基础是海量数据的支持,但这些资源通常都掌握在巨头手中。对于创业者来说,一旦科技巨头都开足马力,无论从用户、流量还是资本实力来比拼,都不在一个段位,贸然进入赛道,结果可想而知。
“现阶段,有能力做出以技术为平台的创业公司恐怕机会不多”,思必驰CMO龙梦竹告诉猎云网,“因为底层技术、语音大数据对于数据、文本的要求是很高的。但是,越细分越垂直机会越多。去年就诞生了大概二、三十家单独做文本、语义方向的团队。我认为瞄准一个方向,深挖一样有机会”。
三角兽科技就是一家基于语义打造人工智能交互系统的初创公司,COO马宇驰表示,团队目前专注于语义技术、开放域聊天和任务驱动的多轮对话技术。
马宇驰介绍,鉴于核心团队在度秘和小冰两个产品上的技术经验,三角兽积累了很多产品落地经验,且区别于百度和微软,团队在上下文、长时记忆、性格定制、情绪识别等方向有更多探索。
然而,无论是初创公司还是大公司,都面临着同样的问题——没有足够多且适合人工智能介入的场景。
据思必驰CMO龙梦竹介绍,“思必驰以前是做教育方向、口语评测的,2014年后,物联网的风潮刚刚起来,当时团队在教育方面的盈利很不错。但国内讯飞在智能语音和教育市场一家独大,创业公司无论从人力、资源还是业务的专注力上都难以企及,因此开始收缩业务,集中在垂直场景下”。目前,思必驰只专注于智能硬件场景的语音交互,如车载、家居和机器人等。
成立于2015年的海知智能是一家提供语义API开放技术服务的创业公司,团队将目标锁定在开放平台上,做语义垂直的一些细分领域。“不管是做实体机器人还是虚拟机器人,都必须选择从特定场景、特定用户、特定领域来做有限的服务”,CEO谢殿侠告诉猎云网,“巨头公司在数据库上的确有着巨大优势,所以我们目前只有在提供开放的平台下做垂直的细分领域,人工智能才能更好地不断学习,并且解决用户的实际痛点”。
对于语音交互场景的市场潜力,三角兽科技COO马宇驰认为将会在两个大的领域出现,“一个是在获取信息和服务方面,人工智能能提升效率,节省时间成本;另外就是从家居、车载方向切入,它能真正抵达用户,对用户进行教育”。
◆
◆