要做中国的智能语音设备“背后的男人”
文 | Yuri
当年很火的聊天Siri现在已经很少有人用了,如今AI语音助手更多的用在办业务上,如订票、导航、打车等,这就需要背后的语义引擎能够更好地理解人的语言。前段时间Siri创始团队展示了他们新开发的语音助手Viv,可以理解复杂的语句并执行任务,Amazon的智能音箱Echo背后也是有Alexa引擎的支持。在百度研究9年自然语言处理的戴帅湘和他的蓦然认知,推出了人机对话引擎Mor,想做的也是让机器更好理解人的语言,帮人办理各种业务。
蓦然认知的人机对话Mor引擎功能类似于Viv,主要帮用户执行打车、订票、订外卖等一些具体任务。由于这些任务通常都很少一句话完成,Mor可以实现口语理解,场景下的上下文理解和多轮对话,不断修改需求,直至订单完成。虽然与Viv一样在后端对接地图、打车等各种服务,但Mor与Viv不同的是,Mor不直接面向C端,而是作为语音交互和决策引擎,将前端SDK提供给机器人、智能设备厂商,由他们定制用户界面并集成到各种智能产品中。
技术上,创始人戴湘帅告诉36氪,蓦然认知通过自己独创的元语义表示,构建认知网络中的节点,每个节点都能具有语义解读和认知能力,由此Mor的认知计算模型可以快速适应新的场景,在小时级或者天级来完成新场景的识别和理解。例如,现在来了一个新的服务场景是上门按摩,那么这个场景中涉及到的时间,地点,路线,价格,折扣等常识会直接复用已有常识,其中按摩特有的按摩类型等概念,则会快速抓取网上相关按摩品类。
场景识别完成后,Mor引擎可以快速对接服务商的接口。“只要是网络上出现新的服务接口,我们的系统可以通过扫描接口,自动生成特定的处理程序,来实现和应用接口的对接。这个也是我们引擎能够快速迁移到新场景下使用的一个必要条件。”以上面的按摩场景为例,抓取完网上按摩品类后,Mor自动针对当前上门按摩服务提供商(如功夫熊这类)进行对接。
基于Mor引擎的一个典型对话是:
问:帮我查查清华大学附近人气最高的日料店
Mor:【推荐人气最高的日料店,并提供更多家供选择】
问:评价最好的是哪家?
Mor:【推荐评价最好的店,并提供更多供选择】
问:服务最好的呢?
Mor:【推荐服务最好的店,并提供更多供选择】
问:坐公交去第二家怎么走?
Mor:【给出从当前位置到服务最好的店的路线】
问:开车到那里要多久?
Mor:【给出到服务最好店驾车时间】
问:叫一辆半个小时以后到那里的快车
Mor:【给出约车结果】
问:打电话给这家餐厅
Mor:【让用户确认是否拨打这个餐厅电话,确认后即播出】
Mor引擎的语音识别和语音合成部分接入的是其它引擎,蓦然认知主要研发的是其中语义处理部分。实际试用时,语音识别不准确的情况还是不少的,尤其是数字和文字混合的情况,这样也影响了后面的语义处理。针对这个问题,蓦然认知在着手训练自己的语音识别模型,提高常用场景语言的识别率。具体使用口语对话时,,Mor也还做不到所有口语都能准确识别。
Mor还将通过与用户的交流,不断自学习,提高识别力的同时,加强个性化功能,识别用户的偏好,进行个性化推荐,让引擎更“懂你”。Mor不是通过用户数据来训练,而是从世界上的常识数据中抽象知识库,来提高引擎的识别力。大量的用户数据则可以帮助优化模型参数和构建个性化。
目前的Mor引擎刚研发完成,他们希望一方面深度对接更多的服务商,一方面快速覆盖车载,家居,机器人及各种智能硬件的场景,重点拓展车载、家居这两个语言交互更频繁的场景。但这些市场已经有不少玩家,例如车载后装市场已经有思必驰、云之声、科大讯飞等占据了不小的份额,Mor要切入市场并不是那么容易,他们也会考虑差异化竞争,例如在车载市场更偏向前装。
蓦然认知创始人戴帅湘9年前进入百度,曾担任百度自然语言处理主任架构师,负责搜索上的Query理解,即让机器理解自然语言,他创建的”改写模型“目前仍应用于百度所有搜索产品线。16年他创立了蓦然认知,并成为氪空间第七期孵化团队。团队目前11人,此前曾获得经纬的天使轮投资。
推荐阅读
点击下方图片即可阅读
周末漫谈 | 奥运圣火即将熄灭,这九部电影带你重温体育的魅力