专栏名称: AI前线
微信号:AI前线,ID:ai-front 运营
目录
相关文章推荐
爱可可-爱生活  ·  【[167星]Fleur:发现和安装MCPs ... ·  10 小时前  
黄建同学  ·  关注//@稚晖君:明天还有惊喜,上大号发-2 ... ·  11 小时前  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与!//@爱可可 ... ·  16 小时前  
爱可可-爱生活  ·  本文提出了一个名为 START ... ·  18 小时前  
爱可可-爱生活  ·  基于过程的大语言模型自我奖励机制 ... ·  3 天前  
51好读  ›  专栏  ›  AI前线

阿里AI收银员上岗,49秒接单30多杯咖啡,人类又输了?

AI前线  · 掘金  · AI  · 2018-05-24 03:26

正文

阿里AI收银员上岗,49秒接单30多杯咖啡,人类又输了?

撰文 | Vincent
编辑 | Vincent
AI 前线导读: 人类又输了?5 月 23 日举行的阿里云栖大会武汉峰会上,来自阿里巴巴的 AI 再次展现出了它的才能,仅用了 49 秒就搞定了 30 多杯咖啡的订单。自从那个几乎以假乱真的 Duplex 在月初的 Google I/O 大会上亮相后,全球 AI 企业,尤其是技术大厂们都开始炫起了自家语音领域的“肌肉”。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)


AI 接单快而准,人类又输了?

v.qq.com/x/page/s066…

“五个巧克力、两个香草拿铁,巧克力加奶油。” “两个中杯焦糖拿铁,一个热的一个冷的。” ”算了巧克力不要了。” “再要六个小杯少冰摩卡,三杯加焦糖三杯加香草” “再加一个大的冷的拿铁,去冰半糖加脱脂奶,打包。”

这是发生在 5 月 23 日云栖大会武汉峰会上的一幕。阿里巴巴机器智能技术实验室语音交互首席科学家鄢志杰以最快每秒 5 个字的语速向一台机器点单。机器对每一次对话都作出了精准响应,而站在一旁的资深咖啡师选择了中途放弃,“太快了,记不下来”。

人类咖啡师在听了鄢志杰第二次复述后完成了订单,用时 2 分 37 秒,而 机器只用了 49 秒

AI 收银员上岗了,人类又输了吗?又要有一项工作要被 AI 替代了吗?

如果你问出这个问题,那么很多 AI 研究领域的专家会回答你:不,AI 是一种工具,它在很多场景里存在的目的是用来辅助。

点餐本身,对于很多咖啡师来说,是一项相对枯燥而重复的工作,他们更愿意将时间花在为顾客制作好的咖啡、制作咖啡的时候与顾客沟通了解需求和反馈,而不是将时间花在点餐这件事情上。而对于顾客来说,高峰期的排队问题也让一些顾客十分头疼,很多时间都浪费在咖啡点餐的排队等待上了。

市场上的点餐机,普遍都是触控方式的,不便于顾客快速寻找商品。特别是对于一些客人比较客制化的需求,点起来比较麻烦。

市场上常见的语音交互产品,目前普遍都是“唤醒词 + 语音指令”的形式,对于比较复杂的需求容易理解不了,并且无法真正像人与人交流那样自然交互。

鄢志杰说,这种交互方式完全打破了"语音唤醒 + 语音指令"传统命令式交互方式,我们首创的流式多意图口语理解引擎,极大地提升了对人类随意、自然的口语表达的理解力,能够做到免唤醒的自然的人机交流式的语音交互。

在上面的演示环节中,包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。

“炫技”的背后:多模态语音解读

语音点餐机是基于阿里巴巴达摩院机器智能技术实验室的 多模态人机语音交互方案 的一款典型产品。该方案一方面通过语音、计算机视觉、触控等多模态融合的技术,使得公众空间的人机交互成为可能,并将之落地于业务场景,推进商业化;另一方面,阿里首创的流式多意图口语理解引擎,极大地提升了对人类随意、自然的口语表达的理解力,实现人机交流式的语音交互。

流式多轮多意图口语理解算法架构图

流式多轮多意图口语理解技术涉及到多个子任务,包括:实体信息抽取(例如产品名),长句语义分割 (即将流式口语输入切分为语义完整的句子),意图识别,多元的关系抽取 (譬如产品及其属性之间的关系),实体链接,实体指代消解等。

多模态人机语音交互方案是一个端到端的模型,直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模,不再依赖子任务的模型和它们的级联,这样极大地减少了各个子任务之间的错误积累和传递。

在架构上,该方案将算法和业务分离,使用业务知识图谱有效地表达业务相关的知识,利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系,利用业务知识图谱表达业务逻辑,对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。 这样一方面整个系统只需要少量端到端的数据标注进行训练,大大减少了标注压力; 另一方面由于知识图谱的松耦合度,使得扩展到新的业务变得更为便捷。

据了解,阿里云这项解决方案除了可以做收银员之外,还能在地铁卖票。目前,上海地铁已经部署了这一技术。乘客直接说出目的地,售票机便可选择合适的站点和路线。这对于初到上海的乘客尤其帮助巨大,面对十几条线路三百多个站点谁都会懵。测试数据显示,普通买票耗时往往超过 30 秒,而语音购票全程只需要 10 秒左右。

细心的读者应该看到了,以上所有的应用场景,不是在人多而嘈杂的咖啡厅,就是背景噪音巨大的地铁站,噪声问题怎么解决?







请到「今天看啥」查看全文