专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
51好读  ›  专栏  ›  InfoQ

四大AI虚拟助手哪家强?Siri、Alexa、谷歌助理和Cortana实测

InfoQ  · 公众号  · 科技媒体  · 2017-02-17 08:00

正文

作者|TalkingData
编辑|朱昊冰
人工智能的技术概念已经有了爆发的迹象,属于AI的时代也许即将来临。作为屡屡被用户调戏的AI虚拟语音助手,这四家到底谁更强呢?我们一起看下实战评测!
写在前面

2016年是主流科技公司迎接虚拟语音助理的发展元年,而近期在欧美持续走红的亚马逊Echo更是凸显了该趋势。涉及人工智能的主流科技公司普遍认为人工智能将成为人机互动的砥柱,同时也开始通过智能虚拟助理为切入点,布局他们的人工智能市场,如:苹果的Siri,亚马逊的Alexa,微软的Cortana以及谷歌的谷歌助理。

虽然智能虚拟助理技术已经历了较长时间的发展,但这些科技巨头都认为智能虚拟助理尚处发展期,未来智能助理发展的道路仍任重而道远。尽管如此,智能虚拟助理已开始逐步渗透入人们的生活之中。

为了更加有效的验证各家公司智能虚拟助理的性能,本文对四款智能虚拟助理分别进行了测试。由于缺乏标准化、体系化的方法用于评测智能虚拟助理的综合能力;因此,实验中选取了尽可能多的基本话题,以达到最佳的测试效果,包括:

  • 出行

  • 电子邮件

  • 信息

  • 体育运动

  • 翻译

  • 系统功能

  • 基本知识

  • 音乐

  • 天气

  • 日程

  • 生活服务

基于这十一项测试条目,对四类智能虚拟助理分别提出常见的问题和指令进行测试。值得一提的是,本次测试所使用的设备:

  • Siri,测试设备为iPhoneSE

  • 谷歌的助理,测试设备为Goodgle Pixel XL

  • Cortana,测试设备为ThinkPad X1 Yoga

  • Alexa,测试设备为Amazon Echo Dot

Note: 尽管亚马逊目前已面向Kindle Fire平板推出Alexa,但在进行本测试前,Alexa尚未在Kindle Fire上发布。

为了更佳有效的评估各类虚拟助理的功能性,TalkingData从:情景交互能力、知识库完整度、AI智能功能完整度以及第三方应用功能整合能力四方面对四类智能虚拟助理进行评估。

测试1:出行场景 表1 出行场景测试结果

1、出行路径规划: 从路径规划角度来看,谷歌助理的智能化能力最强。首先,从情景交互层面,谷歌助理与Alexa能够实现出行路径规划的全语音交互,语音交互具备实现上下文关联的识别能力;Siri和Cortana在该情景的交互上,无法实现上下文的关联,深度交互依赖于手动触碰选择。在功能的智能化方面,谷歌助理依托于谷歌地图的强路径规划能力,能够主动规划路径,并提供不同交通方式的路径与耗时;Siri与Cortana在语音匹配地址时通过模糊匹配,需用户二次确认才能进行后续的路径规划;Alexa虽然能够依托YelpData计算与目的地的距离及行车耗时,但不具备路径规划的能力。

2、航班预订: 谷歌助理在航班预订的功能上也最为完善。首先,在情景交互层面:谷歌助理与Alexa在语音交互均未实现上下文关联的深度交互,需要配合触碰操作完成交互。其次,在功能的智能化方面,谷歌助理通过整合Google Flights支撑用户查阅、预定机票的功能(主要依赖触碰交互);Alexa 虽然整合了Kayak的航班查阅功能,但预定功能尚未开放。Siri与Cortana未能语音识别航班预定的需求,其航旅出行的知识库仍有待完善。

3、出租车预订: Siri、Cortana、Alexa均能通过交互较好的实现出租车预订功能。首先在情景交互层面,Siri、Cortana、Alexa均能与用户实现在目的地确认、车型选择、车辆预订的深层交互。其次,在功能方面,除了能够满足选型与预定功能,Siri、Cortana、Alexa通过整合的地图功能,帮助用户实现路径规划以及乘车成本的估算。由于谷歌助理未整合第三方出租车应用,尚不具备这方面的交互能力;在语义识别能力方面,也无法识别打车语义。

总结: 谷歌助理在已实现的出行场景功能方面表现的最好,主要体现在语音深度交互的体验以及基本功能的完善度;然而谷歌助理功能覆盖度尚不完善,主要表现在第三方的应用整合上。Siri在已实现的功能上,整体表现较好,但在语义深度分析上,稍弱于谷歌助理;Alexa在出行领域的功能覆盖面最全面,也尽可能的进行了第三方应用的整合,但显然第三方应用的功能整合并不完全;Cortana出行功能的完善度与Siri基本一致,但在路径规划的精准语义分析方面稍弱于Siri。

测试2:邮件场景 表2 邮件场景测试结果

1、邮件发送: 谷歌助理与Siri在邮件发送的交互与功能最为完善。在情景交互层面,谷歌助理与Siri均能实现邮件发送场景下通过语音交互,实现上下文的的关联,并且对姓名有很高的语义识别度,只是谷歌助理的交互界面相比Siri更加丰富一些;相比之下,Cortana虽然能够实现深度语音交互,但其对语音姓名的识别度较差,错误率高。在功能方面,谷歌助理、Siri、Cortana都较为完善,均能够实现邮件新建、编辑与发送。最后,从应用的整合角度来看,Cortana表现的最佳,能够关联任何windows自定义的邮件;相比之下,谷歌助理与Siri分别只支持各自的邮箱Gmail和Apple Mail。

2、未读邮件查阅: Siri是唯一能够正确语音识别新邮件查阅并进行交互的智能虚拟助理。在情感交互层面,Siri能够理解语义,调用邮箱未读邮件与用户交互;在功能层面,Siri能够较好的整合Apple mail的功能,主动调出未读邮件箱。谷歌助理虽然能够看出在邮件查阅功能上确实有所应用,但在交互能力以及智能化的功能实现(理解语义并调用未读邮件箱)以及应用的整合方面(Gmail)都未完善。Cortana面对知识库无对应解决方案时,会调用Bing搜索解决问题。

3、查阅最近邮件: 同样,只有Siri能够正确的完成最近邮件的查阅。在情感交互层面,Siri能够理解语义,并正确调用最近未读邮件进行交互;在功能层面,Siri同样能够按照时间序列/排序很好的筛选出最近未读的邮件,展现并实现查阅邮件的跳转(至Apple Mail)。谷歌助理和Cortana存在的问题同上。

总结: Siri在邮件场景的情景交互以及功能最为完善,主要原因可能在于苹果作为手机厂商的许多默认内置应用的优势,尤其在应用功能整合的成本要比其他助理小得多。同样,谷歌助理在已实现的功能上(邮件发送)表现最为优秀,但其功能完整度问题仍然较大,而且值得注意的是,谷歌助理与Gmail在打通整合方面存在一定问题。Cortana很直观的表现出其知识库以及智能化能力不足的问题,将无法识别的问题直接调用Bing搜索。

测试3:信息场景 表3 信息场景测试结果

1、信息发送: 谷歌助理与Siri在信息发送的交互与功能最为完善。在情景交互层面,谷歌助理与Siri均能实现上下文的语义关联,通过语音全流程实现交互(甚至包括内容输入),并且对姓名有很高的语义识别度;相比之下,Cortana虽然能够实现语音交互,但在信息输入无法通过语音交互,且在语音的姓名识别度较差,错误率高。在功能方面,谷歌助理、Siri、Cortana都较为完善,均能够实现邮件新建、编辑与发送。

2、未读信息查阅: 仅有Siri能够识别并很好的完成本项功能。在情景交互层面,Siri几乎支撑全流程的语音深度交互(查阅、咨询是否回复、信息回复)并配合可视化展现正确的短信功能;在功能上,Siri也做得十分完善,能够智能的筛选未读短信、语音支持短信文本编辑,信息回复等。

3、阅读推特信息: Alexa在推特信息阅读的功能最为完善。在情景交互层面,Alexa能够实现全流程的语音深度交互,语音交互具备上下文关联能力,且很好的识别、播放每一类需求;Siri虽然回应其无法查阅推文,但其在某些语境下(如推特热点),仍能调用正确推特的功能。在功能上,Alexa除了能够正常的调用推文的阅读需求,还在语义分析上做了多维度细分,如最近Like的推文、最近被提及的推文、最近发送的推文等等。

总结: 在信息功能方面,Siri的表现最为优秀,不仅在于功能覆盖的广度,还在于其语音全流程深度交互,这也得益于手机设备内置的短息功能的整合与打通;谷歌助理与先前一致,在能够实现的短息功能方面表现的很好,但功能覆盖度仍有所欠缺;Cortana在语音交互上稍微逊色,同时,在语音识别的问题上,存在较大的错误率。Alexa虽然不具备短息功能,但在第三方推特功能的整合和实现上十分优秀,还进行了深度的语义区分,满足各类需求。

测试4:系统基本功能 表4 系统基本功能测试结果

测试的基本功能包括:应用(App)的开启、系统设备、闹钟设置、备忘录建立与修改、锁屏等设备自带的系统功能。

经过测试,Siri与Alexa在各自系统功能的交互与功能调用最强。首先,在情景交互层面,四类智能虚拟助理在能够识别和支撑的语义的条件下,基本都能正常打开系统应用能够,但Alexa在部分系统功能的调用上,设置了深度交互的功能(如设置系统时间时,Alexa会咨询具体情况,而非直接调用时间设置功能)。在功能的智能实现上,Siri与Alexa能够覆盖的功能最为广泛;谷歌助理和Cortana有许多系统功能无法调用,尤其是谷歌助理,甚至连Google下的chrome都无法调用。

测试5:翻译场景 表5 翻译功能测试结果

经过测试,仅有谷歌助理与Cortana具备跨语种翻译的功能。在情景交互层面,谷歌助理和Cortana均能实现翻译的需求,并通过语音回复翻译需求。从功能智能度的层面来看,谷歌助理无论是对语义的理解还是语法的理解都远强于Cortana,虽然并未直接调用谷歌翻译,但鉴于谷歌助理较强的翻译功能,可以推断谷歌助理在翻译功能上整合了谷歌翻译的功能。

测试6:基本知识场景 表6 基础知识场景测试结果

1、基本知识: 面对基本知识语音问题处理最佳的是Alexa。首先在情景交互层面,四类智能虚拟助理在能够理解的范围内,都能实现正常的交互以及应答。但在功能的智能度方面,Alexa所覆盖的知识库最为全面,并且能够准确的回答问题;谷歌助理,Siri,Cortana的知识库都有各自的局限,其中谷歌助理的功能能够识别的基本知识问题最为局限;面对无法解答的基本知识时,都会调用其相应的搜索引擎。

2、新闻: 新闻方面的交互和功能实现谷歌助理处理的最好。在情景交互方面,谷歌助理、Cortana和Alexa均能很好的识别用户的新闻需求问题,并将正确的查询结果返回。在智能化方面,各智能虚拟助理均能实现语义的精准匹配新闻内容(依赖搜索引擎);但从第三方整合来看,谷歌助理支持的新闻搜索范围最广。

总结: 在基础知识问题的解决方面,Alexa对应的知识库最为广泛,能够识别不同领域的基础知识问题,并精准搜索给出答案;同时也体现了Amazon在基础知识库搭建上下了较重的功夫;而谷歌助理、Siri、Cortana在基础知识的语义理解上时常存在一定偏差,给出的结果未必准确。在新闻话题方面,谷歌助理仍是保持其精品化的特征,相比其他智能虚拟助理,谷歌助理在新闻话题整合了大量的第三方新闻媒体作为信息源,很好的提升了用户体验。

测试7:体育场景 图7 体育场景测试结果

1、查询当前赛况(比分): 谷歌助理、Siri和Alexa都能很好的完成该项任务。在情景交互层面,能够正常识别语音并返回结果。在功能的智能化层面,能够精准定位棒球比赛,并对棒球各类比赛进行细分,寻找当前赛事的实时比分。

2、查询比赛赛程与球队现状: 四类助理在比赛赛程的查询上均表现很好,但都不具备该话题深度交互的能力,最糟的是,除了谷歌助理,其他助理均无法识别“scorer”的语义,词库完善度还有待提升。







请到「今天看啥」查看全文