亚马逊完成了对Alexa语音助手的AI化改造,推出了基于生成式人工智能的Alexa+(Alexa Plus),旨在成为迄今为止最智能、对话能力最强、个性化程度最高的AI助手。Alexa+接入了Nova模型、Anthropic的Claude模型,具有推理和精准表达能力,并且可以在不同设备上无缝切换对话。此外,它还能了解用户家庭成员的偏好习惯,连接智能家居设备和日常服务,并执行复杂任务。然而,使用大语言模型驱动的Alexa+控制智能家居的安全性问题和AI幻觉风险仍需关注。
亚马逊完成了对Alexa的AI化改造,推出了新的语音助手Alexa+,这是Alexa上线以来的最大变革。
Alexa+接入了Nova模型和Claude模型,具有推理和精准表达能力,能进行自然流畅的对话,并能在不同设备上无缝切换对话。此外,它还能记住对话上下文,了解用户家庭成员的偏好习惯,连接智能家居设备和日常服务,执行复杂任务。
虽然智能语音助手市场曾出现过热潮,但大多数用户只使用它们执行简单任务。智能语音助手的表现未达预期,原因在于缺乏多模态大模型的支持。
生成式人工智能的出现给了智能语音助手重建的机会。以ChatGPT和GPT-4.5等为例,生成式人工智能能够快速响应来自实时对话的文本、音频和视频输入。智能语音助手承载端侧AI的最佳场景之一,借助语音这个介质将AI大模型的能力提供给用户。
由大语言模型驱动的Alexa+掌控智能家居的安全性需关注。目前AI幻觉问题仍存,尤其是在处理开放性问题时可能出现虚构事实的情况。
在跳票一年多之后,亚马逊终于完成了对Alexa语音助手的AI化改造。日前亚马逊在纽约举行的2025 AI Alexa活动中宣布,将推出重新设计的Alexa。而作为Alexa上线11年以来最大的变革,这款基于生成式人工智能的语音助手有了一个新的名字——Alexa+(Alexa Plus)。
亚马逊方面宣称,Alexa+是其“迄今为止最智能、对话能力最强、个性化程度最高的AI助手”,旨在“利用最先进的架构,将大语言模型(LLM)、智能体(agentic)功能、第三方服务等连接到用户的设备”。事实上,Alexa+最大的变化,莫过于接入了自家的Nova模型、Anthropic的Claude模型,能够进行推理和精准表达,并且可以从上下文中进行学习。
在官方DEMO中,亚马逊展示了Alexa+与用户进行自然、流畅的对话,能在Echo设备、应用程序和Web浏览器连续体验,并强调其拥有超强的记忆力,可记住对话的上下文,甚至在不同设备间切换也不会影响到对话的效果。而随着使用次数的增加,Alexa+可以了解到用户家中不同成员的饮食偏好、习惯等,从而提供更加个性化的回答。
为进一步发挥在智能家居领域的深厚底蕴,亚马逊还为Alexa+构建了全新的架构、以大规模协调API,该架构使得用户能够迅速无缝连接诸如GrubHub、OpenTable、Ticketmaster等
日常服务
,以及与Philips Hue等智能家居设备。比如,Alexa+可以与Ring的安防摄像头联动,当用户询问“Alexa,我家周围今天发生了些什么事”时,Alexa+就会截取摄像头拍到的关键信息进行回答。
值得一提的是,在去年春季被砍掉的“Alexa技能”也在Alexa+上复活了,通过集成API,Alexa+能够链接到亚马逊合作伙伴的网站,来完成从制定约会计划到购买礼品、安排旅行等复杂任务。有了生成式人工智能的加持,Alexa算得上是重获新生了。
早在2014年,亚马逊方面在发布Alexa时就曾对其寄予厚望,当时贝索斯曾表示,“从科幻小说的早期开始,人们就梦想着能够拥有一台可以自然对话的计算机,实际上可以和它交流并让它为你做事。如今,这个梦想终于实现了”。
然而根据市场调查机构Forrester Research的统计,大多数用户只会使用他们的语音助手来执行“非常简单的任务”,比如查询天气或播放音乐。
用亚马逊前员工的话来说,就是“虽然雇了一万多人,结果我们做的还是一个智能闹钟”。事实上,Alexa未能达到预期并非个例,几乎所有的智能语音助手都出现了高开低走的情况。
五六年前,手机行业曾出现过一轮智能语音助手热潮,诸如小爱同学、Jovi、小布、小艺这类产品都曾经成为手机厂商新品发布会上的主角。然而在生成式人工智能出世前,智能语音助手早已被硬件厂商边缘化,甚至就连苹果都很久没有在发布会上谈及Siri了。
Android Authority在2019年针对海外用户进行过一项名为“你在智能手机上使用语音助手的频率是怎样的”问卷调查,其中有一半(50.2%)的人表示不会在手机上使用语音助手,只有20%的受访者一天会使用1次以上。尽管这一问卷是针对智能手机用户,但是在使用频率更高的手机上语音助手都在失宠,更遑论在其他硬件上了。
其实智能语音助手表现不及预期的原因很简单,因为当时它们还缺乏多模态大模型的支持,只能简单、机械地从预设的数据库里提取、并匹配信息。
智能语音助手没有体现出智能,这就是问题所在,而生成式人工智能的出现则给了业界重建智能语音助手的机会。从最初的ChatGPT到现在的GPT-4.5、DeepSeek v3、Gork 3,生成式人工智能已经能够快速响应来自实时对话的文本、音频和视频输入,同时用有强烈情感和个性语调、措辞进行的对话。