专栏名称: 财联社
财联社系上海报业集团旗下界面(上海)网络科技有限公司产品,定位财经资讯报道,全面聚焦全球证券市场资讯,为投资者提供365天24小时不间断的“快速、准确、权威、专业”金融信息服务。
目录
相关文章推荐
开发者全社区  ·  北京的普普通通有钱人 ·  昨天  
开发者全社区  ·  色魔博士抓捕现场 ·  2 天前  
开发者全社区  ·  爆!张一鸣不考公的原因 ·  3 天前  
开发者全社区  ·  社死!deepseek受害者出现... ·  3 天前  
51好读  ›  专栏  ›  财联社

对话式AI即将爆发

财联社  · 公众号  ·  · 2025-03-10 07:10

正文

在生成式AI的浪潮下,行业普遍认为多模态大模型是实现AGI的必经之路,知名投资机构a16z最新关于Voice AI的报告也显示,随着大模型的不断进步,语音将成为一种关键的切入点,即对话式AI。

随着对话式人工智能技术的日益成熟,其应用场景也呈现出爆炸式增长。聊天机器人作为对话式AI的重要应用之一,被广泛用于客户服务、教育、医疗、娱乐等多个领域。

那么,对话式AI的爆发年会先出现在哪个领域和场景?

近日,在声网对话式AI引擎发布会上,阿里云智能集团通义千问高级产品架构师辛晓剑、Minimax解决方案高级总监冯雯、腾讯云AI产品架构师总监曹超,声网AIRTE产品线负责人姚光华参与了讨论。

多位与会嘉宾认为,对话式AI可能率先在桌面助手、手机助手、智能硬件、陪伴机器人等场景爆发。

腾讯云AI产品架构师总监曹超表示,对话式AI特有的优势在于能够有感情、有温度地传递声音和交互的方式,而且随着模型的升级,可以带来更多情感的传递。

“应用场景来看,对话式AI不适合视觉场景,所以现在更多的是语音和听觉交互场景。比如有些老人视力会有一些不便,用微信也都是长按说话,放到耳边贴得很近去听去看。这些人群同样需要一些工具解决自己的沟通和解决问题的诉求,对话式AI也给这些人群打开了新的机会和可能性。目前对话式AI的硬件视角很多也是基于手机。”

阿里云智能集团通义千问高级产品架构师辛晓剑补充道,“教育领域的学习机也是一个比较好的场景,目前全国的学习机出货量大概是每年6000万台,且由于大模型的加持,客单价有了非常明显的提升,此前学习机客单价为三四千块钱,现在网上品质稍好的学习机均价已经达到八千以上,这就是对话式AI加持带来的溢价空间。”

‌据了解,目前市场上的对话式AI产品主要包括‌亚马逊Alexa+、‌汤姆猫AI情感陪伴机器人、‌苹果Siri、‌Manus等。

近日,声网发布了全球首个对话式AI引擎,凭借650ms 超低延时响应、优雅打断、全模型适配等五大能力,对话式AI引擎可支持任意文本大模型快速升级为“能说会道”的对话式多模态大模型。

声网AI RTE产品线负责人姚光华表示,"经过一段时间与客户的打磨及实际使用场景调研,经统计,用户与AI 每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话次数15次,那么月成本不到5毛钱,年成本也只需5元。"

据介绍,通过声网对话式AI引擎,开发者可以快速部署智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等对话式AI场景。例如智能助手场景可以通过自然语言交互,帮助人们进行日程管理、信息查询和任务执行。

谈及大模型从文本走向多模态交互的关键方面,嘉宾们认为,多模态模型架构和训练范式变化不大,提升主要依赖数据质量和数量。实现多模态交互的关键在于将不同模态信息转化到同一语境,目前ASR(自动语音识别,是一种将人类语音转换为书面文本的技术)技术的发展有助于实现这一点。但要让交互体验更好,还需提升模型推理速度,解决如多角色长短期记忆、区分角色等工程化问题,同时也要应对不同模态交互中的复杂情况,如语音语义差异、视频处理等。







请到「今天看啥」查看全文