专栏名称: 科创板日报
《科创板日报》是新型主流媒体平台,专注新兴产业与资本,是科创板、新兴产业及资本的重要舆论前沿,深度覆盖新一代信息技术、半导体、生物医药、新能源、新材料、基金等,提供媒体、数据、资源、投行等产品体系。
目录
相关文章推荐
中国基金报  ·  海通证券,告别A股! ·  17 小时前  
银行螺丝钉  ·  每日钉一下(A股的股票资产,波动风险有多大?) ·  19 小时前  
中国基金报  ·  王宝强回应:已经踩好点了,但不能说 ·  4 天前  
中国基金报  ·  突发!刚刚宣布:华为+DeepSeek来了! ·  4 天前  
51好读  ›  专栏  ›  科创板日报

通往AI下一个“iPhone时刻”的门票找到了?

科创板日报  · 公众号  ·  · 2024-05-14 19:35

正文

OpenAI发布GPT-4o,苹果、Meta探索带摄像头耳机,Siri也有望引入ChatGPT,这些主要交互形式都离不开语音互动。在OpenAI的Sam Alteman看来,语音交互是通向未来交互的重要途径,“多模态交互能力非常强大。”

作者 | 郑远方

音频输入反应时间短至232毫秒、能感知人类情绪、能和用户像真人一样聊天——昨夜OpenAI一场发布会,最新多模态大模型GPT-4o的出色表现引发外界瞩目。各家科技巨头们也没有放慢追逐的脚步,AI人机交互,尤其是语音交互,或许将成为新一轮竞争焦点

据The Information援引知情人士消息称,Meta已建立一个名为“Camerabuds”(摄像头耳机)的项目,探索制造由AI驱动的带摄像头耳机,希望其能识别物体、翻译外语。

此前,Meta已发布了新一代雷朋智能眼镜,内置多模态AI功能。用户戴上眼镜后,说一声“嘿,Meta”,就能召唤出一个虚拟助手,后者能看到并听到周围发生的一切,能描述物品,能翻译,还会搭配衣服。

与此同时,苹果也在进行类似的探索。

苹果即将与 OpenAI 达成协议,或将在iOS 18中引入由ChatGPT提供支持的“聊天机器人”,有望对苹果的个人语音助理Siri带来颠覆性影响。之前公司已被曝正在探索开发带摄像头的AirPods,AI可以使用摄像头拍摄的画面,并通过多模态语音、图像人工智能系统,帮助用户跟踪自己的日常活动,协助人们的日常工作,优化日常作息。

不论是GPT-4o、带摄像头耳机,还是计划ChatGPT的“升级版Siri”,其主要交互形式都离不开语音互动。

而在语音交互这场赛跑中,OpenAI已暂时凭借着GPT-4o领先,这也是OpenAI迈向更自然人机交互的更近一步。华福证券今日报告指出,GPT-4o奠定了AI语音助手基础:低延迟、情绪感知、视觉感知。其中,情绪感知是对语音一维输出模态的丰富,视觉感知能力则可以适配AI手机、AI电脑和AI智能硬件。

在几天前的一场访谈中,Sam Altman曾被问及,iPhone之后会出现什么样的(革命性)设备。“我认为你必须找到一些真正不同的交互范式,才能实现这种设备技术。”Altman说道,“我们会进一步提升(语音功能)。”

在他看来,语音交互是通向未来交互的重要途径,“多模态交互能力非常强大。比如你可以向ChatGPT提问,‘嘿ChatGPT,我正在看什么’或是‘这是什么植物’。”

站在科技的时光隧道回望,从最初不会说话的AlphaGo,到之后“竖耳倾听、张口说话”的苹果Siri与ChatGPT语音版,再到如今的GPT-4o,AI的人机交互正越来越接近人类之间的交流。

对于普罗大众而言,科技巨头们所宣传的庞大训练数据规模、算力需求、参数堆叠,都是难以直观感受到的要素。更低的价格、降低的应用门槛、更自然的交流模式,才是维系着用户最真实的感受与体验的“秘诀”,未来或许也将成为AI之战的决胜因素。


推荐阅读









请到「今天看啥」查看全文