主要观点总结
本文介绍了OpenAI推出的GPT-4o高级语音和视频功能的测试情况,包括语音功能的无延迟、情感感知等特点,以及在教育、情感陪伴等领域的应用前景。文章还提到了相关团队的分析师介绍和风险提示。
关键观点总结
关键观点1: GPT-4o高级语音和视频功能开始测试
OpenAI开始测试GPT-4o的高级语音模式,预计今年秋天向所有ChatGPT Plus用户开放。测试将主要搜集安全、功能方面的反馈,并分享一份全面的GPT-4o评估报告。
关键观点2: GPT-4o语音功能特点
GPT-4o的语音功能可实现无延迟对话并感知情绪语调,能够适应人类说话适时停顿的习惯、记忆对话内容上下文。此次测试距离自首次发布已有近3个月。
关键观点3: GPT-4o在教育及情感陪伴场景的应用
GPT-4o的语音功能可用于教育及情感陪伴场景,改进相关体验,甚至改变人机交互方式。部分用户利用GPT-4o进行口语练习,情感方面,GPT-4o能针对用户讲笑话提供反馈。
关键观点4: 风险提示
AI效果、产品上线节奏、商业化推进存在风险。具体风险以国泰君安证券研究所发布的完整报告为准。
正文
GPT-4o高级语音、视频等功能开始测试,语音功能后续有望向所有付费用户开放,无延迟、具备情感的语音和视频交互将提升教育、情感陪伴等场景下的AI体验。
事件:
北京时间2024年7月31日凌晨,OpenAI宣布开始向小部分ChatGPT Plus用户测试GPT-4o的高级语音模式,预计今年秋天会向所有ChatGPT Plus用户开放。
此次测试为基础,语音功能有望在今年秋季向所有付费用户开放,更多新功能也将陆续落地。
根据OpenAI的说法,本次测试将主要搜集安全、功能方面的反馈,OpenAI将于8月初分享一份全面的GPT-4o评估报告,随后,还会发布视频和屏幕共享新功能。语音功能预计今年秋天会向所有ChatGPT Plus用户开放。
GPT-4o语音功能可实现无延迟对话并感知情绪语调,此次测试距离自首次发布已有近3个月。
北京时间2024年7月31日凌晨,OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式,相关功能最早在2024年5月14日对外公开,OpenAI在GPT4-o发布会上展示了高级语音功能和视频功能,其中高级语音功能能以平均320毫秒的速度对音频输入做出反应,过程中互动几乎无延迟,能够适应人类说话适时停顿的习惯、记忆对话内容上下文,还可以感知用户声音中的情绪语调,包括悲伤、兴奋等等。
语音功能可用于教育及情感陪伴场景,甚至改变人机交互方式。
从测试用户反馈来看,部分用户利用GPT-4o进行口语练习,GPT-4o将针对用户发音进行实时评分,多种语言测试下都有稳定表现;情感方面,在用户对GPT-4o讲笑话时,它将提供笑声给予反馈;GPT-4o还能实现在讲故事的同时创建各种背景声,以增加沉浸感;有用户结合视频功能向GPT-4o展示了宠物猫的情况,GPT-4o也能够积极回应。我们认为,GPT-4o高级语音、视频等功能将在教育及情感陪伴领域发挥作用,改进相关体验,甚至改变人机交互方式,建议关注教育及情感陪伴赛道的应用机会,受益标的南方传媒、世纪天鸿、昆仑万维、盛天网络、汤姆猫。
风险提示:
AI效果不及预期;产品上线节奏放缓;商业化推进缓慢。
以上内容节选自国泰君安证券已经发布的证券研究报告
《
GPT-4o语音、视频模式测试,可提升教育、情感陪伴体验
》
,
具体内容详见完整版报告。