51好读  ›  专栏  ›  纪要研报中心

Open AI GPT-4o交流纪要

纪要研报中心  · 公众号  ·  · 2024-05-14 19:00

正文

请到「今天看啥」查看全文


查看更多机构调研纪要、电话会纪要

请关注【纪要研报中心】

更多报告PDF与音频文件加微信: Y1206859索取

人机交互革新从来都是一件大事

5月13日, OpenAI 发布了GPT-4o,增强了语音交互功能,最快232毫秒响应音频输入,与人类相似,而视频理解能力也大大增强;其速度相交GPT-4 Turbo快两倍、成本降低50%,面向包括免费用户在内的所有用户开放使用。GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

#GPT-4o通过端到端模型实现语音交互效率与效果大幅提升

过去的GPT模型通过3个独立模型依次执行来实现语音交互,即语音转文字、文字生成和文字转语音,因此时延长,也无法理解音频中包含的非文字信息,而此次GPT-4o通过端到端模型进行训练,输入输出均由同一神经网络处理,因此速度快,且能够理解语音中所包含的背景和情绪等信息,有助于更有效地实现人机互动。

#跨模态交互能力增强,大模型实用度与使用频率有望大幅提升

此前GPT在文本交互方面的能力较强,但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段,在很多场景下语音交互也比文字输入更加自然,而视频中也包含着更多文字难以准确描述的信息。我们认为,人机交互一直都是推动计算产业发展的重要推动力,回顾历史,从命令行输入到图形界面输入,推动了个人PC的普及,而从按键交互到触摸屏交互,也是智能手机的重磅革新。此次GPT-4o增加语音功能、提升视频理解能力并实现跨模态推理,将使大模型的实用度与使用频率得到大大提升与拓展。

#跨模态能力增加,有助于大模型在C端和B端应用落地

我们认为,跨模态能力的突破,对大模型的应用落地所产生的推动效果,将远大于单模态模型性能的提升。我们可以预期,各类硬件,如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型,提供更智能化的交互与服务,个人智能助理将逐步落地,而新型便携式智能硬件(如AI PIN)、人形机器人等设备,其实用性也将得到大大提升。而在企业端,大模型在销售、客服以及日常办公中的应用也将得到进一步提升。

粉丝福利: 证券开户,一线券商,交易费率万分之一

声明: 内容来源于网络,友情分享,本文不做买卖依据,如侵权请后台留言删文。




加入组织,获取每日100+最新机构调研




纪要研究中心,奉行价值投机策略,每天更新100+最新企业纪要和行业报告,共同挖掘具有100%增长潜力的标的,


1、算力,AI,智能驾驶,新能源汽车,光伏等行业公司最新纪要,


2、微信会员群 是基本面爱好者的聚集地,也是缩小你与机构信息差的根据地


如果你也是一个基本面爱好者,那么请加入我们, 每天更新100+最新企业纪要和行业报告,挖掘具有100%增长潜力的标的, 实现超额回报。

















请到「今天看啥」查看全文