Open AI GPT-4o交流纪要

纪要研报中心 · 公众号 · · 2024-05-14 19:00

正文

请到「今天看啥」查看全文

查看更多机构调研纪要、电话会纪要

请关注【纪要研报中心】

更多报告PDF与音频文件加微信： Y1206859索取

人机交互革新从来都是一件大事

5月13日， OpenAI 发布了GPT-4o，增强了语音交互功能，最快232毫秒响应音频输入，与人类相似，而视频理解能力也大大增强；其速度相交GPT-4 Turbo快两倍、成本降低50%，面向包括免费用户在内的所有用户开放使用。GPT-4o可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

#GPT-4o通过端到端模型实现语音交互效率与效果大幅提升

过去的GPT模型通过3个独立模型依次执行来实现语音交互，即语音转文字、文字生成和文字转语音，因此时延长，也无法理解音频中包含的非文字信息，而此次GPT-4o通过端到端模型进行训练，输入输出均由同一神经网络处理，因此速度快，且能够理解语音中所包含的背景和情绪等信息，有助于更有效地实现人机互动。

#跨模态交互能力增强，大模型实用度与使用频率有望大幅提升

此前GPT在文本交互方面的能力较强，但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段，在很多场景下语音交互也比文字输入更加自然，而视频中也包含着更多文字难以准确描述的信息。我们认为，人机交互一直都是推动计算产业发展的重要推动力，回顾历史，从命令行输入到图形界面输入，推动了个人PC的普及，而从按键交互到触摸屏交互，也是智能手机的重磅革新。此次GPT-4o增加语音功能、提升视频理解能力并实现跨模态推理，将使大模型的实用度与使用频率得到大大提升与拓展。

#跨模态能力增加，有助于大模型在C端和B端应用落地

我们认为，跨模态能力的突破，对大模型的应用落地所产生的推动效果，将远大于单模态模型性能的提升。我们可以预期，各类硬件，如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型，提供更智能化的交互与服务，个人智能助理将逐步落地，而新型便携式智能硬件（如AI PIN）、人形机器人等设备，其实用性也将得到大大提升。而在企业端，大模型在销售、客服以及日常办公中的应用也将得到进一步提升。

粉丝福利：证券开户，一线券商，交易费率万分之一

声明：内容来源于网络，友情分享，本文不做买卖依据，如侵权请后台留言删文。

加入组织，获取每日100+最新机构调研

纪要研究中心，奉行价值投机策略，每天更新100+最新企业纪要和行业报告，共同挖掘具有100%增长潜力的标的，

1、算力，AI，智能驾驶，新能源汽车，光伏等行业公司最新纪要，

2、微信会员群是基本面爱好者的聚集地，也是缩小你与机构信息差的根据地，

如果你也是一个基本面爱好者，那么请加入我们， 每天更新100+最新企业纪要和行业报告，挖掘具有100%增长潜力的标的， 实现超额回报。