更多报告PDF与音频文件加微信:
Y1206859索取
人机交互革新从来都是一件大事
5月13日,
OpenAI
发布了GPT-4o,增强了语音交互功能,最快232毫秒响应音频输入,与人类相似,而视频理解能力也大大增强;其速度相交GPT-4 Turbo快两倍、成本降低50%,面向包括免费用户在内的所有用户开放使用。GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
#GPT-4o通过端到端模型实现语音交互效率与效果大幅提升
过去的GPT模型通过3个独立模型依次执行来实现语音交互,即语音转文字、文字生成和文字转语音,因此时延长,也无法理解音频中包含的非文字信息,而此次GPT-4o通过端到端模型进行训练,输入输出均由同一神经网络处理,因此速度快,且能够理解语音中所包含的背景和情绪等信息,有助于更有效地实现人机互动。
#跨模态交互能力增强,大模型实用度与使用频率有望大幅提升
此前GPT在文本交互方面的能力较强,但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段,在很多场景下语音交互也比文字输入更加自然,而视频中也包含着更多文字难以准确描述的信息。我们认为,人机交互一直都是推动计算产业发展的重要推动力,回顾历史,从命令行输入到图形界面输入,推动了个人PC的普及,而从按键交互到触摸屏交互,也是智能手机的重磅革新。此次GPT-4o增加语音功能、提升视频理解能力并实现跨模态推理,将使大模型的实用度与使用频率得到大大提升与拓展。
#跨模态能力增加,有助于大模型在C端和B端应用落地
我们认为,跨模态能力的突破,对大模型的应用落地所产生的推动效果,将远大于单模态模型性能的提升。我们可以预期,各类硬件,如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型,提供更智能化的交互与服务,个人智能助理将逐步落地,而新型便携式智能硬件(如AI PIN)、人形机器人等设备,其实用性也将得到大大提升。而在企业端,大模型在销售、客服以及日常办公中的应用也将得到进一步提升。
粉丝福利:
证券开户,一线券商,交易费率万分之一
声明:
内容来源于网络,友情分享,本文不做买卖依据,如侵权请后台留言删文。