专栏名称: 多知网
专注于报道培训教育领域,有意思,有价值,有细节,有深度
目录
相关文章推荐
老铁股道  ·  A股:真牛逼,杀疯了! ·  昨天  
老铁股道  ·  A股:真牛逼,杀疯了! ·  昨天  
51好读  ›  专栏  ›  多知网

教育+AI更进一步!GPT-4o多模态实时交互,可解答数学题、实时翻译、模拟面试

多知网  · 公众号  ·  · 2024-05-14 11:29

正文

GPT-4o 最大的特点是可以多模态实时交互,跟真人响应速度一样。


来源 | 多知

作者|Penny



北京时间5月14日凌晨1点,OpenAI 召开了春季发布会,CTO Mira Murati在台上宣布最新旗舰模型GPT-4o,以及基于GPT-4o模型的ChatGPT,能力综合,像个“真人”,能听、会看、可说。


GPT-4o多模态实时交互能力让教育行业更进一步:


比如,OpenAI官方公布的视频中,邀请了可汗学院创始人萨尔·汗(Sal Khan)和他儿子体验了GPT-4o解答数学题的能力。


GPT-4o多模态交互可以重塑家庭场景,比如放摇篮曲、讲故事、玩游戏,让AI在家庭教育&亲子关系中的价值更加凸显;


也让职场/职业教育有更大的想象空间,比如OpenAI官方公布了GPT-4o模拟面试的场景。


OpenAI宣布GPT-4o宣布可免费使用,这意味着更多的用户可以体验AI带来的便利。不过,免费有容量限制,付费用户将继续 "拥有五倍于免费用户的容量限制"。


OpenAI 首席执行官山姆·奥特曼 (Sam Altman) 在发布会开始时X平台发布了一个单词:“her”。这也是同名科幻电影的名字,剧中虚拟语音助手萨曼莎聪慧、风趣、敏感……



Murati 表示,GPT-4o 的速度比 GPT-4 Turbo 快 2 倍,便宜 50%,速率限制高 5 倍。


GPT-4o是一个全新的大语言模型。GPT-4o的“o”代表“omni”。该词意为“全能”。奥特曼在X上提到:“GPT-4o是原生多模态,这意味着它可以在语音、文本和视频分析之间更快地切换。”


根据介绍,GPT-4o改善了ChatGPT的体验,让用户可以更像使用人类助手一样与 ChatGPT 互动,例如,用户可以向由 GPT-4o支持的ChatGPT进行语音提问,并在ChatGPT回答时打断它。OpenAI 表示,该模型能提供 "实时"响应,甚至能捕捉用户声音中的情感,并生成 "一系列不同情感风格 "的语音。


GPT-4o还改进了ChatGPT的视觉功能,是实时视觉助手,它可以是盲人或视力不佳人群的“眼睛”,为他们描述所看到的的世界。


(“Be My Eyes”用户演示GPT-4o实时视觉能力)


美国免费移动应用程序“Be My Eyes”,它将盲人或视力不佳的人与视力正常的人联系起来,创建一个全球24/7视觉支持网络。 “Be My Eyes”CEO透露,已经与 GPT-4o建立合作,很快可以在“Be My Eyes”App中使用。


而视觉与语音多模态实时交互,更打开了教育的想象空间。


演示者打开ChatGPT,启动摄像头,对准一道写在纸上的数学题,演示者要求 GPT-4o 帮助他们解决这个问题,但不要泄露答案。然后,GPT-4o语音引导演示者完成了求解简单方程的过程,就像一名真人数学老师。


(OpenAI团队演示GPT-4o解答数学题)


这对于教育行业来说简直是“福音”。


可汗学院创始人萨尔·汗(Sal Khan)和他儿子体验了GPT-4o解答数学题的能力,GPT-4o采用步步引导的方式指导孩子解答问题。


萨尔·汗说:“你要帮他解答这道题目,不给他答案,保证他能理解。”


GPT-4o说:“好的”。然后开始一步步引导孩子解答,孩子答对的话,还赞扬说“很棒”!最终在 GPT-4o的引导下,孩子理解了这道题目。


(可汗学院创始人和儿子演示GPT-4o解答数学题的能力)


此前,可汗学院已经基于GPT-4推出了“Khanmigo”。可以预见,未来可汗学院或与GPT-4o有更深度的合作。


演示者还使用桌面版 GPT-4o 来检查他们写的一些代码, GPT-4o 不仅可以解释代码的作用,还可以告诉用户如果调整代码的特定部分会发生什么。


(GPT-4o代码解析能力)


在另一个演示中, 演示者展示了GPT-4o模型的实时语言翻译能力 ,比如用户说意大利语,GPT-4o能立即用英语解释出来。新模型让ChatGPT能够处理50种不同的语言,且有更强的记忆力。


在OpenAI官方放出的视频中,GPT-4o还可以充当“石头剪刀布”的游戏的裁判,为人类增添了更多的乐趣。


(猜拳游戏)


此外,打开两个GPT-4o,它们还可以对话,唱歌。


(两个GPT-4o对谈)


GPT-4o最大的特点是实时交互,全新的语音、视觉交互能力得以重塑更多的场景,让体验更加丝滑。







请到「今天看啥」查看全文