专栏名称: 多知网
专注于报道培训教育领域,有意思,有价值,有细节,有深度
目录
相关文章推荐
湖北经视  ·  《哪吒2》进入全球动画电影票房榜TOP15! ·  19 小时前  
湖北经视  ·  已确认!当场击毙 ·  19 小时前  
湖北经视  ·  160斤男子落水被冲向水闸!危急时刻…… ·  昨天  
湖北市场监管  ·  【平平姐说市】㉕2月8日起正式实施!食品添加 ... ·  2 天前  
51好读  ›  专栏  ›  多知网

OpenAI的ChatGPT语音助手拥有视觉功能了,适用于教育场景

多知网  · 公众号  ·  · 2024-12-15 16:59

正文

多知12月14日消息, 本周四,是在OpenAI 为期 12 天的盛会的第六天,该公司在直播中表示,其为 ChatGPT 开发的类似人类的对话功能“ChatGPT Advanced Voice (高级语音模式)”正在实现视觉化,Advanced Voice由OpenAI的多模态模型GPT-4o支持。这意味着OpenAI 终于发布了近七个月前演示的ChatGPT实时视频功能,但目前不是向全部用户开放。


同时,OpenAI宣布,整个 12 月,ChatGPT Advanced Voice 都会获得新的圣诞老人“Ho Ho Ho”的声音。 第一次使用时,OpenAI 甚至会将用户的 Advanced Voice 消息重置为零,以便用户可以通话更长时间。


使用 ChatGPT 应用,订阅ChatGPT Plus、Team或Pro 的用户可以将手机对准物体,ChatGPT 会近乎实时地做出响应。


带视觉的ChatGPT Advanced Voice还可以通过屏幕共享了解设备屏幕上的内容。例如, 展示案例中给咖啡壶拍照让ChatGPT教授如何制作手冲咖啡。 只需给ChatGPT打一通“视频通话”,它能根据你面前的物品 ,然后 手把手教用户 完成每一个步骤。 整个演示过程中,ChatGPT的声音自然而亲切,还可以 像人类一样大笑。



在ChatGPT中用户还可以上传植物的照片并询问养护技巧,或者展示教科书中的数学问题并要求分步解决方案。


可以说,这种集合视觉、听觉、文本还有语音的多模态交互方式非常适合教育场景。


试想一下,手头如果有一些数学难题,可以让 ChatGPT 查看,它会像队友或者老师一样给出帮助。这跟之前的拍照搜题类似,甚至更方便。尤其像数理化这样的题目有一些有很多图形图表,直接用文本处理比较难,而现在 ChatGPT可以“看”,还会一步一步给出解题的方法,越来越像“真人老师”了。


早在 今年5月,OpenAI在推出GPT-4o时演示了语音模式Voice Mode。 当时,OpenAI展示这项功能时就邀请了Salman Khan让GPT-4o辅导儿子Imran学习数学的视频,GPT-4o会听会说会看。



而今,ChatGPT Advanced Voice支持50多种语言,展现AI陪伴工具体验感提升,为AI教育工具示范。


要使用视觉进入ChatGPT Advanced Voice,点击 ChatGPT 聊天栏旁边的语音图标,然后点击左下角的视频图标,即可开始视频。

屏幕共享功能则是通过屏幕共享的方式,可以让ChatGPT来“看”你的屏幕,也是一种实时视频理解能力。用户只需点击右下角的高级语音模式图标,在下拉菜单中选择分享屏幕,就能获得针对性的帮助。


不过,OpenAI 表示,带视觉的高级语音模式本周四开始推出,并于下周结束。 但并非所有用户都能获得访问权限。

此外,OpenAI 表示,ChatGPT Enterprise 和 Edu 用户要到明年 1 月才能获得该功能,而且对于欧盟、瑞士、冰岛、挪威等ChatGPT 用户,它还没有时间表。

除了带视觉的高级语音模式外,OpenAI 周四还推出了节日“圣诞老人模式”,该模式将圣诞老人的声音作为 ChatGPT 中的预设语音添加。 用户可以通过点击或单击 ChatGPT 应用中提示栏旁边的雪花图标来找到它。







请到「今天看啥」查看全文