OpenAI的ChatGPT语音助手拥有视觉功能了，适用于教育场景

多知网 · 公众号 · · 2024-12-15 16:59

正文

多知12月14日消息，本周四，是在OpenAI 为期 12 天的盛会的第六天，该公司在直播中表示，其为 ChatGPT 开发的类似人类的对话功能“ChatGPT Advanced Voice (高级语音模式)”正在实现视觉化，Advanced Voice由OpenAI的多模态模型GPT-4o支持。这意味着OpenAI 终于发布了近七个月前演示的ChatGPT实时视频功能，但目前不是向全部用户开放。

同时，OpenAI宣布，整个 12 月，ChatGPT Advanced Voice 都会获得新的圣诞老人“Ho Ho Ho”的声音。 第一次使用时，OpenAI 甚至会将用户的 Advanced Voice 消息重置为零，以便用户可以通话更长时间。

使用 ChatGPT 应用，订阅ChatGPT Plus、Team或Pro 的用户可以将手机对准物体，ChatGPT 会近乎实时地做出响应。

带视觉的ChatGPT Advanced Voice还可以通过屏幕共享了解设备屏幕上的内容。例如， 展示案例中给咖啡壶拍照让ChatGPT教授如何制作手冲咖啡。 只需给ChatGPT打一通“视频通话”，它能根据你面前的物品，然后手把手教用户完成每一个步骤。在整个演示过程中，ChatGPT的声音自然而亲切，还可以像人类一样大笑。

在ChatGPT中用户还可以上传植物的照片并询问养护技巧，或者展示教科书中的数学问题并要求分步解决方案。

可以说，这种集合视觉、听觉、文本还有语音的多模态交互方式非常适合教育场景。

试想一下，手头如果有一些数学难题，可以让 ChatGPT 查看，它会像队友或者老师一样给出帮助。这跟之前的拍照搜题类似，甚至更方便。尤其像数理化这样的题目有一些有很多图形图表，直接用文本处理比较难，而现在 ChatGPT可以“看”，还会一步一步给出解题的方法，越来越像“真人老师”了。

早在今年5月，OpenAI在推出GPT-4o时演示了语音模式Voice Mode。当时，OpenAI展示这项功能时就邀请了Salman Khan让GPT-4o辅导儿子Imran学习数学的视频，GPT-4o会听会说会看。

而今，ChatGPT Advanced Voice支持50多种语言，展现AI陪伴工具体验感提升，为AI教育工具示范。

要使用视觉进入ChatGPT Advanced Voice，点击 ChatGPT 聊天栏旁边的语音图标，然后点击左下角的视频图标，即可开始视频。

屏幕共享功能则是通过屏幕共享的方式，可以让ChatGPT来“看”你的屏幕，也是一种实时视频理解能力。用户只需点击右下角的高级语音模式图标，在下拉菜单中选择分享屏幕，就能获得针对性的帮助。

不过，OpenAI 表示，带视觉的高级语音模式本周四开始推出，并于下周结束。但并非所有用户都能获得访问权限。

此外，OpenAI 表示，ChatGPT Enterprise 和 Edu 用户要到明年 1 月才能获得该功能，而且对于欧盟、瑞士、冰岛、挪威等ChatGPT 用户，它还没有时间表。

除了带视觉的高级语音模式外，OpenAI 周四还推出了节日“圣诞老人模式”，该模式将圣诞老人的声音作为 ChatGPT 中的预设语音添加。 用户可以通过点击或单击 ChatGPT 应用中提示栏旁边的雪花图标来找到它。

OpenAI的ChatGPT语音助手拥有视觉功能了，适用于教育场景

正文

请到「今天看啥」查看全文