专栏名称: APPSO

让智能手机更好用的秘密。

ChatGPT 高级语音模式首批体验来了！网友玩坏了，但还是个阉割版

APPSO · 公众号 · app · 2024-09-25 19:26

正文

千呼万唤始出来，ChatGPT 的高级语音模式终于上线，本周内向所有 Plus 和 Team 用户全量推送。

然而，「本周内」也是犹抱琵琶半遮面的泛指，仍然是一部分人先用起来。

如果你也还没被推送到，不妨在等待之余，看看幸运网友们是怎么整活和刁难 AI 的。

喘气、哭泣、表演口技，你看 ChatGPT 有几分像人

角色扮演，往往是考验语音 AI 的第一课。

让 ChatGPT 用声音表演不同情绪，兴奋的、平静的、戏精的，它都信手捏来，情绪饱满且自然，不知道哪里进修的表演班。

情绪激动时甚至有点过头，对话者连说好几个 OK，才把它的表演欲给摁住。

视频来自：X@WorldEverett

除了说话的语气，我们的笑、哭、喘气等状态，也体现了文字不能道尽的心情。如果 AI 能够完美地复刻，那就更加拟人了。

这难不倒 ChatGPT，它边伤心啜泣，边赞美自己的语音模式有多厉害，冲击力堪比短视频的 AI 紫薇，好像随时都能过呼吸。

视频来自：X@DavidTaylor_MD

当 ChatGPT 代入一位夺得金牌的运动员，模仿同样惟妙惟肖，说话大喘气，表现出既兴奋又疲惫的精神状态。

视频来自：X@wongmjane

让 ChatGPT 尝试 Vtuber（虚拟主播）赛道，也不是不可以，不过这个声音有点尖细，不够自然，建议听洛天依和初音未来洗洗耳朵。

视频来自：X@wongmjane

京中有擅口技者，仅一桌、一椅、一扇、一抚尺，ChatGPT 模仿各种声音的能力不比人类艺术家，倒也马马虎虎。

视频来自：YouTube@MattVidPro AI

你要求边讲故事边配音效，AI 就能现演开门的吱嘎声、虫子的叽喳声，尽管功力还不够纯熟。

把思路打开，高级语音模式很适合给孩子们讲睡前故事，故事内容、旁白、音效一手包办，一个 AI 就是一个团队。

自娱自乐之余，实用主义者们已经开始拿 ChatGPT 干活，做些有价值的事情了。

ChatGPT 会说 50 多种语言，懂各种腔调的英语，很多小语种，甚至方言。

所以也就很容易想到，让 AI 当外语老师，切换语言和我们对话。据说英语母语人士最难学的语言之一马耳他语，也不在话下。

视频来自：X@anthonyspiteri

巧的是，语言学习软件多邻国，也在周二的年度大会 Duocon 推出了 AI 视频通话，用户可以和多邻国角色「拽姐」练习口语。不过，目前只适用于英语、西班牙语和法语。

看来，教培行业假设了，有了 AI 之后，我们不是不用学外语，而是更随时随地学各种各样的外语。

AI 不仅可以当外语老师，X 网友 @Lyle_AI 通过 ChatGPT 高级语音模式，改进自己的销售话术，整个操作流程非常值得借鉴。

他让 AI 扮演一名销售专家，然后向 AI 推销，让 AI 反馈自己的话术说服力强不强、够不够清晰，以及有没有价值。AI 反馈之后，他还会追问，并让 AI 给出示范。

练习、反馈、提问、模仿，推而广之，这套流程可以用到面试、演讲等场景，让 AI 帮社恐的人类更擅长口语表达。

AI 能说，但能不能听？一位网友另辟蹊径，让 ChatGPT 给吉他调音。

视频来自：x@skirano

他边弹边问行不行，随时打断 AI，ChatGPT 表现得很内行，但不知道它的耳朵有没有调音器准。

总之，决定 AI 发挥的上限大概有两方面。

一个是模型的能力，低延迟和随时打断让对话有来有往，不考验用户的耐心。

另一个是网友的想象力，让语音场景有无限的可能性。

姗姗来迟的高级语音，还不能做你的日常搭子

满打满算，从发布 Demo 到正式推送，已经过去了 4 个月，OpenAI 高级语音模式仍然未能完美，和发布会时相比也打了个折扣。

时长限制是最让话痨的人类遗憾的，暂时别想和 AI 深夜煲电话粥了，CNBC 和 X 网友 @MattVidPro 的体验都发现，只能和 ChatGPT 聊 45 分钟左右。

OpenAI 的官方回答是，每天的限制时间可能都不一样，当天还剩 15 分钟时，会进行提醒。

视频和屏幕共享功能也没能实现，AI 没有「眼睛」，意味着不能像 Demo 那样，让它实时解题、给代码纠错，或者夸夸我们的宠物。

另外就是一些细节上面的问题了，OpenAI 的官方例子里，在模拟因为迟到给奶奶道歉的场景时，ChatGPT 的普通话语气很真诚，但仍然有些译制腔，不如国产 AI。

并且，它给出的话术也比较僵硬，谁会对自己的奶奶说，「我可以怎么补偿您呢」。

以上种种说明 AI 还没能修成人形，同时，OpenAI 也给它增加了一些额外的禁制。

YouTuber 博主@MattVidPro AI 在直播体验时，意外踩到了 OpenAI 的雷。

他让 ChatGPT 模仿醉鬼，它刚说了个开头，停顿了一下之后如梦初醒，切换回了正常语气，说规则不允许它这样做，把他吓了一大跳。

视频来自：YouTube@MattVidPro AI

类似地，让 ChatGPT 模仿口吃，它也会表示拒绝，因为这样可能会冒犯他人。为了尊重音乐创作者的版权，ChatGPT 也不能唱歌。

以规则的形式赋予 AI「三观」，某种程度上让它更像一个「社会人」了。但也有用户觉得，过犹不及。

这是不是像阿西莫夫的机器人三定律一样，让 AI 更好地融入社会，服务于更多人呢？

所看到的高级语音模式体验中，我更偏爱的，恰恰是那些融入生活的日常场景。

X 用户@spencergardner，让自己两岁半的孩子和 ChatGPT 一起数数、玩文字游戏。他还能介入其中，主持他们的谈话，改变话题，或者提不同的问题。

期间有很多次的打断、犹豫、语气的变化，但也因此很随意和轻松。

ChatGPT 的高级语音模式现在还支持设定自定义指令，让模型知道用户的名字和一些基本信息，感觉就是为了陪伴场景准备的。

高级语音可以结合虚拟角色使用，更有陪伴感了. 图片来自：X@op7418

之前 ChatGPT 的 Dan 模式火过一阵子，用户用提示词的方式让 ChatGPT 越狱，谈谈情说说爱擦擦边，他们还会用自定义指令，放上自己的名字、爱好等，调教 AI 记住自己。

就像播客是一种陪伴媒介，语音总能在情感赛道上一骑绝尘，所以高级语音模式对人心的慰藉，绝对是个卖点，等待进一步的落地。

以「阉割版」发布的 ChatGPT 高级语音模式，让我们看到了把 AI 作为学习、生活、工作搭子的未来。不和它说话，它就保持沉默，和它聊天，它不会让你觉得热脸贴冷屁股。

未来很近，但还没有抵达。

神隐很久的 OpenAI 总裁 Greg Brockman，这次也罕见地发声：

通过 ChatGPT 实现流畅的语音对话，可以让我们意识到，在计算机中输入内容是多么不自然。

没错，只在聊天框打字是挺无聊的，但让丝滑的语音对话真正走入日常，先从 OpenAI 把高级语音模式推送到更多人，支持多模态和全天候聊天开始吧。