专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
APPSO  ·  10 ... ·  22 小时前  
小众软件  ·  另外两件事[24924] ·  2 天前  
APPSO  ·  ChatGPT 们能讲人话后,AI ... ·  3 天前  
APPSO  ·  前苹果首席设计官 Jony Ive 确认与 ... ·  5 天前  
APPSO  ·  突发 ... ·  6 天前  
51好读  ›  专栏  ›  APPSO

ChatGPT 高级语音模式首批体验来了!网友玩坏了,但还是个阉割版

APPSO  · 公众号  · app  · 2024-09-25 19:26

正文

千呼万唤始出来,ChatGPT 的高级语音模式终于上线,本周内向所有 Plus 和 Team 用户全量推送。
然而,「本周内」也是犹抱琵琶半遮面的泛指,仍然是一部分人先用起来。
如果你也还没被推送到,不妨在等待之余,看看幸运网友们是怎么整活和刁难 AI 的。
喘气、哭泣、表演口技,你看 ChatGPT 有几分像人
角色扮演,往往是考验语音 AI 的第一课。
让 ChatGPT 用声音表演不同情绪,兴奋的、平静的、戏精的,它都信手捏来,情绪饱满且自然,不知道哪里进修的表演班。
情绪激动时甚至有点过头,对话者连说好几个 OK,才把它的表演欲给摁住。

视频来自:X@WorldEverett

除了说话的语气,我们的笑、哭、喘气等状态,也体现了文字不能道尽的心情。如果 AI 能够完美地复刻,那就更加拟人了。
这难不倒 ChatGPT,它边伤心啜泣,边赞美自己的语音模式有多厉害,冲击力堪比短视频的 AI 紫薇,好像随时都能过呼吸。

视频来自:X@DavidTaylor_MD
当 ChatGPT 代入一位夺得金牌的运动员,模仿同样惟妙惟肖,说话大喘气,表现出既兴奋又疲惫的精神状态。

视频来自:X@wongmjane
让 ChatGPT 尝试 Vtuber(虚拟主播)赛道,也不是不可以,不过这个声音有点尖细,不够自然,建议听洛天依和初音未来洗洗耳朵。

视频来自:X@wongmjane
京中有擅口技者,仅一桌、一椅、一扇、一抚尺,ChatGPT 模仿各种声音的能力不比人类艺术家,倒也马马虎虎。

视频来自:YouTube@MattVidPro AI
你要求边讲故事边配音效,AI 就能现演开门的吱嘎声、虫子的叽喳声,尽管功力还不够纯熟。
把思路打开,高级语音模式很适合给孩子们讲睡前故事,故事内容、旁白、音效一手包办,一个 AI 就是一个团队。
自娱自乐之余,实用主义者们已经开始拿 ChatGPT 干活,做些有价值的事情了。
ChatGPT 会说 50 多种语言,懂各种腔调的英语,很多小语种,甚至方言。
所以也就很容易想到,让 AI 当外语老师,切换语言和我们对话。据说英语母语人士最难学的语言之一马耳他语,也不在话下。

视频来自:X@anthonyspiteri
巧的是,语言学习软件多邻国,也在周二的年度大会 Duocon 推出了 AI 视频通话,用户可以和多邻国角色「拽姐」练习口语。不过,目前只适用于英语、西班牙语和法语。
看来,教培行业假设了,有了 AI 之后,我们不是不用学外语,而是更随时随地学各种各样的外语。
AI 不仅可以当外语老师,X 网友 @Lyle_AI 通过 ChatGPT 高级语音模式,改进自己的销售话术,整个操作流程非常值得借鉴。
他让 AI 扮演一名销售专家,然后向 AI 推销,让 AI 反馈自己的话术说服力强不强、够不够清晰,以及有没有价值。AI 反馈之后,他还会追问,并让 AI 给出示范。
练习、反馈、提问、模仿,推而广之,这套流程可以用到面试、演讲等场景,让 AI 帮社恐的人类更擅长口语表达。
AI 能说,但能不能听?一位网友另辟蹊径,让 ChatGPT 给吉他调音。

视频来自:x@skirano
他边弹边问行不行,随时打断 AI,ChatGPT 表现得很内行,但不知道它的耳朵有没有调音器准。
总之,决定 AI 发挥的上限大概有两方面。
一个是模型的能力,低延迟和随时打断让对话有来有往,不考验用户的耐心。
另一个是网友的想象力,让语音场景有无限的可能性。
姗姗来迟的高级语音,还不能做你的日常搭子
满打满算,从发布 Demo 到正式推送,已经过去了 4 个月,OpenAI 高级语音模式仍然未能完美,和发布会时相比也打了个折扣。
时长限制是最让话痨的人类遗憾的,暂时别想和 AI 深夜煲电话粥了,CNBC 和 X 网友 @MattVidPro 的体验都发现,只能和 ChatGPT 聊 45 分钟左右。
OpenAI 的官方回答是,每天的限制时间可能都不一样,当天还剩 15 分钟时,会进行提醒。
视频和屏幕共享功能也没能实现,AI 没有「眼睛」,意味着不能像 Demo 那样,让它实时解题、给代码纠错,或者夸夸我们的宠物。
另外就是一些细节上面的问题了,OpenAI 的官方例子里,在模拟因为迟到给奶奶道歉的场景时,ChatGPT 的普通话语气很真诚,但仍然有些译制腔,不如国产 AI。
并且,它给出的话术也比较僵硬,谁会对自己的奶奶说,「我可以怎么补偿您呢」。
以上种种说明 AI 还没能修成人形,同时,OpenAI 也给它增加了一些额外的禁制。
YouTuber 博主@MattVidPro AI 在直播体验时,意外踩到了 OpenAI 的雷。
他让 ChatGPT 模仿醉鬼,它刚说了个开头,停顿了一下之后如梦初醒,切换回了正常语气,说规则不允许它这样做,把他吓了一大跳。

视频来自:YouTube@MattVidPro AI
类似地,让 ChatGPT 模仿口吃,它也会表示拒绝,因为这样可能会冒犯他人。为了尊重音乐创作者的版权,ChatGPT 也不能唱歌。
以规则的形式赋予 AI「三观」,某种程度上让它更像一个「社会人」了。但也有用户觉得,过犹不及。
这是不是像阿西莫夫的机器人三定律一样,让 AI 更好地融入社会,服务于更多人呢?
所看到的高级语音模式体验中,我更偏爱的,恰恰是那些融入生活的日常场景。
X 用户@spencergardner,让自己两岁半的孩子和 ChatGPT 一起数数、玩文字游戏。他还能介入其中,主持他们的谈话,改变话题,或者提不同的问题。
期间有很多次的打断、犹豫、语气的变化,但也因此很随意和轻松。
ChatGPT 的高级语音模式现在还支持设定自定义指令,让模型知道用户的名字和一些基本信息,感觉就是为了陪伴场景准备的。
高级语音可以结合虚拟角色使用,更有陪伴感了. 图片来自:X@op7418
之前 ChatGPT 的 Dan 模式火过一阵子,用户用提示词的方式让 ChatGPT 越狱,谈谈情说说爱擦擦边,他们还会用自定义指令,放上自己的名字、爱好等,调教 AI 记住自己。
就像播客是一种陪伴媒介,语音总能在情感赛道上一骑绝尘,所以高级语音模式对人心的慰藉,绝对是个卖点,等待进一步的落地。
以「阉割版」发布的 ChatGPT 高级语音模式,让我们看到了把 AI 作为学习、生活、工作搭子的未来。不和它说话,它就保持沉默,和它聊天,它不会让你觉得热脸贴冷屁股。
未来很近,但还没有抵达。
神隐很久的 OpenAI 总裁 Greg Brockman,这次也罕见地发声:
通过 ChatGPT 实现流畅的语音对话,可以让我们意识到,在计算机中输入内容是多么不自然。
没错,只在聊天框打字是挺无聊的,但让丝滑的语音对话真正走入日常,先从 OpenAI 把高级语音模式推送到更多人,支持多模态和全天候聊天开始吧