专栏名称: 白鲸出海
白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包括应用、游戏、电商、区块链、智能手机及硬件、旅游、网络文学、影视、动漫、教育、体育和金融等。
目录
相关文章推荐
白鲸出海  ·  合成消除+战斗二次开发,从PVE版《Ludu ... ·  21 小时前  
百度智能云  ·  百度智能云知一:大模型课程上新啦!DeepS ... ·  昨天  
白鲸出海  ·  2024年AI投资Top5机构出炉,又一AI ... ·  2 天前  
白鲸出海  ·  开年刚一周,GTC2025(Shenzhen ... ·  2 天前  
阿里开发者  ·  部署DeepSeek,你的GPU够用吗? ·  3 天前  
51好读  ›  专栏  ›  白鲸出海

AI语音,真的有感情了?

白鲸出海  · 公众号  · 科技公司  · 2025-02-14 22:00

主要观点总结

文章介绍了AI语音技术的最新发展,包括创企融资、技术突破和新产品涌现。文章通过甄嬛传台词测试了四款AI语音生成产品的情感表达能力,并讨论了AI语音技术在实现实时交互和有情感输出方面的潜力。最后,文章指出了AI语音技术在情感表达方面的挑战和未来的发展方向。

关键观点总结

关键观点1: AI语音技术发展迅速,创企融资活跃,引领技术快速发展。

文章介绍了AI语音领域的投融资情况和技术发展,指出语音模型的种类、性能在过去一年中大有提升,使用成本也大大降低。

关键观点2: AI语音模型在情感表达方面取得进展,但仍面临挑战。

文章通过甄嬛传台词测试了四款AI语音生成产品的情感表达能力,并讨论了这些产品在表达高兴、悲伤和愤怒等情绪时的表现。虽然有一些产品能够表现出一定的情感,但整体而言,AI语音技术在情感表达方面仍面临挑战。

关键观点3: AI语音技术的应用广泛,市场上涌现大量产品。

文章提到AI语音技术进步实现了实时交互和有情感输出,市场上涌现大量AI语音技术产品。同时,从业者预测2025年将是AI语音拥有情绪的元年。


正文

过去一年,AI语音爆发,但距离有情感,还有多远呢?


出品 | 白鲸出海编辑部

作者 | 张凯然

2024 年,AI 发展势头迅猛。在多模态中,语音又是很“显眼”的一个。

2024 年 AI 语音创企融资情况|图片来源:a16z

在投融资方面,根据 a16z 的统计,去年一年中, 就有 30 多家与 AI 语音技术相关的创企融资。 而今年一开年,1 月 31 日,头部的 AI 语音生成平台 ElevenLabs 又完成了 C 轮 1.8 亿美元的融资,总估值达到了 30 亿美元。

2024 年 5-12 月 AI 语音领域 的技术突破|图片来源:a16z

投融资的活跃,也引领着技术的快速发展。语音模型的种类、性能在过去一年中大有提升,而使用成本也大大降低。其中, 最明显的是 TTS(语音合成)能力的提升及其落地应用,尤其是在 2024 年 4 月 OpenAI 首发 4o 实时语音能力之后。

例如,2023 年下半年,我们曾经观察过当时讨论度很高的 AI Tuber 市场。当时看到,AITuber 固然有很多优点、但很难落地的一个原因就是 AI 合成语音缺乏真实感,当观众因为 AITuber 的一些高光瞬间投入感情之后,却也很容易因为 AI 多少有些机械感的语音而出戏。这在如营销、客服等其他场景中,情感不足是很大的问题,会显著影响用户与 AI 的交互。

因而,针对语气、感情等细颗粒度的控制,是语音模型在 2024 年的一个优化重点。相比于之前相对机械化的“罐头人声”,从底层来说,目前的语音生成模型都会使用经过情感标注的真人声音数据集进行训练,模型一定程度上能够掌握不同情绪的人声之间的差异。

阿里 CosyVoice 翻译流程示意图,
输入文字 LLM 也会分析情绪

而除此之外,在生成语音之前,大模型都会先分析输入内容(文字/语音)中的情感线索,并在生成内容时有意调整输出语音的参数,体现出相应情感。

ElevenLabs 中自行调整输出声音参数的功能

除了由大模型自行分析情感,大多数的 AI 语音生成工具也都提供由用户手动调整参数或直接给出情感标签等方式,辅助语音模型给出正确的情感输出。

因为 AI 语音技术进步,实现实时交互和有情感输出, 市面上出现大量 toB 和 toC 的 AI 语音技术产品|图片来源: a16z

因而,甚至有从业者判断,2025 年,是 AI 语音拥有情绪的元年。2025,各家也“不负众望”,纷纷上线了新模型。为此,我们也怀着激动的小心情,用《甄嬛传》中的台词设计了一个小测试,来检验一下,ElevenLabs、豆包、海螺语音和 Fineshare(华人团队)这四款 AI 语音生成产品,能否还原原作中表达高兴、愤怒、悲伤三个情感的片段。

测试方法:


我们先让 4 款产品按照台词/原音频生成一段语音,然后由测试者来进行打分。为了排除人类的主观影响,我们先让 ChatGPT 做一个基准测试,然后请编辑部的 5 位同事,分别对所有产品(受试者并不知道具体产品,播放时也会打乱顺序)的表现进行 1-10 分的打分,原版为 10 分,6 分为及格线(不及格统一记 5 分), 每个场景中,每款产品必须获得 4 个 6 分以上的评分,才算通过测试,并计算平均分。

如果这款产品有标注情绪的选项,就会将对应的情绪标注好,但没有手动调整输出语音参数(例如稳定度、音调、音色效果),这些手动调整也可能会影响 AI 复刻语音的最终表现。

下面让我们赶紧看看测试结果吧!

海螺表现最好,但只能达到及格标准

高兴:通过率 75%,但显然还是 AI

“高兴”情绪的片段选用的是“开心果”淳儿的一段台词,“菀姐姐待 儿真好,听说皇上特别喜欢姐姐,下午看到送赏赐的人,一拨拨忙慌慌的,就知道这话是真的了。”

在“高兴”情绪的测试中,四款产品只有 ElevenLabs 没有通过测试,而在通过测试的产品中,海螺语音以 6.83 分的平均得分名列第一,豆包和 Fineshare 得分均为 6.5 分。

虽然有 3 款产品能够通过,但是从测试者的反馈来看,生成语音是能够听出开心的语调的,但仍能明显听出是 AI 合成的。读者们也可以自己听一听几款产品的表现,来给他们打打分。

悲伤:通过率 25%,Hailuo AI 唯一幸存者

悲伤的情绪我们将选择甄嬛传中“砖妃数砖”的名场面来进行测试,片段是甄嬛和敬妃针对陇月公主抚养权的一段对话,敬妃用“数砖”这段话体现出自己深宫孤寂的处境,以打动甄嬛。具体台词为:“你知道吗?我宫里一共有三百二十六块砖石,可是这每一块,我都抚摸过无数遍了,其中还有三十一块已经出现了细碎的裂纹,否则我将如何度过这漫漫长夜呢?”

总体而言,除了海螺语音能有一些音调和语速上的细微变化,来体现悲伤的情感外,剩下的三款产品的语调都比较平,像是在念白或者陈述,有可能因为这段台词的内容相对比较隐晦,所以这些模型都很难 Get 到悲伤的情绪。

愤怒:全军覆没

这段台词出自甄嬛传后期的名场面“滴血验亲”,祺贵人告发甄嬛。具体台词为:“臣妾要告发熹贵妃私通,秽乱后宫,罪不容诛!”

这个测试结果很令人意外,此前两个场景表现得还相对稳定的海螺语音也翻车了,虽然海螺使用了提高声调,拉长间隔的方式体现情绪,但仍做得不够,而其他产品则都几乎体现不出愤怒的情绪。

写在最后
整体测试下来,虽然甄嬛传台词的情绪表达相对含蓄且有些复杂,对于 AI 来说理解起来会有些“超纲”,而且全部使用中文语料进行测试,对 ElevenLabs 这样的国外产品也不那么公平。如果进行更细致的调整,也能够一定程度上提升表现。

由于 Hailu oAI 在悲伤场景中获得的平均分最高,所以笔者手动调整了参数,以获得更好的效果(其他产品调整需要 消耗 tokens,未做测试)

例如,如果我们去手动调整参数,包括稳定度、音调、语速、音色等,大概调了 10 多版之后,得到了表现更好的一段录音, 但大家表示依然能明确听出是 AI,最“宽容”的判断也就是一个不专业的配音演员。
但基于这个简单的测试,我们还是可以发现,针对情绪比较直白的片段,部分模型的情感还原做得还可以,但如果遇到情绪或者文字本身的情绪表达没有那么明显,AI 模型的表现仍不尽如人意,也许,不久后,我们能迎来 AI 们更好的表现。

推荐阅读

加了AI,这款产品下载量压过赛道No.1

前字节AI项目负责人创业,两个月曝光3个新游戏

Le Chat登顶、千亿美元投资,中美之后,AI第三强国?

6款产品总流水过亿、出海厂商上榜,谁在领跑混合休闲赛道?

作业帮“制霸”全球,头部语言产品吸金能力堪比中重度游戏|AI教育出海洞察第一期







请到「今天看啥」查看全文