专栏名称: 优秀网页设计
优设网官方帐号,国内知名设计师学习平台。和大家一起来利用碎片时间学习设计和PS技术吧!
目录
相关文章推荐
始室  ·  首发 . Simon de Burbure ... ·  昨天  
始室  ·  首发 . Simon de Burbure ... ·  昨天  
庞门正道  ·  我不想做LOW狗了 ·  3 天前  
设计诗designer  ·  DDDD Creative ... ·  4 天前  
庞门正道  ·  有技术含量的母爱早餐! ·  1 周前  
字体设计  ·  一百种标题排版拿去抄(四) ·  1 周前  
51好读  ›  专栏  ›  优秀网页设计

“假雷军” AI 语音全网下架,背后的技术把我看呆了...

优秀网页设计  · 公众号  · 设计  · 2024-10-14 13:01

正文

说起来,前阵子短视频平台上突然冒出来一堆"雷军"的视频,说话的腔调、语气,简直就是雷军本尊附体!
要不是内容实在太离谱,我差点就信以为真了。
视频里的"雷军"对着堵车、假期这些咱们都深有体会的事儿,一顿猛喷。更绝的是,这位"雷军"还时不时爆粗口,威胁要让小米手机自爆、用小米汽车撞人...

这些视频一下子就火了,相关话题的浏览量都已经破亿!

而现在小米法务部终于出手了,相关视频也开始被全网下架。现在搜"雷军AI配音",那些低俗的、造谣的内容基本都看不到了。

那么像这样的声音克隆到底是怎么实现的呢?

背后又是它?
这次的恶搞视频都是一些网友用AI伪造了雷军的声音,自己编段子整的活儿。
雷军本人显然也知道了这茬儿。在小米SU7锁单的微博评论区,有网友提到这事儿。
雷军就回了三个表情包。
雷军一向挺亲民的,连自己的 meme 都能玩得很溜。
但这次嘛,显然有点过了,小米法务部估计都快忙疯了。

有些视频不仅用了雷军的真人照片,还言之凿凿地说"我是雷军"。这不明摆着侵犯人家名誉权和肖像权吗?

这种事儿也不是头一回了。今年4月,咱们国内就判了第一起"AI声音侵权案"。法院明确说了,只要AI生成的声音能让普通人听出来是谁,那就算侵权。

国内首例AI声音侵权案

按这标准,这次的"雷军骂街"视频,妥妥的侵权没跑了。

上次不是还写了篇文章给大家介绍"三只羊录音门"吗?那段录音听起来跟真的似的,结果官方调查后发现,全是AI制作的,嫌疑人使用了“Reecho睿声”来伪造卢某某录音。

意外的是,通过下载、比对“雷军”AI骂人配音的隐形声纹水印,网友们发现这次雷军恶搞音频大部分又是使用“Reecho睿声”平台制作生成的。
虽然被大家调侃这是负面营销,但也侧面说明咱们国产AI技术是越来越强了。


AI的"调酒"过程
我猜你们肯定好奇,语音克隆背后到底是什么黑科技?
简单来说,就是用一大堆语音数据和深度学习算法,让AI学会模仿某个人的声音。

首先,得给AI"喂"点东西。就像我们学习新技能需要大量训练一样,AI也需要海量的声音样本。

这些样本可以是目标声音的各种录音,比如说话、唱歌,甚至是咳嗽声(没错,连咳嗽都要学)。收集到这些音频后,还得给它们"洗个澡"——去掉背景噪音,调整音量,转换成数字信号,让它们更容易被AI"消化"。

接下来,AI就开始仔细分析这些声音的特点。音高、音色、语调,甚至是说话的节奏,都被它一一记录下来。这种特征提取的过程,就好像在解构声音的DNA

现在到了最神奇的部分:声音合成。

想象一下,有两个AI在玩游戏。一个负责"描绘"声音,另一个负责判断这个声音是不是真的。它们不断地重复这个过程,直到复制出来的声音能骗过判断的那个。

这就是所谓的生成对抗网络(GAN),听起来很复杂,其实就是AI在不断地自我完善,直到它能完美复制出目标声音。

最后,AI还得把这些数字信号转译。这个过程通过一个叫做"声码器"的工具完成,它能把AI生成的声音信号转换成我们耳朵能听懂的声音。

厉害的是,只要有足够的数据,AI不光能模仿你说话的音色,连说话的语气、节奏都能学个八九不离十。

想想看,以后做APP界面,我们设计的语音提示是不是可以随心所欲地换声音了?

又或者,你在做一个交互设计,需要大量的语音反馈,现在可以轻松创造出独一无二的、符合品牌调性的声音。

做游戏的时候,NPC的配音是不是也能更丰富多样?甚至连做展陈设计,都可以让历史名人"复活"和观众对话!

干货时间
这技术要是用在正经地方还好,可要是被人利用来造谣生事,确实太麻烦了。咱们不能只当看客,了解下新技术也能少踩点坑。
今天的干货时间,就给大家介绍花生老师最近发现的一款 AI 配音神器 CosyVoice,不仅支持文本转语音,还支持快速音色克隆,我们可以克隆自己的声音进行音色配置。
主要 CosyVoice 本身是一款免费开源工具,可以部署到本地使用。大家可以借此实际体验一下AI语音克隆技术的魔力

模型网站:https://github.com/FunAudioLLM/CosyVoice
支持中文(含粤语)、英语、日语、韩语 4 种语言,配音效果非常自然稳定、还支持超长文本、情感控制、停顿等功能,很适合对配音有强需求的小伙伴(电脑显存需要 4G 以上)。
下面简单介绍一下 windows 一键安装包的基础用法:
① 下载并解压安装包,记得安装路径中文、特殊字符和空格,否则可能会启动失败;
② 双击运行 “GPU 诊断” 和 “查看 CUDA 版本” 文件,确保已经安装 CUDA,并且 GPU 可用。然后双击 “运行-CosyVoice-300M” 文件启动程序,等待 WebUI 界面开启(第一次会出现无法打开的提醒,无需理会,等待代码加载完成刷新后 WebUI 会自动打开)。
③ 在 WebUI 界面可以看到 4 种推理模式,每种模式代表不同的功能:
  1. 预训练音色:使用程序内置 7 种音色,将文本转换为语音。

  2. 3s 极速复刻:通过音频克隆音色,用新音色将同语种文本转为语音。

  3. 跨语种复刻:通过音频克隆音色,然后用新音色将不同语种的文字转换为语音。

  4. 自然语言控制:通过在文本中插入情绪标签,为配音添加笑声、停顿等元素。

如果想用内置的预设音色生成音频,就选 “预训练音色” 模式。先在「输入合成文本」中输入待转换的文本,然后在「选择预训练音色」处选择一个音色,最后点击底部的「生成音频」,等待音频生成即可。
生成的音频会自动保存在根目录的“音频输出”文件夹内。
如果想克隆自己的声音再进行配音,选 “3s 极速复刻” 模式。

不仅适合自媒体和视频创作者,也可以用来处理日常办公中的相关需求。

今天的瓜就吃到这里,欢迎大家关注收藏支持一波~

技术发展到这种程度,怎么用,用在哪儿,确实值得咱们好好想想了。