专栏名称: 优秀网页设计

优设网官方帐号，国内知名设计师学习平台。和大家一起来利用碎片时间学习设计和PS技术吧！

目录

相关文章推荐

始室 · 首发 . Simon de Burbure ... · 昨天

始室 · 首发 . Simon de Burbure ... · 昨天

庞门正道 · 我不想做LOW狗了 · 3 天前

设计诗designer · DDDD Creative ... · 4 天前

庞门正道 · 有技术含量的母爱早餐！ · 1 周前

字体设计 · 一百种标题排版拿去抄（四） · 1 周前

51好读 › 专栏 › 优秀网页设计

“假雷军” AI 语音全网下架，背后的技术把我看呆了...

优秀网页设计 · 公众号 · 设计 · 2024-10-14 13:01

正文

说起来，前阵子短视频平台上突然冒出来一堆"雷军"的视频，说话的腔调、语气，简直就是雷军本尊附体！

要不是内容实在太离谱，我差点就信以为真了。

视频里的"雷军"对着堵车、假期这些咱们都深有体会的事儿，一顿猛喷。更绝的是，这位"雷军"还时不时爆粗口，威胁要让小米手机自爆、用小米汽车撞人...

这些视频一下子就火了，相关话题的浏览量都已经破亿！

而现在小米法务部终于出手了，相关视频也开始被全网下架。现在搜"雷军AI配音"，那些低俗的、造谣的内容基本都看不到了。

那么像这样的声音克隆到底是怎么实现的呢？

背后又是它？

这次的恶搞视频都是一些网友用AI伪造了雷军的声音，自己编段子整的活儿。

雷军本人显然也知道了这茬儿。在小米SU7锁单的微博评论区，有网友提到这事儿。

雷军就回了三个表情包。

雷军一向挺亲民的，连自己的 meme 都能玩得很溜。

但这次嘛，显然有点过了，小米法务部估计都快忙疯了。

有些视频不仅用了雷军的真人照片，还言之凿凿地说"我是雷军"。这不明摆着侵犯人家名誉权和肖像权吗？

这种事儿也不是头一回了。今年4月，咱们国内就判了第一起"AI声音侵权案"。法院明确说了，只要AI生成的声音能让普通人听出来是谁，那就算侵权。

国内首例AI声音侵权案

按这标准，这次的"雷军骂街"视频，妥妥的侵权没跑了。

上次不是还写了篇文章给大家介绍"三只羊录音门"吗？那段录音听起来跟真的似的，结果官方调查后发现，全是AI制作的，嫌疑人使用了“Reecho睿声”来伪造卢某某录音。

意外的是，通过下载、比对“雷军”AI骂人配音的隐形声纹水印，网友们发现这次雷军恶搞音频大部分又是使用“Reecho睿声”平台制作生成的。

虽然被大家调侃这是负面营销，但也侧面说明咱们国产AI技术是越来越强了。

AI的"调酒"过程

我猜你们肯定好奇，语音克隆背后到底是什么黑科技？

简单来说，就是用一大堆语音数据和深度学习算法，让AI学会模仿某个人的声音。

首先，得给AI"喂"点东西。就像我们学习新技能需要大量训练一样，AI也需要海量的声音样本。

这些样本可以是目标声音的各种录音，比如说话、唱歌，甚至是咳嗽声（没错，连咳嗽都要学）。收集到这些音频后，还得给它们"洗个澡"——去掉背景噪音，调整音量，转换成数字信号，让它们更容易被AI"消化"。

接下来，AI就开始仔细分析这些声音的特点。音高、音色、语调，甚至是说话的节奏，都被它一一记录下来。这种特征提取的过程，就好像在解构声音的DNA。

现在到了最神奇的部分：声音合成。

想象一下，有两个AI在玩游戏。一个负责"描绘"声音，另一个负责判断这个声音是不是真的。它们不断地重复这个过程，直到复制出来的声音能骗过判断的那个。

这就是所谓的生成对抗网络（GAN）,听起来很复杂，其实就是AI在不断地自我完善，直到它能完美复制出目标声音。

最后，AI还得把这些数字信号转译。这个过程通过一个叫做"声码器"的工具完成，它能把AI生成的声音信号转换成我们耳朵能听懂的声音。

厉害的是，只要有足够的数据，AI不光能模仿你说话的音色，连说话的语气、节奏都能学个八九不离十。

想想看，以后做APP界面，我们设计的语音提示是不是可以随心所欲地换声音了？

又或者，你在做一个交互设计，需要大量的语音反馈，现在可以轻松创造出独一无二的、符合品牌调性的声音。

做游戏的时候，NPC的配音是不是也能更丰富多样？甚至连做展陈设计，都可以让历史名人"复活"和观众对话！

干货时间

这技术要是用在正经地方还好，可要是被人利用来造谣生事，确实太麻烦了。咱们不能只当看客，了解下新技术也能少踩点坑。

今天的干货时间，就给大家介绍花生老师最近发现的一款 AI 配音神器 CosyVoice，不仅支持文本转语音，还支持快速音色克隆，我们可以克隆自己的声音进行音色配置。

主要 CosyVoice 本身是一款免费开源工具，可以部署到本地使用。大家可以借此实际体验一下AI语音克隆技术的魔力。

模型网站：https://github.com/FunAudioLLM/CosyVoice

支持中文（含粤语）、英语、日语、韩语 4 种语言，配音效果非常自然稳定、还支持超长文本、情感控制、停顿等功能，很适合对配音有强需求的小伙伴（电脑显存需要 4G 以上）。

下面简单介绍一下 windows 一键安装包的基础用法：

① 下载并解压安装包，记得安装路径中文、特殊字符和空格，否则可能会启动失败；

② 双击运行 “GPU 诊断” 和 “查看 CUDA 版本” 文件，确保已经安装 CUDA，并且 GPU 可用。然后双击 “运行-CosyVoice-300M” 文件启动程序，等待 WebUI 界面开启（第一次会出现无法打开的提醒，无需理会，等待代码加载完成刷新后 WebUI 会自动打开）。

③ 在 WebUI 界面可以看到 4 种推理模式，每种模式代表不同的功能：

预训练音色：使用程序内置 7 种音色，将文本转换为语音。
3s 极速复刻：通过音频克隆音色，用新音色将同语种文本转为语音。
跨语种复刻：通过音频克隆音色，然后用新音色将不同语种的文字转换为语音。
自然语言控制：通过在文本中插入情绪标签，为配音添加笑声、停顿等元素。

如果想用内置的预设音色生成音频，就选 “预训练音色” 模式。先在「输入合成文本」中输入待转换的文本，然后在「选择预训练音色」处选择一个音色，最后点击底部的「生成音频」，等待音频生成即可。

生成的音频会自动保存在根目录的“音频输出”文件夹内。

如果想克隆自己的声音再进行配音，选 “3s 极速复刻” 模式。

不仅适合自媒体和视频创作者，也可以用来处理日常办公中的相关需求。

今天的瓜就吃到这里，欢迎大家关注收藏支持一波~

技术发展到这种程度，怎么用，用在哪儿，确实值得咱们好好想想了。

推荐文章

始室 · 首发 . Simon de Burbure 沉浸的简约生活

昨天

始室 · 首发 . Simon de Burbure 沉浸的简约生活

昨天

庞门正道 · 我不想做LOW狗了

3 天前

设计诗designer · DDDD Creative Studio丨激发五感的治愈空间

4 天前

庞门正道 · 有技术含量的母爱早餐！

1 周前

字体设计 · 一百种标题排版拿去抄（四）

1 周前

冷兔 · 这就有点尴尬了！笑点瞬间绷不住了！

7 年前

哈尔滨日报 · 哈尔滨又要多个浪漫庄园：三生三世三千亩玫瑰！就离薰衣草庄园不远~~

7 年前

知音 · 血溅“医学伦理”：咋办？私自捐精生的儿子病危（下）

7 年前

晶彩石光 · 男孩被炸伤缝38针，只因从冰箱拿了这个！这些东西千万别再放冰箱了

7 年前

Python开发者 · Flask 应用中的 URL 处理

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!