学界 | 普林斯顿与Adobe提出音频编辑技术VoCo：可基于文本插入和替换语音

机器之心 · 公众号 · AI · 2017-05-28 23:45

正文

选自 kurzweilai

机器之心编译

参与：Jane W，吴攀

普林斯顿大学计算机科学家发明的技术可以像文本编辑软件对文字和 Adobe Photoshop 对图像一样对人的声音进行编辑。

正在研发中的「VoCo」软件使得添加或者替换语音中的词变得容易，仅仅通过编辑语音的文字转录（transcript）。新词将会自动合成到讲话中 —— 尽管这些词并没有出现在录音中。

该系统使用一个成熟的算法来学习和重建一段特定的声音。这将会使编辑播客和视频中的解说词更加容易，或者在将来，根据联合开发者 Adam Finkelstein 的想法（普林斯顿计算机科学教授），创建更自然的机器人拟人化声音。这将帮助因受伤或疾病失去声音的人借助机器系统重建更自然的声音。

VoCo 的早期版本于 2016 年 11 月发布。相关的研究论文在 Transactions on Graphics 的 7 月刊发表：http://gfx.cs.princeton.edu/pubs/Jin_2017_VTI/

运作机理（技术性描述）

VoCo 使得人们通过简单地替换计算机屏幕上的文字来编辑语音。该系统将新词插入到原来的语音中。

VoCo 的用户交互界面与其它语音编辑软件相似，如播客编辑软件 Audacity，它有一个声波形式的音频轨道与剪切、复制和粘贴的编辑工具。VoCo 通过音轨的文字转录放大声波，使得用户只需在转录中编辑即可替换或插入音频中没有的新词。当用户输入新词时，VoCo 同时更新音轨，通过连接解说中的语音片段来自动合成新词。

VoCo 基于优化算法，它搜索语音并选择最佳的音素（词的部分发音）组合来建立新词。为此，算法需要寻找单个音素与连接没有突然过渡的语音序列。它也需要使新词无缝衔接到原语句中。语句中不同位置的词在重音和语调的发音上也不相同，因此语境非常关键。

高级 VoCo 编辑器可以人工调整音高、振幅和片段时长。新手用户可以从预设的一组音高（底部）中选择，或者录一段自己的声音作为调整音高和时长（顶部）的参考。

关于语境，VoCo 在由转录自动合成的人工声音的音轨中寻找语句 —— 这听起来像机器发出的声音。这段语音在构建新词中起到参考作用。VoCo 在合成音轨中将这段声音与真实的人声相匹配 —— 此技术被称为「声音转换（voice conversion）」，这也是此项目的名称 VoCo 的来由。

学界 | 普林斯顿与Adobe提出音频编辑技术VoCo：可基于文本插入和替换语音

正文

请到「今天看啥」查看全文