专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Score-based ... ·  6 天前  
黄建同学  ·  #2024广州车展上最神秘的车#不得不承认, ... ·  1 周前  
爱可可-爱生活  ·  [LG]《Cut Your Losses ... ·  1 周前  
爱可可-爱生活  ·  [LG]《NeuralDEM - ... ·  1 周前  
宝玉xp  ·  👍//@赏味不足://@王座法庭鏟屎官:// ... ·  1 周前  
51好读  ›  专栏  ›  量子位

AI技术宅:女神说什么,听我的!

量子位  · 公众号  · AI  · 2017-11-02 14:24

正文

千平 发自 凹非寺
量子位 出品 | 公众号 QbitAI

 《爱情麻辣烫》剧照,图片来自网络

“清晨,我推开房门,一个洁白的世界映入我眼帘……”

电影《爱情麻辣烫》里有段情节:高圆圆朗读课文的声音,还有日常对话的声音,被男生想方设法录了下来,最后剪辑成一句:“真的喜欢呀”。

这是20年前的老片子了。呐,就是这段:

还可以去B站看弹幕版:http://www.bilibili.com/video/av1867834/

现在,想让女神开口说一句甜言蜜语,已经不需要这么原始的方式了。

万年小学生柯南,有一个神奇的领结变声器,能够把柯南的声音,转换成任何人的声音。当然量子位今天不是要讲柯南,而是想说在人工智能的加持下,这个技术正在从科幻的动画片中,走入现实。

两个韩国AI研究员,最近就启动了一个研究项目。他们搭建的AI系统,能让“女神”模仿你说的话。也就是说,你想听什么,告诉“女神”,她就听你的话复述出来~

或可称为“技术宅”。

不信?看看下面这段Demo。男声说一句话,就能让女星凯特·温斯莱特(Kate Winslet)跟着“说”一句同样的话。

插播:温斯莱特,就是当年《泰坦尼克号》的女主角~

怎么做到的?

其实这背后的技术,名叫:非并行数据(Non-Parallel Data)语音转换。

两位作者是来自韩国Kakao Brain的AI研究员Dabi Ahn和Kyubyong Park。

交待一句,Kakao是韩国最大的移动社交公司,旗下产品KakaoTalk被称为韩国版微信。当然KakaoTalk比微信早上线约一年。现在腾讯也是Kakao的第二大股东。

当初之所以要搞语音风格迁移,他们的目标是想将某人的声音,转换成特定目对象的声音。也就是随便一个什么人,也能模仿出名人或者歌手的声音。

开头我们也看到了,他们开始选的模仿对象,是女演员温斯莱特。

为了实现这个目标,作者搭建了一个深度神经网络,并使用了温斯莱特两个多小时的音频素材作为数据集进行训练。

模型架构

这是一个“多对一”的语音转换系统。这项研究的主要意义在于,可以生成用目标对象声音说出的话语,而不需要平行数据的支持,只需要目标对象的声音波形。

从架构上来说,这个模型由两个模块组成:

Net1

这是一个音素分类器。

  • 过程:声波->谱图->mfccs->音素区。

  • Net1会将每个时间步长上的声谱图分类为音素,以对数幅度的声谱图为输入,以对应的音素为输出。

  • Net1的目标函数是交叉熵损失。

  • 所用的数据集是TIMIT,。

  • 测试精度超过70%。音素与讲话者无关,而波形与讲话者有关。

Net2

这是一个语音合成器,其中包含一个Net1作为子网。

过程:Net1->谱图->声波。

  • 这里使用了Tacotron中提到的CBHG模块,即:1-D卷积组+高速网络+双向GRU。CBHG对于顺序数据的特征捕捉很有用。
    Tacotron的论文:
    https://arxiv.org/abs/1703.10135

  • 损失是输入和输出之间的重建误差。

  • 从谱图恢复时使用了Griffin-Lim重建。

  • 这里用了两个数据集:

    • Target1(匿名女性):Arctic数据集。地址在此:http://www.festvox.org/cmu_arctic/

    • Target2(温斯莱特):这是一个非公开数据集,包含超过两个小时温斯莱特的读书音频。

实现

设置

  • sample rate:16,000Hz

  • window length:25ms

  • hop length:5ms

程序

Net1和Net2应该按顺序进行训练。

训练的细节,可以参考两位作者已经在GitHub上公开的代码。地址在:
https://github.com/andabi/deep-voice-conversion

关于这个项目未来的发展,包括几个目标:

  • 使用对抗性训练

  • 产生更清晰和纯净的声音

  • 跨语言工作

  • 多对多语音转换系统

两位作者还在进行一个有趣的尝试,他们准备弃用大型的目标声音数据集,转而使用小型数据集,完成训练。换句话说,只要让AI听一分钟目标对象的声音,就能实现很棒的语音转换!

听起来还有点小激动,感觉离柯南的领结更近了~

OMT

柯南的领结变声器,网上已经有“玩具版”在出售了,按捺不住的同学,可以趁“双11”自行采购。

严正声明,这不是广告~

活动报名

点击图片阅读原文
即可报名参赛和获取更多详情


联想全国高校AI精英挑战赛,面向全国征集优秀AI相关领域技术与应用。此次将在全国8大赛区、260所高校开启项目收集和沟通评判,最终入围总决赛的8支参赛队伍,将获得联想创投投资。

加入社群

量子位AI社群10群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态