千平 发自 凹非寺
量子位 出品 | 公众号 QbitAI
△ 《爱情麻辣烫》剧照,图片来自网络
“清晨,我推开房门,一个洁白的世界映入我眼帘……”
电影《爱情麻辣烫》里有段情节:高圆圆朗读课文的声音,还有日常对话的声音,被男生想方设法录了下来,最后剪辑成一句:“真的喜欢呀”。
这是20年前的老片子了。呐,就是这段:
还可以去B站看弹幕版:http://www.bilibili.com/video/av1867834/
现在,想让女神开口说一句甜言蜜语,已经不需要这么原始的方式了。
万年小学生柯南,有一个神奇的领结变声器,能够把柯南的声音,转换成任何人的声音。当然量子位今天不是要讲柯南,而是想说在人工智能的加持下,这个技术正在从科幻的动画片中,走入现实。
两个韩国AI研究员,最近就启动了一个研究项目。他们搭建的AI系统,能让“女神”模仿你说的话。也就是说,你想听什么,告诉“女神”,她就听你的话复述出来~
或可称为“技术宅”。
不信?看看下面这段Demo。男声说一句话,就能让女星凯特·温斯莱特(Kate Winslet)跟着“说”一句同样的话。
插播:温斯莱特,就是当年《泰坦尼克号》的女主角~
怎么做到的?
其实这背后的技术,名叫:非并行数据(Non-Parallel Data)语音转换。
两位作者是来自韩国Kakao Brain的AI研究员Dabi Ahn和Kyubyong Park。
交待一句,Kakao是韩国最大的移动社交公司,旗下产品KakaoTalk被称为韩国版微信。当然KakaoTalk比微信早上线约一年。现在腾讯也是Kakao的第二大股东。
当初之所以要搞语音风格迁移,他们的目标是想将某人的声音,转换成特定目对象的声音。也就是随便一个什么人,也能模仿出名人或者歌手的声音。
开头我们也看到了,他们开始选的模仿对象,是女演员温斯莱特。
为了实现这个目标,作者搭建了一个深度神经网络,并使用了温斯莱特两个多小时的音频素材作为数据集进行训练。
模型架构
这是一个“多对一”的语音转换系统。这项研究的主要意义在于,可以生成用目标对象声音说出的话语,而不需要平行数据的支持,只需要目标对象的声音波形。
从架构上来说,这个模型由两个模块组成:
Net1
这是一个音素分类器。
Net2
这是一个语音合成器,其中包含一个Net1作为子网。
过程:Net1->谱图->声波。
实现
设置
sample rate:16,000Hz
window length:25ms
hop length:5ms
程序
Net1和Net2应该按顺序进行训练。
训练的细节,可以参考两位作者已经在GitHub上公开的代码。地址在:
https://github.com/andabi/deep-voice-conversion
关于这个项目未来的发展,包括几个目标:
使用对抗性训练
产生更清晰和纯净的声音
跨语言工作
多对多语音转换系统
两位作者还在进行一个有趣的尝试,他们准备弃用大型的目标声音数据集,转而使用小型数据集,完成训练。换句话说,只要让AI听一分钟目标对象的声音,就能实现很棒的语音转换!
听起来还有点小激动,感觉离柯南的领结更近了~
OMT
柯南的领结变声器,网上已经有“玩具版”在出售了,按捺不住的同学,可以趁“双11”自行采购。
严正声明,这不是广告~
联想全国高校AI精英挑战赛,面向全国征集优秀AI相关领域技术与应用。此次将在全国8大赛区、260所高校开启项目收集和沟通评判,最终入围总决赛的8支参赛队伍,将获得联想创投投资。
量子位AI社群10群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。