专栏名称: AI报道
大数据时代,做数据的玩家!
51好读  ›  专栏  ›  AI报道

搜狗输入法“变声”新功能上线 你也能说出志玲姐姐的娃娃音

AI报道  · 公众号  · 大数据  · 2019-05-22 12:18

正文

微信聊天时发长语音“炸弹”常常遭嫌弃 ,“能打字就别发语音”逐渐成为当代网络社交礼仪的“潜规则”。但如果跟你聊天的是女神林志玲姐姐/老公吴彦祖呢?


日前,搜狗输入法上线了“变声”新功能,可以用户声音瞬间“变成”设定的明星、动漫等角色的声音,与心目中的男神女神对话之梦既成现实。



声音上演“百变大咖秀”


《2018年手机输入法语音输入市场研究报告》显示,搜狗输入法的市场份额占比高达70.9%,稳居首位且遥遥领先,其中日均高达5.34亿次的语音请求频次超过了讯飞与百度之和。语音输入日渐上升为主流输入方式,已经成为拉动输入法新增长的驱动力。有AI赋能的输入法,如何实现语音领域的差异化竞争,是包括搜狗在内的各品牌极为关注的。


5月21日,搜狗输入法上线了一个十分有趣的功能——“变声”。该功能由搜狗知音团队支持,可以将任意说话人的声音实时变换到指定说话人的音色。


简而言之,只要在语音输入中选择变声功能,输入你想说的话,再选择一个你喜爱的角色,就能把你的声音瞬间“变成”该角色的声音。


据悉, QQ变声功能不同,搜狗输入法除了大叔音、萝莉音、公子音、御姐音等基础声音,还覆盖横跨互联网行业、明星类、动漫类等类别的近二十种声音,角色设定从搜狗CEO王小川、星爷,再到蜡笔小新、小猪佩奇等不同身份、不同年龄、不同性别甚至是不同“次元”的角色,玩法灵活多变。


有专家指出,用户对一个声音的喜爱程度越高,对信息的接纳度就会越高,处理信息的效率也会大大增长。在输入法都打 AI 牌的年代,搜狗输入法上线的这款“变声功能”,是实施差异化打法的重要一环。



“变声”背后的核心技术


每一个人的音调、音色和语言节奏都不尽相同。如何将“千人千声”通过技术处理,变为同一种指定声音,同时还不丢失原说话人的语言习惯?这是技术难点。


搜狗知音从语音表征学习、语音合成等领域展开突破。


首先,搜狗知音团队使用表征学习技术,先学习到源端说话人语音的音色、内容和韵律三大特征。


其次,将学习到的源端说话人音色特征替换成目标说话人。


最后,基于搜狗知音的端到端语音合成技术,使用内容(源端)、韵律(源端)、音色(目标端)三类特征合成最终变声音频,达到各个方位的相似和自然。



在表征学习上,对目标音色语料进行声纹特征编码,提取说话人的音色embedding,再分别从输入音频中学习内容和韵律embedding;把“说话人归一化”模块对内容embedding进行统一规整,去除音色信息;通过对音频特征的压缩编码及特征抽取,学习表征韵律的风格特征;基于表征学习得到的特征,通过Attention和Decoder模块进行加权特征编码,并利用WaveRNN神经网络声码器恢复成波形,最终得到带有目标音色的音频。


在此前沿技术支持下,搜狗“变声”功能做到了以假乱真的高还原度,与原始角色相差无几,而且对用户本身的音色没有任何限制,可以“任意人变声到同一人”。此外,搜狗“变声”功能还打破了音色转换的局限,将用户输入的语音内容、语速、停顿、情感等可均转化为超高逼真度的指定角色声音。


搜狗的AI布局


目前,搜狗人工智能与传统业务的融合正在加深。搜狗在语音、图像、语义理解等领域的AI技术沉淀,推动了搜狗搜索、输入法等传统业务的增长。


中国专利文摘数据库中显示,截止至今年3月15日,搜狗共提交专利申请1444件,其中在人工智能领域提交的专利申请达403件。在AI技术方面,搜狗正持续加大对语音、计算机视觉、机器翻译、问答等多个领域的研发投入。


2012年,搜狗启动了AI与语音识别领域相关技术的研发,并以“专家型企业”的身份,在市场中占有一席之地。当前,搜狗的AI色彩更加浓厚,语音输入占比大幅提升。相关数据显示,到2019年3月底,搜狗手机输入法日均语音请求较一年前增长69%,峰值达6亿次。


除了语音输入以外,翻译也是搜狗AI战略中的重要一环。2018年获得国际顶级口语机器翻译评测竞赛IWSLT Baseline Model(基线模型)赛道冠军。2019年1月,又在对话型机器阅读理解挑战赛CoQA中击败微软、斯坦福大学等机构夺得第一。









请到「今天看啥」查看全文