监督训练结束时,深度神经网络分类器在分离语音和噪声方面明显优于以前的方法。事实上,在依靠单声道技术的所有算法中,这种算法在帮助听障者理解带噪语音方面首次取得重大进步。
接下来我们进行了人类实测。我们请12位听障者和12位听觉正常者通过耳机听取嘈杂环境中的句子样本。样本成对出现:首先是语音和噪声同时发生,然后是用我们基于深度神经网络打造的程序处理同一个样本。句子中有两种噪音,一种是持续的嗡嗡声,另一种是很多人同时说话的叽叽喳喳声。
在经过程序处理后,两组实验对象的听力理解能力均出现大幅提升。在没有经过程序处理的情况下,听力受损者在嗡嗡声的环境中只能懂36%的单词,经过程序处理后,这个比例提高到86%。在叽叽喳喳的嘈杂环境中,他们一开始只能理解29%的单词,而经过程序处理后,能理解的单词提升到84%。
对于听力正常者,在第一种噪音环境中,他们的理解力从37%提高到80%;第二种环境中,这个数字从42%提高到78%。
在我们的实验中,最引人注目的一个结果是,听力受损者在程序的帮助下,理解能力甚至可以超过听力正常者。凭借这些结果,可以自豪地说,我们这套基于深度神经网络打造的程序,是迄今为止最接近于解决鸡尾酒会问题的一种技术。
当然,该程序的能力也存在局限性。例如,在我们的样本中,掩盖语音的噪音类型非常类似于程序在训练过程中分类的噪音类型。想要在现实生活中发挥作用,程序需要迅速学会滤除很多的噪音类型,包括不同于它已经碰到过的类型。例如,通风系统的嘶嘶声不同于冰箱压缩机的嗡嗡声。另外,我们使用的带噪样本中,并没有将回声包括进去,而回声会使鸡尾酒会问题变得更加复杂。
在得到那些早期研究结果后,我们又购买了一个为电影制片人设计的声效数据库,用其中的1万种噪音,进一步训练我们的程序。2016年,我们发现,重新训练后的程序可以对抗全新的噪音,显著改善理解能力。目前,我们正在更多的环境中运行该程序,让更多的听觉受损者测试它。
最终,我们相信该程序可以在性能强大的计算机上进行训练,直接嵌入助听器或者通过蓝牙等无线连接方式与智能手机协同工作,向耳机提供经过处理的实时信号。而且制造商还可以通过发布加强版的软件补丁来不断提高助听器的性能。
有了这种方法,鸡尾酒会问题不再像几年前那样令人怯步。通过在更多的噪音环境中进行更广泛的训练,我们和其他人现在开发的软件有望最终克服这一难题。这个过程就像小孩学习分离语音和噪声的过程,也就是不断地暴露于各种各样的语音和噪声环境中。通过更多的练习,这种方法只会越来越好。这就是其魅力所在。
翻译:于波
来源:IEEE Spectrum
许田 | 为什么乔布斯临终时叫儿子去学生物技术?
胡慎之 | 为什么那么多人爱看《三生三世十里桃花》?
谢幸 | 我能不能再造一个自己?
马晨骋 | 舞台去哪了?
史航 | 谁能把旧的给创造出来?
伏彩瑞 | 中国教育散不去的霾
点击标题 查看往期回顾