当我们在一个喧闹场所谈话时,尽管周边的噪音很大,我们还是可以听清朋友们说的内容,而当远处突然有人叫我们的名字时,我们也会马上注意到。这就是所谓的“鸡尾酒效应”——我们可以不费劲地从嘈杂的环境中分离出其中一个人的发言。
但是,当人们希望通过某种技术将目标人物的发言与其他人的发言分开时,结果往往和预期相差甚远,就像在一辆后座上都是小孩的轿车上使用免提电话一样。
不过,日本三菱电机日前表示,他们已成功解决这个问题。5 月 24 日,他们在东京举行的年度 R&D 开放日的公开演示会上展示了最新的语音分离技术。
在第一项演示中,两个人对着同一个麦克风演讲不同的内容。语音分离技术实时分离了两个句子(约 3 秒),然后以极高的准确性重新连续播放。但是,这次演示是在封闭的房间里进行的,而且所有观众都要求保持沉默,不能大声交谈。
第二项演示使用三个扬声器的模拟混合。不出所料,分离结果显然不尽人意。
三菱电机宣称,在低噪声环境和说话者都以相同音量交流这两个场景下,这项技术的准确度可达 90% 和 80%。而对于传统方法,即两个说话者使用单个麦克风,准确度只有约 50%。
这项语音分离技术采用了三菱自己的深层聚类技术,是一种基于人工智能的深度学习方法。
这个系统已经学会了如何检查和分离混合语音数,可以基于不同说话者的音调、音高、语调等对语音信号或元素进行编码,并对编码后的信号优化,使属于同一说话者的不同语音成份具有相似的编码,而属于另一说话者的语音成份具有不同的编码。聚类算法根据它们的相似性将编码分组,然后通过合成分离的语音成份来重构每个人的语音。
与分离语音信号和噪音不同,分离不同说话者的语音是非常困难的,因为它们有太多相似的特点。马萨诸塞州剑桥三菱电机研究实验室副主任 Anthony Vetro 说,“你可以在某种程度上做到,使用更精密的两个或更多麦克风来对说话者进行定位,但是只用一个麦克风的话的确很困难。”
他补充道,这个系统的优点在于在使用之前不用对说话者进行特殊的训练。同样地,它也不受语言本身的影响。
位于东京附近的三菱电机自然语言处理技术集团高级经理 Yohei Okato 表示,三菱电机将利用这项技术来提高语音通信的质量和自动语音识别(ASR)应用的准确性,例如使用ASR控制汽车和电梯,以及家里的小家电和小工具。
-End-
编辑:王凯立
参考网站:http://spectrum.ieee.org/tech-talk/computing/software/mitsubishi-electrics-ai-can-follow-and-separate-simultaneous-speech