你知道吗?人类每听 20 个词,其实就有一两个成为 “漏网之鱼”。而在一段五分钟的对话中,这一数字达到了 80。但对于我们而言,少听一两个词并不会影响我们对语意的理解,然而想象一下,计算机如果要完成这件事有多难?
去年,IBM 已经在语音识别领域走到了一个新的里程碑:系统的错误率降低为 6.9%;而雷锋网了解到,近日 IBM Watson 的语音识别系统将这个数字降到了 5.5%。
清华大学的邓志东教授此前在采访中向雷锋网表示,只有 AI 技术达到人类水平,它才有商业化的可能性。技术越来越接近人类水平也一直是人工智能的终极目标。而在语音识别领域,要在两人对话的语境中降低错误率,自然也是工业界努力的方向。包括谷歌、百度在内的不少公司也一直在追赶着人类语音识别的错误率,IBM 此前的最佳表现水平是 5.9%。不过人类的识别错误率一直是难以超越的 5.1%,目前还没有任何公司能够达到这一水平。
以国内顶尖的百度人工智能研究院在语音识别的进展为例,雷锋网整理了近年来的一些研究进展:
IBM 用于测试系统的样本难度很大,音频内容集中于像 “买车” 这样的日常话题。而这个被称为 “SWITCHBOARD” 的语料库,已经沿用了近 20 年,成为语音识别的 “试金石”。
IBM 研究院采用深度学习技术进行应用领域的拓展,结合了 LSTM 及三个 WaveNet 音频模型:
在合作伙伴 Appen 的协作下,IBM 重新对语音识别系统进行重新调整,前者为 IBM 提供语音及检索的技术服务支持。尽管 IBM 已经达成了 5.5% 的巨大突破,但官方表示,人类水平的 5.1% 才是它们努力前进的终极目标。
MILA 的 Yoshua Bengio 认可了 IBM 的这一工作,也表示语音识别领域的研究工作依然任重道远:
“尽管像语音识别或物体识别这样的 AI 任务过去几年取得了巨大的进展,技术也已经接近人类水平,但它们依然存在着科学上的挑战。诚然,标准数据并不总是能揭示真实数据的多样性和复杂度,比如不同的数据集基于不同的任务上会呈现不同的敏感性;而只把人类水平作为系统评估的标准,我觉得也有些苛刻,比如在语音识别领域参与测试的都是经过专业训练的听写员。IBM 持续在语音识别领域取得了极大进展,在将声学与语言模型应用于神经网络与深度学习上取得了非常大的飞跃。”
IBM 在实验过程中也发现,寻找衡量人类识别水平的标准方法实际上比想象中要复杂许多。除了 SWITCHBOARD,另一个名为 “CallHome” 的语料库提供了一组可被测试的语言数据,内容是基于家庭成员间未经预先定义的、更为口语化的对话。比起前者,CallHome 的数据难度更具挑战性。IBM 的系统用 CallHome 测试后呈现的错误率达到 10.3%,而 Appen 提供的人类测试错误率在 6.8%。
此外,即使是用 SWITCHBOARD 进行测试,在测试集中,有部分讲话者的声音也与训练数据是一致的,而 CallHome 则没有这样的重叠数据,这也一定程度造成了错误率的差异。因为这两个实验的前提条件不同,IBM 认为两者并不能相提并论。
IBM 认为它们在深度学习上取得的进步,能够最终克服目前存在的困难。哥伦比亚大学计算机科学教授兼主席 Julia Hirschberg 也对目前的语音识别技术挑战发表了评论:
“要实现达到人类水平的语音识别是一个持续的挑战,(要识别)人类自发的对话尤其困难。人类的表现难以定义,而人类在听懂他人语言的水平也参差不齐。如果我们要将机器识别与人类识别水平进行对比,我认为需要满足以下两个条件:测试者的识别水平,以及在同一演讲中不同人类的表现差异。IBM 最近在 SWITCHBOARD 和 CallHome 上的表现都非常惊艳,但我也对 IBM 在理解人类水平方面有了新的认知。这项科研成果与 IBM 目前的 ASR 进展同样令人欣喜,不过我们也深知在语音识别的研究上需要更加努力。”
IBM 表示,它们的这一最新进展能够与此前的语音识别技术相结合,比如去年 12 月推出的 Watson 语音转文字技术。IBM 将继续研究出能够适配声音、听觉和大脑交互三者的技术,基于研究进展发表可靠而准确的技术成果。
via IBM,雷锋网整理