英国查尔斯王子迎娶卡米拉时,读唇者成功破解了伊丽莎白二世与儿子的低语,让女王糟糕的婆媳关系浮现在大众眼前 ——
这可能是「唇语识别」第一次大面积走进大众的视野。
所谓的「唇语识别」,其实并不神秘。
早在古代,就有专门的唇语师存在。通过长期的训练,他们具备了「观察别人的嘴型,解读其表达语句」的能力。在现代社会里,一些听力障碍者们也会使用这种技巧与他人进行交谈,补充听力器官的不足。
但随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经做的比人类好了。
从技术路径上,
唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术
:
系统通过机器视觉从图像中连续识别出人脸,提取口型的连续变化特征,随即将连续变化的特征输入到识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句。
早在 2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机;2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率首次达到了 50% 以上。
在深度学习技术出现以前,对于唇语识别的研究主要从三个方面来进行,分别是嘴唇的定位与检测、唇语特征提取和唇动识别。
其中,嘴唇特征提取是唇语识别的关键,将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句,提取出的特征质量直接影响着唇语识别的准确性。
随着机器学习方法在语音识别领域里取得的巨大成功,尤其是隐马尔科夫模型(HMM)的应用,根据唇语识别研究和语音识别的相似性,出现了大量的 HMM 应用在唇语识别领域的研究成果。
在非特定开放口语测试中,目前的通用识别准确率已经在 70% 以上,而在金融风控、车载、智能家居等垂直场景下,已达到超过 90% 的准确率。
人类费尽心力开发研究人工智能、提高唇语识别的准确率,除了偷窥伊丽莎白二世和儿子的秘密外,还有很多更为广泛的用途:
比如应用于金融在线业务的生物识别、噪声环境下辅助语音识别、辅助听障人士交流、体育赛事暴力语言识别等多个领域,这些都是有着实际意义且颇为重要的应用场景。
自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。
但在人工智能大范围落地的今天,国内从业者扎堆涌入的,大多为语音识别,图像识别,人脸识别,机器翻译,无人驾驶,虚拟助手和个性化内容推荐等领域,相较这些聚光灯之下的落地场景,唇语识别相对冷僻。
但业界的常识是:
人工智能未来将会出现一个数万亿美元的巨大市场
,在面对具体乃至细碎的应用场景时,人工智能的细分程度,势必如百年前的电力那般触角庞杂。
而广袤的嫁接空间也意味着,
从真实应用场景出发,人工智能领域会出现不少蓝海市场,被国内巨头忽视的唇语识别就是其中之一。
观看下方漫画短片,让人工智能看懂唇语
▼
看完这些,想不想亲自搞一搞,这古老又神奇的「唇语识别」技术?
如果为你开放数百个常用词汇样本数据库,你能够用它做点什么?
来参加
「新网银行高校金融科技挑战赛」
,与全国高校 AI 算法高手们一较高下吧!
没有经验没关系,没做过图片数据和深度学习也没关系,只要对机器学习和人工智能感兴趣,就可以报名来一展身手,现场有专业的导师团队进行辅助指导!
高达
47 万的超高奖金池
,
30万高薪 offer
,
新网银行、小米科技共享人才池
机会。
优秀团队还可获得由团四川省委、四川省教育厅等主办单位颁发的获奖证书,此
省级证书
可在奖学金评定、保研升学等方面作为加分依据
(具体视各校、学院相关评定规则而定)
,证书还可提高你的求职、留学申请简历的含金量哦...
用代码改变世界,也用算法成就自己!
点击下方图片,即可了解本次大赛详情: