专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
凤凰网科技  ·  华为重拳破局“招聘黑产”:谁在分食6500万 ... ·  15 小时前  
创业邦  ·  日本TV,被中国打得一败涂地 ·  16 小时前  
51好读  ›  专栏  ›  雷峰网

揭秘 | 百度研究院院长林元庆:解读《最强大脑》背后的技术

雷峰网  · 公众号  · 科技媒体  · 2017-04-13 22:14

正文

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课, www.mooc.ai 现已开放预约。

雷锋网按: 近日,《最强大脑》第四季落下帷幕,凭借在人脸识别和图像检索方面的出色表现,百度人工智能机器人小度荣获 “脑王” 称号。4 月 11 日,在百度 “第五届百度技术开放日” 的活动上,百度研究院院长、深度学习技术及应用国家工程实验室主任林元庆做了 “最强大脑背后的技术” 主题演讲,详细解释了小度在 “脑王” 对决中的台前幕后,涉及图像检索、声纹识别、人脸识别等方向。

随后林元庆还介绍了百度将在 人工智能 方面着重发力的方向及下一步的计划,雷锋网总结如下:

  • 将图像识别技术做到极致

  • 完善声纹识别技术

  • 视频的分析:像素级别的图像分割

  • 医疗图像分析

  • 开放深度学习平台

  • 产学研融合共建七大平台

林元庆提到:

从去年开始,Robin(李彦宏)一直在讲,作为目前最重要的战略,百度的下一幕是人工智能。现在百度在人工智能方面的投入在持续的增加,过去两年每年都投入了超过 100 亿,我们希望做好这个方面。

以下是林元庆的演讲实录,雷锋网做了不改变原意的整理:

今天就从最强大脑说起吧,也会给大家展示一些百度的其他技术,随后刘炀团队说的更系统、更全面一些,就是跟开发者生态有关的,百度有哪些技术在往外面开放的。

最强大脑背后的技术

让我们先来回顾一下与最强大脑的合作历程:之前节目组找过一些国内的公司,已经得到非常多的验证,后来听说百度也在做人脸识别才找过来。我就问节目组为什么不先找我们?他们表示以前根本就不知道百度也做人脸识别,这一度令我非常惊讶。

不过对于百度来说,这样的合作也是一个契机。一方面希望我们的技术能够让大家都知道,一方面参加《最强大脑》的初衷是希望我们的技术跟最强的人类去比,看看百度大脑到底在什么样的水平上。我们是抱着输赢不是那么重要的心态去比赛的。我们内部开玩笑说,如果输了的话,我们回去还得继续做研发,如果赢了的话,我们还得回去做研发,只是希望我们真正把技术到极限,能够更好的服务到人类。

在节目中我们做过的几个任务,这里简要的回顾一下。

第一个是图像检索的技术 。左边的图像是从右边 30 张照片的一张当中截取的一小块,需要找出到底是哪张图上的。就像以图搜图差不多,因为以图搜图的图像质量相对来说还是不错的,另外它是整张图片去搜,而最强大脑节目组希望看看现在我们的技术极限到底在哪,就将照片做了老化、破损处理,所以这就比现在百度的以图搜图在技术实现上还要难。

这背后我们也是使用了深度学习的方法,它能够很好的处理模糊、噪声、甚至是不同的图像角度。现在我们能够索引百亿级别的照片,可以在 1s 之内返回结果。这个技术也就几家有自主知识产权的搜索引擎在大规模的做。

刚才提到的是最新研发的技术,应该是接下来几个月吧,我们会用到新的引擎里面,到时现有的服务会有一个非常大的升级。

第二个是声纹识别 。它和语音识别不太一样。语音识别是要识别出说了什么,而声纹识别是要识别出谁在说话,说话的内容不同会对声纹识别准确性有非常大的干扰。咱们人类对声音的噪声不是很敏感,做声音处理专业的人都知道,声音是信噪比非常差的,因此声纹识别其实是很有挑战性的。

现在百度非常重视基于 AI 的交互,比如现在我们有鼠标键盘,手机上的触摸屏等交互方式,我们更希望下一代是基于语音图像或者 AI 非常自然的交互,特别是语音的,你们如果有关注百度,也知道百度投入非常大的力量,在做 Duer OS,我们内部把它叫 OS,因为像这些基于语音质量交互的情况,语音已经是一个存在的信号,如果我们能利用那个信号的话,能够识别说话的人是谁,这是非常有用的。 因此在这块我们后续也在继续加大投入,技术上已经取得了一些突破,最后我们希望把声纹做的跟人脸识别那样高的精度。

第三个是人脸识别 。在最强大脑节目中一个是跨年龄的人脸识别,一个是跨代的人脸识别。人脸识别是由检测和识别两个技术组成。检测是给出一张照片我们能检测出人在哪里,同时还能找出像鼻子眼睛嘴巴这样的关键点在哪里。这个我们可以很自信的说没有人能做的比我们更好。

很多时候我们所说的识别精度都是针对测试集说的,2015 年年底的时候,我们搞了一个比较大的数据集,把一些相对来说简单一些的图片去掉,用了我们当时所能的达到最好的算法,在这个测试集上仅能做到 92% 的准确率。后来在 2016 年的百度 云计算 大会前,我们对它的数据和算法都进行了很大的迭代,错误率从 8% 降低到了 2.3%,那已经是非常大的提高了。现在的错误率已经低于 1% 了。

百度在 AI 领域的布局

百度现在在很多人工 智能 领域同时在发力,百度人工智能的核心就是百度大脑,它有四大类的应用:

  • 语音

  • 图像

  • 自然语言处理

  • 用户画像

下面这张图可以更加形象的说明百度在人工智能上的布局,中间这层人工智能基础技术就类似于上面说到的百度大脑,它们都是基于下面机器学习的平台做的研发。







请到「今天看啥」查看全文