揭秘 | 百度研究院院长林元庆：解读《最强大脑》背后的技术

雷峰网 · 公众号 · 科技媒体 · 2017-04-13 22:14

正文

用 10 周时间，让你从 TensorFlow 基础入门，到搭建 CNN、自编码、RNN、GAN 等模型，并最终掌握开发的实战技能。4 月线上开课， www.mooc.ai 现已开放预约。

雷锋网按： 近日，《最强大脑》第四季落下帷幕，凭借在人脸识别和图像检索方面的出色表现，百度人工智能机器人小度荣获 “脑王” 称号。4 月 11 日，在百度 “第五届百度技术开放日” 的活动上，百度研究院院长、深度学习技术及应用国家工程实验室主任林元庆做了 “最强大脑背后的技术” 主题演讲，详细解释了小度在 “脑王” 对决中的台前幕后，涉及图像检索、声纹识别、人脸识别等方向。

随后林元庆还介绍了百度将在人工智能方面着重发力的方向及下一步的计划，雷锋网总结如下：

将图像识别技术做到极致
完善声纹识别技术
视频的分析：像素级别的图像分割
医疗图像分析
开放深度学习平台
产学研融合共建七大平台

林元庆提到：

从去年开始，Robin（李彦宏）一直在讲，作为目前最重要的战略，百度的下一幕是人工智能。现在百度在人工智能方面的投入在持续的增加，过去两年每年都投入了超过 100 亿，我们希望做好这个方面。

以下是林元庆的演讲实录，雷锋网做了不改变原意的整理：

今天就从最强大脑说起吧，也会给大家展示一些百度的其他技术，随后刘炀团队说的更系统、更全面一些，就是跟开发者生态有关的，百度有哪些技术在往外面开放的。

最强大脑背后的技术

让我们先来回顾一下与最强大脑的合作历程：之前节目组找过一些国内的公司，已经得到非常多的验证，后来听说百度也在做人脸识别才找过来。我就问节目组为什么不先找我们？他们表示以前根本就不知道百度也做人脸识别，这一度令我非常惊讶。

不过对于百度来说，这样的合作也是一个契机。一方面希望我们的技术能够让大家都知道，一方面参加《最强大脑》的初衷是希望我们的技术跟最强的人类去比，看看百度大脑到底在什么样的水平上。我们是抱着输赢不是那么重要的心态去比赛的。我们内部开玩笑说，如果输了的话，我们回去还得继续做研发，如果赢了的话，我们还得回去做研发，只是希望我们真正把技术到极限，能够更好的服务到人类。

在节目中我们做过的几个任务，这里简要的回顾一下。

第一个是图像检索的技术 。左边的图像是从右边 30 张照片的一张当中截取的一小块，需要找出到底是哪张图上的。就像以图搜图差不多，因为以图搜图的图像质量相对来说还是不错的，另外它是整张图片去搜，而最强大脑节目组希望看看现在我们的技术极限到底在哪，就将照片做了老化、破损处理，所以这就比现在百度的以图搜图在技术实现上还要难。

这背后我们也是使用了深度学习的方法，它能够很好的处理模糊、噪声、甚至是不同的图像角度。现在我们能够索引百亿级别的照片，可以在 1s 之内返回结果。这个技术也就几家有自主知识产权的搜索引擎在大规模的做。

刚才提到的是最新研发的技术，应该是接下来几个月吧，我们会用到新的引擎里面，到时现有的服务会有一个非常大的升级。

第二个是声纹识别 。它和语音识别不太一样。语音识别是要识别出说了什么，而声纹识别是要识别出谁在说话，说话的内容不同会对声纹识别准确性有非常大的干扰。咱们人类对声音的噪声不是很敏感，做声音处理专业的人都知道，声音是信噪比非常差的，因此声纹识别其实是很有挑战性的。

现在百度非常重视基于 AI 的交互，比如现在我们有鼠标键盘，手机上的触摸屏等交互方式，我们更希望下一代是基于语音图像或者 AI 非常自然的交互，特别是语音的，你们如果有关注百度，也知道百度投入非常大的力量，在做 Duer OS，我们内部把它叫 OS，因为像这些基于语音质量交互的情况，语音已经是一个存在的信号，如果我们能利用那个信号的话，能够识别说话的人是谁，这是非常有用的。 因此在这块我们后续也在继续加大投入，技术上已经取得了一些突破，最后我们希望把声纹做的跟人脸识别那样高的精度。

第三个是人脸识别 。在最强大脑节目中一个是跨年龄的人脸识别，一个是跨代的人脸识别。人脸识别是由检测和识别两个技术组成。检测是给出一张照片我们能检测出人在哪里，同时还能找出像鼻子眼睛嘴巴这样的关键点在哪里。这个我们可以很自信的说没有人能做的比我们更好。

很多时候我们所说的识别精度都是针对测试集说的，2015 年年底的时候，我们搞了一个比较大的数据集，把一些相对来说简单一些的图片去掉，用了我们当时所能的达到最好的算法，在这个测试集上仅能做到 92% 的准确率。后来在 2016 年的百度云计算大会前，我们对它的数据和算法都进行了很大的迭代，错误率从 8% 降低到了 2.3%，那已经是非常大的提高了。现在的错误率已经低于 1% 了。

百度在 AI 领域的布局

百度现在在很多人工智能领域同时在发力，百度人工智能的核心就是百度大脑，它有四大类的应用：

语音
图像
自然语言处理
用户画像

下面这张图可以更加形象的说明百度在人工智能上的布局，中间这层人工智能基础技术就类似于上面说到的百度大脑，它们都是基于下面机器学习的平台做的研发。

揭秘 | 百度研究院院长林元庆：解读《最强大脑》背后的技术

正文

最强大脑背后的技术

百度在 AI 领域的布局

请到「今天看啥」查看全文