数博会 | 2017在大数据的主场，李彦宏说 “数据不是根本”

雷峰网 · 公众号 · 科技媒体 · 2017-05-27 07:51

正文

200 多家明星企业，20 位著名投资机构顶级投资人共同参与！ 「新智造成长榜」 致力于发掘 AI 领域有 “ 三年十倍 ” 成长潜力的创新公司，下一波 AI 独角兽，会有你么？点击 阅读原文 了解详情！

雷锋网按： 5 月 26 日，李彦宏出席了贵阳数博会上由杨澜主持的人工智能高峰论坛，在论坛会场的门口，专门有一张桌子摆放着李彦宏的新书《智能时代》，同时也被提前放在了每一位观众和嘉宾的座椅上，作为礼物赠送。

此外，一同参与论坛的还有高通总裁德里克 · 阿博利、微软资深副总裁王永东、小 i 机器人创始人袁辉、戴尔大中华区总裁黄陈宏、IBM 中国研究院院长沈晓卫，领英中国总裁沈博阳，并分别发表了演讲。

李彦宏作为第一个演讲嘉宾上台，首先以 “为什么百度不是一家互联网公司” 讲起，将百度目前在人工智能领域的突破，详细交代一番。当讲到数据与算法哪个更重要的争论时，他在 “大数据” 的主场直言不讳地说：“数据不是根本”。

以下为李彦宏演讲全文，雷锋网在不改变原意的基础上做了调整：

大家好。感谢杨澜的介绍，我其实很早就看了杨澜拍的 “人工智能” 纪录片，我还蛮惊讶的是杨澜对人工智能有这么深入的了解，确实也花了很多工夫去采访全球各个地方人工智能方面的大咖。

我对这个领域非常热爱，以至于前两天我们在重庆开百度联盟峰会，当时我有一个演讲，讲到 “百度不应该被称作一个互联网公司，而应该被称作一个人工智能的公司”，昨天见到杨澜她也问我为什么这么说？我当时在重庆没有展开说，今天借这个机会正好讲一下。

我觉得互联网公司这个概念现在确实不是特别合适了，原因就是互联网的普及程度已经非常非常高了。比如说今天我们在这儿开会，这个酒店叫凯悦酒店，我们不会说凯悦酒店是一个电力公司，虽然我们在这个酒店不管干什么都要用到电，互联网也是一样的，任何一个公司今天在做它的业务的时候，不管是什么业务你都要用到互联网，所以这个时候再说我是一个互联网公司，我觉得意义已经不大了。

但是为什么说我们是一个人工智能公司呢？因为人工智能现在才刚刚开始进入到各个领域，很多技术还在飞速发展，很多应用还没有获得足够多的重视，所以我们现在更希望给大家讲人工智能带来了哪些新的可能性。

刚才的片子里面其实也有很多的争论，人工智能会不会是一个不归路，会不会随着技术的发展，给大家带来很多不可预知的后果？这里头我想，首先要讲一下我在这方面的判断——很多时候是因为大家不了解所以才恐惧，很多人认为说人工智能就是让计算机在模拟人脑的工作方法进行工作，其实这是一个很大的误解，而且这个误解是非常非常普遍的，几乎我见到的人当中有一半的人都觉得人工智能是仿生学，就是让计算机来模拟人的大脑神经元是怎么工作的，怎么作出判断的，怎么作出推演的，那我们也这么去做，其实这是错误的。

就拿深度神经网络，它只是一个比喻，就是和人脑的工作方式有类似之处，其实到今天为止我们的科学也不知道人脑是怎么工作的，我们只是知道人脑有神经元，尤其是最近几年算法的发展都是计算机科学在搞，从来没有借鉴人脑科学的成果，这是一个很大的误解。

过去有好多对人工智能分类，有弱人工智能，强人工智能，超人工智能。弱人工智能就是现在的情况，强人工智能就是电脑和人脑的能力是一样的，超人工智能是电脑要超越人脑，我认为要达到强人工智能，也就是说电脑达到人脑的能力还有很长很长的时间，我不知道多长时间，也许几十年，也许几百年，也许永远达不到，所以这方面我觉得大家不用太担心。

有时候我拿它和原子弹相比，原子弹在发明之前，人类隔个几十年就要有大的战争，原子弹发明之后可能所有人都觉得人类的末日就快要到了，但一直到今天都没有发生大的战争，也许因为原子弹的诞生人类再也不会有大的战争，因为这样的战争会毁灭掉所有的人，大家还是知道如何来控制的，所以人类对于人工智能技术的这种探索、开发、演进我也是非常乐观的认为它带来的影响主要是正面的影响，负面的影响完全是可控的。

过去这一年，虽然只是一年的时间，像去年我也来了贵阳数博会，虽然只有一年的时间，但是人工智能的技术却是发生了非常大的变化或者说进步非常明显。

语音识别过去这一年它的进步就很明显，今天我们要进行搜索的话，比如你和朋友进行聊天，他说了一些词或者说了什么事情你不是很清楚，你甚至不知道他说的那个词是哪几个字，没有关系你用语音去搜索，它会知道你说的是哪几个字，按照我们的评测，人类对于搜索词的听力、识别能力大概只有 82% 的正确率，机器达到 86%、87% 的正确率，过去这一年语音识别准确率已经有了飞速的提升。

图象识别其实也是一样的，今天大家不管是在公园里面或者是办公室里面看到什么植物，你想知道它叫什么，你拍张照片立刻就能识别出来这个植物的名字，过去你用文字描述不出来一棵阴性树长什么样子，图象很好的能被计算机所理解，准确率过去一年也有很大的提升。人脸识别过去一年准确率非常高，一年前大数据人脸识别场景是一对一的，比如金融场景里面你要开一个会，你把身份证递交给他，或者你提交你的身份证号码，让你远程拍一个照片来验证一下你是不是你，今天的人脸技术可以搞清楚你是谁，你不用事先告诉他说我叫李彦宏，他拍一下就能知道你是谁。所以现在变成 1 对 N 的识别，这是最近一年有比较大的进步。

今天百度不是刷工卡进入门禁，而是刷脸进入门禁，几万人的场景它立刻可以认出来你是谁。最近还有一个两个传播比较广的例子，就是寻人的例子，其中有一个是重庆的孩子，他在 5 岁左右的时候走失，后来可能被拐卖到了福建，经过了 27 年之后，我们再来比对他小时候的照片和他现在的照片，发现他确实是同一个人。当时在重庆走失的时候，记录他的生日和后来他身份证上登记的生日是不一样的，姓名是不一样的，走失时间也都是不一样的，但是用图象识别技术可以识别出来他就是这个人。

更接近的一个例子是有一对老夫妇带着他的智障孩子去北京治病结果孩子走丢了，因为是智障说不出来自己叫什么，说不出来家里在什么地方，老夫妇在北京待了八个月一直在找他的孩子，最近也是通过人脸识别技术顺利找到了这个孩子，找到的时候他走失八个月，胡子拉碴，一般靠人脸识别很难识别出来他是走失的孩子。

过去我们觉得搜索场景可以使用自然语言，未来其他电器都可以进行自然语言交流，过去人发明工具之后都要重新学习一遍如何使用工具，未来不需要使用工具。我们最近在电视里面植入了 DuerOS 操作系统，它就可以听懂人话，现在看浙江卫视说切换到江苏卫视它就给你切换了，你看电视你说这个演员叫什么，它马上告诉你这个演员叫刘涛。

当然，这些提升其实和今天的主题 “大数据” 也是非常有关系的，之所以技术进步这么快，它就是依赖过去积累的大量的有价值的数据，再加上计算资源越来越丰富，计算成本越来越低，所以过去我们认为不可能的技术现在变得可能了。

当然了，就是说数据和技术，或者和算法到底是什么关系？其实也有各种各样的讨论，前一段时间我跟我们的一个工程师在讨论的时候，他给我说了一句话，他说数据秒杀一切算法，就是你有了最好的数据的话，多好的算法都打不过人。是不是这样呢？我觉得这个数据确实重要，没有数据训练的话人工智能走不到今天的，但是数据是不是根本呢？数据不是根本，数据有点像新时代的能源，像燃料，那么推动时代进步的是技术，是创新，不是这些资源。

数博会 | 2017在大数据的主场，李彦宏说 “数据不是根本”

正文

请到「今天看啥」查看全文