搜狗CEO王小川《人工智能照进现实》演讲全文如下:
极客公园的朋友们,大家好!
今天给大家分享人工智能,其实这个话题已经谈了一年多。不知道大家算过没有,李飞飞教授给大家做了一个89页的PPT,讲了Google在研究界做了多少的工作。
去年我在极客公园的活动上,其实讲的是一个子标题:子标题:人工智能照进现实讲的是我们怎么把这么多学术科研成果,最后变成实实在在能用到的产品。
在一年的时间里面,我们学到了太多的词汇,包括AlphaGo、语音识别等等,里面有很多学术的概念。还有我们曾经叫做对偶网络、对抗生存网络等各种各样的词汇。
所以我在想,用什么样的脉络去梳理,从研究到最后每个消费者,包括人类,能够面对人工智能对我们的冲击。
这里我们提个简单的模型,这个模型不仅是对于人工智能或者计算机适用,而是我们怎么把技术变成产品,再怎么变成一个商业价值,或者全人类共享的价值,要从价值、前沿技术、用户规模三个维度来看。
我们经常收到简历,现在有个词特别高大上“全栈工程师”。就是,不仅能写前台、还写后台,我自己对自己的理解,是需要做一个“全栈的CEO”。不仅要从研究上理解、去工作,同时能够理解背后的技术,怎么做产品,以及把它变成商业价值,或者是全人类的共同价值。
在这里面,如果你一开始没有技术含量,我们知道是很难变成产品的,但是有技术不一定是有产品,不一定有用户的规模。有技术、有用户规模,也不一定背后就能带来很大的商业价值,或者是对世界的贡献。
这里面我简单做了个表,我用一个框架把人工智能现有的技术、产品给放上去。
在去年3月份,AlphaGo是一个黑科技,今天我们看到在技术层面它已经实现了,并且已经面世,但是它还没有用户规模和商业价值。AlphaGo包括图像描述,刚才李飞飞教授讲的图像描述,其实还没法形成用户规模。
互联网从业人员作为好奇者,能看到大量的很令人惊艳的科技,但是这些技术其实没让你用到,还没有走到第二步去。所以,今天在图像描述、图像的合成里,不知道大家注意到没有,像张鹏和李飞飞,都有一个风格迁移的技术,我把它称为图像合成的子方向。让大家感到很酷,但是这种产品,其实还没法形成用户的规模。
再往下,有些技术不仅是黑科技,还开始变成用户规模,像语音的识别、像人脸识别。但这两个技术在我心中,它不像机器可以做判断、做选择,最后能形成商业的价值,或者给用户带来实际的变化,影响还是不够大的。
能够看到什么东西影响大呢?我们作为一个好奇的群体,我们想,能够在无人驾驶领域,这是大家觉得这既觉得很黑科技,而且未来有很大的用户规模,并且有很大的商业价值,或者是对世界的改变。但对不起,还没有面世。
从这个维度来讲,我们会发现,今天人工智能变成所有人去追捧的一个热潮。但是,并没有找到一个既已经面世,但又同时有巨大用户规模,还有巨大改变世界能力的这样的技术。
这是我们觉得,应该在最近两三年里面,应该发生的事情。
在这个过程很难:我们能够做出技术,并且让这个技术保持领先,就是一个困难的事情。去年我分享过,有些技术刚刚回国的时候是领先的,我们开始做公司、把它变成产品,还没等到变成产品或者商业化,这个技术就开始落后了,发展特别快。因此,保持技术领先,这是一个难题。更难的是把一个技术变成产品,让很多的用户受益。更更难的是,这个技术不仅有它的用户规模,还能够去改变世界,有很大的商业上的意义和对世界的冲击。
今天我给大家分享的是,我们在做的一些尝试。
之前我的PPT这页标题叫做“AI正在过河”,但是AI是很泛的概念,在中间的子集就是以深度学习为代表的,能够更好的从答案里面,寻找规律的这样一种技术,所以现在的标题家叫做“深度学习正在过河”。
搜狗,我们的想法,第一件事情,是我们有这种技术,而且我们能够把这种技术用到搜狗的产品里面去。很多创业公司试图去构造新产品,而我们一个大的逻辑,是已经让千家万户用到产品,然后去做升级。
因此,其实深度学习已经通过搜狗武装到了牙齿,我们的主产品里面有大量的使用。比如说输入法,里面会用到语音识别和图像识别。语音识别,我们现在一天用户规模上已经做到了2亿次的识别量,。同时,一天识别生产的语音数据量,大概能到18万小时,这是巨大的语料规模。我们大概用了400台GPU服务器,来支撑这个规模。另外打开输入法,你看到我们里面有OCR的能力,你可以用手写,或者是拍一张照片里面的文字,也能做到。所以,其实我们在做一个渐进的事情。
在搜索里面也是,我昨天在硅谷,还跟Google他们的核心在沟通,Google还讲到,用深度学习,能够对于用户输入的命令去做分解。以前是靠我们人在里面统计去做规则,规则越来越多,效果并不一定好。今天靠深度学习去做,对搜索引擎的描述,它的准确率提升了30%,跟我们的值是一样的。已经成为,搜索引擎排序里面第三重要的因素。
这是深度学习,我们在搜索这个类型的公司里面,能快速把它推向使用的案例。但是,这样一个技术还没有到颠覆的程度,我觉得符合我们刚才讲的面世了、有前沿的技术、有大的用户规模,但是并不构成对世界有更大的冲击。
所以,这里面我们还会做一些新的东西,也是今天很容幸在极客公园会场,给大家发布我们一款新的产品,或者功能——搜狗海外搜索。
回到搜狗的逻辑,我们是让用户表达和获取信息更简单。通过输入法,提高了很多中国人打字中的效率,搜索让获得很多的信息。而且刚才讲,通过深度学习,使得这的产品更加聪明和丰满。
那还有什么事情再往前去解决?借助深度学习今天我们前沿的成果?在这里面,我给大家分享《圣经》里面的小故事,这有足够大的意义来阐述,就是关于通天塔的故事。
大家知道,人类很想通过自己的努力,去构造一座通天塔,能够直接跟上帝对话。上帝觉得,藐视了他的权威。因此,他就让不同的人、不同的民族,去说不同的语言。由于大家说不同语言之后,沟通变成了一个障碍。所以,人就没有能力去修建通天塔。
这是我经常引用的,由于这种信息不对称、不对等,使得我们难以合力去在一件最伟大的事情。但这里面,不仅是网络连接,而且还涉及到一件事情,就是不同民族语言不一样。
去年11月份,Google有篇很重要的论文,把机器翻译推到了一个新的高度。所以在这里面我们去畅想,如果我们在表达、获取的时候,能够让不同民族的人,包括中文、英文,能够自由的交流,获得获得他们完整的信息,这个世界会因此而变。
所以在这样的使命里面,我会认为,如果能够跨语言进行沟通,这样一个技术的进步,犹如人类发明了电一样是很重要的事情,电使得我们的生产力得到了巨大的解放。但如果能做到跨语言的沟通,地球的文明会重新改写,战争会变得更少,不同民族之间的交流会,带来新的一种新文明的产生。所以,这里面我们做了很多的工作。
一方面,在Google技术的指引下,我们完整用了这样一些技术,是基于类似于深度神经元网络的翻译模型,已经被我们掌握得非常好。