昨日,前微软高管陆奇加入百度无疑成为刷爆科技圈的重磅新闻。
与此同时,因为亚马逊Alexa已经横扫美国市场,Echo的销量已过千万台,掀起一场基于语音接口技术的AI革命,近万家智能硬件厂商已经选择接入亚马逊的服务,甚至包括华为和联想在内的中国厂商,但这些厂商主要针对的是海外市场。虽然亚马逊上千人团队经历数年才得以取得成功,
但这次消费市场的成功还是来得如此迅速和突然,
让人不得不惊呼为“亚马逊的AI奇迹”。
然而,人们不禁会问,
那中国市场怎么办?亚马逊会进入中国吗?有谁能够在中国取代亚马逊的地位?
亚马逊是否会进入中国这个问题除了亚马逊没人知道。但可以确认的是,百度是中国在这一领域最具竞争力的科技公司之一。在本届CES上,百度也是比较低调地与智能硬件厂商小鱼在家一同发布了该公司搭载DuerOS的视频对讲机器人,虽然没有进行正式发布DuerOS,也没有公布任何关于该操作系统的任何细节,但可以见得,
百度的策略与亚马逊有着相似之处。
百度与小鱼在家与本届CES发布了搭载DuerOS的视频对讲机器人(左起:景鲲、吴恩达、朱凯华)
带着一系列问题,我们专门前往百度总部拜访了百度首席架构师朱凯华和百度度秘总经理景鲲。当天,进入百度总部的时候,就听到上班的员工在议论陆奇加入百度一事,看得出来,不少人都相当兴奋。
而陆奇本人则将正式加入百度归结为天时、地利、人和:
“天时,电子科技行业已经有60年了,下一个时代很清楚,每次都是一个很大的波浪往前推,人工智能是一个新的不同的计算形式,可以用数据不断的获取知识,可以做预测可以做自动化,这个时代是非常振奋人心的时代。
地利,中国越来越成为新兴工业的创新大国,中国有很多创新的地方,美国传统力量比较强,在有大变革的时候中国反而创新空间大,中国反而提供了更好的人工创新的环境。
人和。在任何情况下高科技公司创新的基础是人才,我认为中国有非常优秀的互联网公司,我认识robin很久了,百度的文化是以技术为主,搜索引擎是人工智能的雏形,百度建立了很好的基础,今天我有幸加盟百度,用百度作为创新的基础,将这个工业往前推,让百度成为世界领先的公司有很多的机会。”
毫无疑问的是,百度在人工智能领域的工作已经处于十分关键的时期,而亚马逊的成功也无疑在加速大家对这一进程的预期。但百度是否能够看到成果?多久才能看到?是否就在今年?但就正如景鲲在采访中所表示,技术在市场中的成功永远不可能是线性发展,会存在一个爆发期。
但这个爆发期是否会来临以及什么时候会来临,其实没人知道。
以下请见我们对朱凯华和景鲲所进行专访的详细内容。
从本届CES来看,亚马逊的Alexa可谓无处不在了,我们知道的数据是,目前已经有7000多家厂商的产品搭载了亚马逊Alexa技术。这无疑是人工智能向消费端转化的一件大事了。在国内,百度可能是比较有机会的公司之一,您对此有什么看法?
朱凯华:
第一点我想说的是,亚马逊和百度的视野有共通之处,都非常看好语音交互方式的未来。其实百度早在2014年的世界大会上就发布过一款智能音箱,虽然最终并没有量产,但至少说明百度很早就看到了这个机会,包括很多技术的探索和积累也很早就在做了。
不得不承认,亚马逊确实为业界做了一个很好的榜样,非常令人敬佩。他们第一次把硬件做到如此灵敏。我还记得2014年底买了一个Echo,当时觉得3米的圆场拾音技术可能还没那么成熟,但是Echo却很令我惊讶。从技术角度说,当大家都意识到这个事情能做的时候,以百度的技术积累和投入,应该会做到很好的水平。
亚马逊Echo Dot
亚马逊事实上并不是在单纯的做Echo这个硬件了,而是把它搭载的Alexa当做一个互联网服务的接入口。那百度目前在语音识别技术方面,与亚马逊的Alexa相比,处在一个什么阶段?百度为什么选在这个时候推出自己的语音操作系统?
朱凯华:
很好的问题。其实2016年就有好几家公司,包括谷歌、微软、百度等,都宣布各自的语音识别准确率都达到97%,已经达到或超过人的水平。
但其实放到一个具体硬件上,语音识别技术和麦克风阵列的深度整合就非常重要了。很多时候,所谓语音识别的准确率是在特定的系统下,比如手机百度,因为它用的是手机麦克风,而且搜索数据训练也非常充分,加上我们对搜索的理解,识别准确率会事实上会超过97%。
但如果进入一个新的麦克风阵列,或新的硬件设定下,我们就必须做针对性的优化才能让语音识别做的比较好,这些也是我们目前积极在做的。
景鲲:
我们的DuerOS其实是一个第三代的操作系统,第一代是鼠标键盘式的;第二代是触摸式的;第三代的交互方式我们认为应该是对话语音式的。当然,每个操作系统应用的设备、场景也都不太一样,而且每十年就会有一个迭代。
我觉得,无论是从我们现在做的,到美国的发展趋势,从大家对技术的接受度,到目前技术本身的成熟度来讲,现在都是一个特别好的时间点。
这次CES上Alexa的火爆,其实应该归功于其对服务的“穿透力”,这个词很关键。比如通过语音接口调用以前要通过点击App才能实现的功能。您对这个概念有什么见解?
朱凯华:
我觉得穿透力应该分两个方面。一方面是有多少设备在用你的这套技术。这次CES上我们其实并不是只发布和小鱼在家合作的一款产品,而是发布的DuerOS系统。我们愿景也是把这套系统放在各种各样的有麦克风的设备里面,来实现语音的交互。百度也会在2017年发布更多基于DuerOS与其他厂商的合作。
第二方面就是系统的生态,或者说技能。第一个是百度会有很多原生技能,一部分是根据特定的设备定制的;一部分可以直接从百度的搜索业务中移植过来;还有一部分是开放出来,和第三方合作共建。
今年晚些时候DuerOS会有一个正式的官方发布,也会告诉大家系统内哪些是已有的,哪些是可以对外合作的。其实现在像滴滴打车等一些服务已经集成到百度地图内了,有些服务的对接我们已经做的很好了,会直接引入。还没有提供的服务我们也会通过开放第三方平台,来让它们对接过来。
Echo及其生态系统
亚马逊Alexa之所以在半年至内涌现出7000多家第三方厂商,是因为其技术授权流程非常简单,也很开放。百度的DuerOS会不会也采取类似的策略,加大对第三方的开放力度?
朱凯华:
这个是必须的,但刚开始我们会做几个比较好的合作案例。
这次的CES除了最引人注目的黄仁勋发布Nvidia新战略之外,最引人注目的就是亚马逊Alexa了。但百度这次只是做了一个合作产品的发布,感觉引起的关注度有限。但我们觉得百度的DuerOS对中国来说,其重要性并不亚于Alexa,毕竟,最有可能把亚马逊模式在国内做成功的就是百度了,是否能分享一下您的看法?
景鲲:
现在看来,大家对Alexa确实比较认可,但百度做同样的事情时间其实挺长了,第一次发布智能音箱是在2014年9月的百度世界大会上,Echo是在11月发布的。当然,这个并不是说要追求谁第一谁第二,但能够反映百度的视野。包括李彦宏宣布成立深度学习研究院,就一直在强调语音、对话。所以,整个百度在这个领域的投入是世界领先的,现在人工智能时代百度已经走在前沿了。
去年的百度世界大会发布的“度秘”,一款主打秘书化搜索服务的个人助理产品,其实已经研发了很长时间,普通民众可能并没有意识到。我们为了产品落地,把它先放到搜索框旁边,与关键词并列,让用户用语音去和它交流。后来我们把它放到手机百度上,也成为了中国为数不多日活过亿的应用之一,也使我们获得了大量数据。
关于在本届CES上的关注度问题,百度这次基本没设展厅,我们只是跟美国的顶级媒体讲百度的愿景。BBC、CNN、《时代周刊》、法新社等做了很客观的大篇幅报导。
百度这次CES之行主要是两个目的:一是我们希望让世界的顶级媒体关注到中国技术的发展,以前他们对中国的本土技术发展并不敏感,但现在我们在很多方面已经走在了前列。比如朱凯华,他以前是百度搜索的首席架构师,我们在搜索上使用深度学习技术去改善搜索结果的相关性排序,可能比Google提前了两年的时间。此外,我们用深度学习去做凤巢系统、翻译等,在国际上都是领先的。外媒可能对中国的模式创新有所了解,但对中国本土的技术发展,并没有太多的渠道去了解。
第二个目的是希望吸引国外的科技创新领导者,对外国公司来说想进入中国其实并不容易,在国内找到好的合作方他们的技术才能生根发芽。我们想告诉国外的合作伙伴,DuerOS是一个非常开放的人工智能操作系统。亚马逊和Google的成功都是因为背后有非常强大的生态做支撑,而在中国,百度可以提供这样的资源。
还有一点,就是现在中国的O2O、移动支付,这方面是大幅度领先欧美国家的,你在美国没法拿个手机到处都能支付吧?而中国就不一样了,整个互联网的土壤已经形成了,很多的技术创新也应该基于这个土壤。所以我们也想告诉国外同行在中国应该怎么做。这些就是我们这次去CES的主要目的。
那针对DuerOS,百度在中国国内会有什么大动作吗?
景鲲:
今年稍晚,我们会在中国做大规模宣传,会给大家讲清楚整个DuerOS的每一层都有什么样的能力、是如何开放的,以及与合作模式。发布的具体时间我们内部还在讨论。
DuerOS正式发布后会不会像Alexa一样进入一个集中爆发期?
景鲲:
我们其实管这种设备叫“对话式计算机”(Conversational Computer)。2017年在中国绝对会是爆发式的一年,现在与我们在沟通的合作伙伴已经非常多了,今年年初到年底大家就会看到很多这种设备的出现。
我和同事们都非常看好这件事情。在中国,一个人很难把事情做好,只有大家一起来做,市场的认知才能到位。这个事情最终肯定要做成一个生态,不是说大家用了DuerOS就会绑定在百度上面,这不是一个操作系统的思路,做操作系统就是要大家在上面都有饭吃、都有收益、都会成为这个生态的一部分。Alexa就是这个思路,大家之所以愿意跟它合作,是因为觉得对自己的服务有一定的控制力。
我们就是要和大家一起,在2017年把DuerOS做到让普通民众都有认知,而不仅限于科技媒体。
搭载了Alexa的联想智能音箱和华为Mate 9智能手机
像Alexa这类只能语音设备的成功是具有颠覆性的,甚至可以说是近年来最有想象力、影响力的应用之一。从技术上说,其颠覆性会体现在什么地方?尤其是在中国。
景鲲:
我先从用户场景的角度来讲一下。我们看到的科技发展一次次在重演的是,让更多人享受到科技带来的红利。比如,移动互联网用户随着手机的出现而急剧增加。这是因为科技进步带来的是使用门槛的降低,触摸肯定比鼠标键盘的使用门槛低,语音肯定又比触摸的门槛低,每个人生下来就会说话。原来我们是通过敲键盘让人学习机器的语言,而现在是通过语音让机器学习人的语言。
一旦使用门槛降低,就会有两种情况,一种是原来无法获得信息服务的人现在可以获得了,比如老年人、小孩;二是以前比较难获得信息服务的场景现在也能克服了,比如走路、开车的时候,按手机肯定要比语音交互危险。
我们甚至畅想,将来DuerOS整合到桌子里面,可能你就能和桌子对话了。这个世界会变成一个超级互联的世界,在任何情况下,只要你有需求,就有一个设备可以让你介入互联网来获得信息服务。这种变革将是巨大的。
朱凯华:
从技术上来讲,大家可能觉得所有的语音交互都偏简单,我想这个事情应该从两方面看。一个是大家觉得语音交互的作用可能和手机上打开一个App的效果差不多,当两者效果差不多时,我们主打的其实是场景上的优势。电脑屏幕更大,还有键盘,那为什么还要用手机呢,就是应为使用场景上的便捷性。语音交互也是同样的道理。
第二点就是,语音在有些场景下,会比GUI(图形用户界面)更好。举个例子,前几天我想买件羽绒服。打开App后,会发现很多款式和品牌。我本人比较讨厌那种一格一格的羽绒服,可能因为我最近胖了(笑)。但下拉菜单提供的选项里面并没有这一项,这就让人比较郁闷。其实这种场景下,需要对服务有更深入的理解,才可能用户作出响应。
从GUI角度来说,设计已经做得很好了,最大限度利用了屏幕空间。但是一旦用户的需求进入长尾,或一些比较灵活的形式时,GUI就挂了,没法提供那么多选项。但如果通过语音就完全有可能做到,这属于与用户场景的深度结合。