昨日,前微软高管陆奇加入百度无疑成为刷爆科技圈的重磅新闻。
与此同时,因为亚马逊Alexa已经横扫美国市场,Echo的销量已过千万台,掀起一场基于语音接口技术的AI革命,近万家智能硬件厂商已经选择接入亚马逊的服务,甚至包括华为和联想在内的中国厂商,但这些厂商主要针对的是海外市场。虽然亚马逊上千人团队经历数年才得以取得成功,但这次消费市场的成功还是来得如此迅速和突然,让人不得不惊呼为“亚马逊的AI奇迹”。
然而,人们不禁会问,那中国市场怎么办?亚马逊会进入中国吗?有谁能够在中国取代亚马逊的地位?
亚马逊是否会进入中国这个问题除了亚马逊没人知道。但可以确认的是,百度是中国在这一领域最具竞争力的科技公司之一。在本届CES上,百度也是比较低调地与智能硬件厂商小鱼在家一同发布了该公司搭载DuerOS的视频对讲机器人,虽然没有进行正式发布DuerOS,也没有公布任何关于该操作系统的任何细节,但可以见得,百度的策略与亚马逊有着相似之处。
百度与小鱼在家与本届CES发布了搭载DuerOS的视频对讲机器人(左起:景鲲、吴恩达、朱凯华)
带着一系列问题,我们专门前往百度总部拜访了百度首席架构师朱凯华和百度度秘总经理景鲲。当天,进入百度总部的时候,就听到上班的员工在议论陆奇加入百度一事,看得出来,不少人都相当兴奋。
而陆奇本人则将正式加入百度归结为天时、地利、人和:
“天时,电子科技行业已经有60年了,下一个时代很清楚,每次都是一个很大的波浪往前推,人工智能是一个新的不同的计算形式,可以用数据不断的获取知识,可以做预测可以做自动化,这个时代是非常振奋人心的时代。
地利,中国越来越成为新兴工业的创新大国,中国有很多创新的地方,美国传统力量比较强,在有大变革的时候中国反而创新空间大,中国反而提供了更好的人工创新的环境。
人和。在任何情况下高科技公司创新的基础是人才,我认为中国有非常优秀的互联网公司,我认识robin很久了,百度的文化是以技术为主,搜索引擎是人工智能的雏形,百度建立了很好的基础,今天我有幸加盟百度,用百度作为创新的基础,将这个工业往前推,让百度成为世界领先的公司有很多的机会。”
毫无疑问的是,百度在人工智能领域的工作已经处于十分关键的时期,而亚马逊的成功也无疑在加速大家对这一进程的预期。但百度是否能够看到成果?多久才能看到?是否就在今年?但就正如景鲲在采访中所表示,技术在市场中的成功永远不可能是线性发展,会存在一个爆发期。
但这个爆发期是否会来临以及什么时候会来临,其实没人知道。
以下请见我们对朱凯华和景鲲所进行专访的详细内容。
从本届CES来看,亚马逊的Alexa可谓无处不在了,我们知道的数据是,目前已经有7000多家厂商的产品搭载了亚马逊Alexa技术。这无疑是人工智能向消费端转化的一件大事了。在国内,百度可能是比较有机会的公司之一,您对此有什么看法?
朱凯华:第一点我想说的是,亚马逊和百度的视野有共通之处,都非常看好语音交互方式的未来。其实百度早在2014年的世界大会上就发布过一款智能音箱,虽然最终并没有量产,但至少说明百度很早就看到了这个机会,包括很多技术的探索和积累也很早就在做了。
不得不承认,亚马逊确实为业界做了一个很好的榜样,非常令人敬佩。他们第一次把硬件做到如此灵敏。我还记得2014年底买了一个Echo,当时觉得3米的圆场拾音技术可能还没那么成熟,但是Echo却很令我惊讶。从技术角度说,当大家都意识到这个事情能做的时候,以百度的技术积累和投入,应该会做到很好的水平。
亚马逊Echo Dot
亚马逊事实上并不是在单纯的做Echo这个硬件了,而是把它搭载的Alexa当做一个互联网服务的接入口。那百度目前在语音识别技术方面,与亚马逊的Alexa相比,处在一个什么阶段?百度为什么选在这个时候推出自己的语音操作系统?
朱凯华:很好的问题。其实2016年就有好几家公司,包括谷歌、微软、百度等,都宣布各自的语音识别准确率都达到97%,已经达到或超过人的水平。
但其实放到一个具体硬件上,语音识别技术和麦克风阵列的深度整合就非常重要了。很多时候,所谓语音识别的准确率是在特定的系统下,比如手机百度,因为它用的是手机麦克风,而且搜索数据训练也非常充分,加上我们对搜索的理解,识别准确率会事实上会超过97%。
但如果进入一个新的麦克风阵列,或新的硬件设定下,我们就必须做针对性的优化才能让语音识别做的比较好,这些也是我们目前积极在做的。
景鲲:我们的DuerOS其实是一个第三代的操作系统,第一代是鼠标键盘式的;第二代是触摸式的;第三代的交互方式我们认为应该是对话语音式的。当然,每个操作系统应用的设备、场景也都不太一样,而且每十年就会有一个迭代。
我觉得,无论是从我们现在做的,到美国的发展趋势,从大家对技术的接受度,到目前技术本身的成熟度来讲,现在都是一个特别好的时间点。
这次CES上Alexa的火爆,其实应该归功于其对服务的“穿透力”,这个词很关键。比如通过语音接口调用以前要通过点击App才能实现的功能。您对这个概念有什么见解?
朱凯华:我觉得穿透力应该分两个方面。一方面是有多少设备在用你的这套技术。这次CES上我们其实并不是只发布和小鱼在家合作的一款产品,而是发布的DuerOS系统。我们愿景也是把这套系统放在各种各样的有麦克风的设备里面,来实现语音的交互。百度也会在2017年发布更多基于DuerOS与其他厂商的合作。
第二方面就是系统的生态,或者说技能。第一个是百度会有很多原生技能,一部分是根据特定的设备定制的;一部分可以直接从百度的搜索业务中移植过来;还有一部分是开放出来,和第三方合作共建。
今年晚些时候DuerOS会有一个正式的官方发布,也会告诉大家系统内哪些是已有的,哪些是可以对外合作的。其实现在像滴滴打车等一些服务已经集成到百度地图内了,有些服务的对接我们已经做的很好了,会直接引入。还没有提供的服务我们也会通过开放第三方平台,来让它们对接过来。
Echo及其生态系统
亚马逊Alexa之所以在半年至内涌现出7000多家第三方厂商,是因为其技术授权流程非常简单,也很开放。百度的DuerOS会不会也采取类似的策略,加大对第三方的开放力度?
朱凯华:这个是必须的,但刚开始我们会做几个比较好的合作案例。
这次的CES除了最引人注目的黄仁勋发布Nvidia新战略之外,最引人注目的就是亚马逊Alexa了。但百度这次只是做了一个合作产品的发布,感觉引起的关注度有限。但我们觉得百度的DuerOS对中国来说,其重要性并不亚于Alexa,毕竟,最有可能把亚马逊模式在国内做成功的就是百度了,是否能分享一下您的看法?
景鲲:现在看来,大家对Alexa确实比较认可,但百度做同样的事情时间其实挺长了,第一次发布智能音箱是在2014年9月的百度世界大会上,Echo是在11月发布的。当然,这个并不是说要追求谁第一谁第二,但能够反映百度的视野。包括李彦宏宣布成立深度学习研究院,就一直在强调语音、对话。所以,整个百度在这个领域的投入是世界领先的,现在人工智能时代百度已经走在前沿了。
去年的百度世界大会发布的“度秘”,一款主打秘书化搜索服务的个人助理产品,其实已经研发了很长时间,普通民众可能并没有意识到。我们为了产品落地,把它先放到搜索框旁边,与关键词并列,让用户用语音去和它交流。后来我们把它放到手机百度上,也成为了中国为数不多日活过亿的应用之一,也使我们获得了大量数据。
关于在本届CES上的关注度问题,百度这次基本没设展厅,我们只是跟美国的顶级媒体讲百度的愿景。BBC、CNN、《时代周刊》、法新社等做了很客观的大篇幅报导。
百度这次CES之行主要是两个目的:一是我们希望让世界的顶级媒体关注到中国技术的发展,以前他们对中国的本土技术发展并不敏感,但现在我们在很多方面已经走在了前列。比如朱凯华,他以前是百度搜索的首席架构师,我们在搜索上使用深度学习技术去改善搜索结果的相关性排序,可能比Google提前了两年的时间。此外,我们用深度学习去做凤巢系统、翻译等,在国际上都是领先的。外媒可能对中国的模式创新有所了解,但对中国本土的技术发展,并没有太多的渠道去了解。
第二个目的是希望吸引国外的科技创新领导者,对外国公司来说想进入中国其实并不容易,在国内找到好的合作方他们的技术才能生根发芽。我们想告诉国外的合作伙伴,DuerOS是一个非常开放的人工智能操作系统。亚马逊和Google的成功都是因为背后有非常强大的生态做支撑,而在中国,百度可以提供这样的资源。
还有一点,就是现在中国的O2O、移动支付,这方面是大幅度领先欧美国家的,你在美国没法拿个手机到处都能支付吧?而中国就不一样了,整个互联网的土壤已经形成了,很多的技术创新也应该基于这个土壤。所以我们也想告诉国外同行在中国应该怎么做。这些就是我们这次去CES的主要目的。
那针对DuerOS,百度在中国国内会有什么大动作吗?
景鲲:今年稍晚,我们会在中国做大规模宣传,会给大家讲清楚整个DuerOS的每一层都有什么样的能力、是如何开放的,以及与合作模式。发布的具体时间我们内部还在讨论。
DuerOS正式发布后会不会像Alexa一样进入一个集中爆发期?
景鲲:我们其实管这种设备叫“对话式计算机”(Conversational Computer)。2017年在中国绝对会是爆发式的一年,现在与我们在沟通的合作伙伴已经非常多了,今年年初到年底大家就会看到很多这种设备的出现。
我和同事们都非常看好这件事情。在中国,一个人很难把事情做好,只有大家一起来做,市场的认知才能到位。这个事情最终肯定要做成一个生态,不是说大家用了DuerOS就会绑定在百度上面,这不是一个操作系统的思路,做操作系统就是要大家在上面都有饭吃、都有收益、都会成为这个生态的一部分。Alexa就是这个思路,大家之所以愿意跟它合作,是因为觉得对自己的服务有一定的控制力。
我们就是要和大家一起,在2017年把DuerOS做到让普通民众都有认知,而不仅限于科技媒体。
搭载了Alexa的联想智能音箱和华为Mate 9智能手机
像Alexa这类只能语音设备的成功是具有颠覆性的,甚至可以说是近年来最有想象力、影响力的应用之一。从技术上说,其颠覆性会体现在什么地方?尤其是在中国。
景鲲:我先从用户场景的角度来讲一下。我们看到的科技发展一次次在重演的是,让更多人享受到科技带来的红利。比如,移动互联网用户随着手机的出现而急剧增加。这是因为科技进步带来的是使用门槛的降低,触摸肯定比鼠标键盘的使用门槛低,语音肯定又比触摸的门槛低,每个人生下来就会说话。原来我们是通过敲键盘让人学习机器的语言,而现在是通过语音让机器学习人的语言。
一旦使用门槛降低,就会有两种情况,一种是原来无法获得信息服务的人现在可以获得了,比如老年人、小孩;二是以前比较难获得信息服务的场景现在也能克服了,比如走路、开车的时候,按手机肯定要比语音交互危险。
我们甚至畅想,将来DuerOS整合到桌子里面,可能你就能和桌子对话了。这个世界会变成一个超级互联的世界,在任何情况下,只要你有需求,就有一个设备可以让你介入互联网来获得信息服务。这种变革将是巨大的。
朱凯华:从技术上来讲,大家可能觉得所有的语音交互都偏简单,我想这个事情应该从两方面看。一个是大家觉得语音交互的作用可能和手机上打开一个App的效果差不多,当两者效果差不多时,我们主打的其实是场景上的优势。电脑屏幕更大,还有键盘,那为什么还要用手机呢,就是应为使用场景上的便捷性。语音交互也是同样的道理。
第二点就是,语音在有些场景下,会比GUI(图形用户界面)更好。举个例子,前几天我想买件羽绒服。打开App后,会发现很多款式和品牌。我本人比较讨厌那种一格一格的羽绒服,可能因为我最近胖了(笑)。但下拉菜单提供的选项里面并没有这一项,这就让人比较郁闷。其实这种场景下,需要对服务有更深入的理解,才可能用户作出响应。
从GUI角度来说,设计已经做得很好了,最大限度利用了屏幕空间。但是一旦用户的需求进入长尾,或一些比较灵活的形式时,GUI就挂了,没法提供那么多选项。但如果通过语音就完全有可能做到,这属于与用户场景的深度结合。
如果大家用过度秘的App,会发现我们是进入了美食、电影等领域的,但更深度的服务是需要和第三方的内容提供方更好的合作才能做到。一个最简单的例子,你要设一个闹钟,或者调成省电模式,在手机上是要点很多下的,而通过语音很方便的就能完成,这就是语音交互比GUI强的地方。
那在社交方面呢?会产生什么样的变革?
景鲲:社交也会有很大的想象力。大家知道以前的社交是基于通讯录的,将来是不是可以实现家庭与家庭间的社交?中国人住的比较分散,比如外出求学、打工的,而家庭间的联系又非常紧密,这里面可能产生一些火花。再比如现在有很多单身的人,将来有没有可能像科幻片《她》(Her)里的那样,对虚拟的对象进行社交,或者产生一些情感上的依赖。
我发现一个很有意思的事情是,人跟机器对话的时候往往觉得更安全,会说那些不太会跟身边的人说的话。这其实就是降低了放松情感的门槛。所以,在各个方面,我都认为对话式交互都具有无限的想象力。
百度除了在语音识别的准确率方面能与亚马逊Alexa抗衡外,还有什么其他的比较优势?
朱凯华:单说语音识别的话,目前也有好几家竞品在做。真的想把Alexa这样的产品做好,百度比较独特优势在于两个方面:一是对用户需求的把握,二是理解用户表达需求的方式,这两点非常重要。
首先,从用户需求把握上说,Alexa这样一个新的品类肯定会带来一些新的需求。你不会让百度去设个闹钟,或者做其他什么诡异的事情,但可以让它开灯。但又很多需求是大家都有的,比如询问天气、交通状况什么的,大家会发现这类需求百度会有比较充分的表达。从中国用户的整体需求看,百度应该是最完整的,或者说覆盖得最好的,这点上大家应该是有共识的。
第二点就是用户在表达需求时的方式会很不一样,比如大家在搜索时都会使用关键词,比如“北京”、“天气”,但在语音交互是,大家提问的方式可能就不一样了,比如“告诉我明天天气怎样?”,或者“明天天气好吗?”
手机百度的日活其实非常高,超过1亿,里面有很大的百分比(具体比例不方便透露)是通过语音搜索的。从这些语音搜索中,我们是能知道用户在语音交互时的表达方式的,这个也是百度比较独特资源。所以综合上述两点,百度在语音服务方面应该还是很有优势的。
不光是把语音转为文字,而且更进一步转化为后面的需求。百度下了很大力气将搜索转化为服务,在业内其实也是这样,如果一家搜索公司做类似的事情,还是挺有优势的。一个典型的例子就是从Google到Google Home,从回答问题,到对内容的理解、服务的覆盖其实都是很不错的。
Google Home
还有一个关于产品方面的问题,大家知道,第三方厂商拿到亚马逊Alexa的技术授权很容易,但这么多的产品,难免会有一些质量不过关的会影响到用户体验,大家可能会迁怒于操作系统本身。百度在合作开发产品方面有没有考虑到这个问题?
景鲲:很好的问题,我们一定会考虑的,会有一些认证的机制,要想打上DuerOS的标,用户体验需要经过我们的认证,而不是像现在随便改个操作系统就扔到市场上去了。
这次CES令人感到印象最深刻的除了Alexa之外,就属汽车了。百度在汽车技术上投入也很大,据我们所知已经将L3和L4分成了两个部门。车载语音系统作为除了家庭、办公室的第三个应用场景,其展开形态也会非常之大。百度在这方面有没有什么计划?
景鲲:我们非常关注这一个场景,而且百度的无人驾驶技术研发也是世界领先的。度秘属于汽车场景的一部分,其他像地图导航能力、驾驶能力等,我们会把这些技术打包去与厂商合作。今年我们也可能发布一些汽车相关的产品,目前已经在和一些厂商谈了,但是发布时间、和那些厂商合作目前还不便透露。
语音交互在汽车上的使用,对技术的容忍度肯定不如在家里使用,任何小的错误都可能涉及到安全问题,您是怎样看的?
朱凯华:我觉得这是个路径问题。我认为车机是两条线,一条是娱乐功能,这方面对响应的冗余,或出错的容忍度会好很多。比如导航,不会因为你说了目的地,机器没听懂就导致撞车了。
但与驾驶有关的语音技术是不是马上就是实用,那就要看路径和合作方式了。可以把现在的车载语音技术想想成一个可以用语音调节的电台,或者是导航系统,这已经比以前好很多了。
景鲲:有一个词叫Infortainment(信息娱乐系统),这个和安全性其实是没有太大关系的,我们更多的会关注语音在这方面的应用。
车载信息娱乐系统
这届CES给人的感觉就是,离我们还很遥远的人工智能技术一下就来到身边为我们所用了,甚至有人说下一代的手机都会是AI手机。您对这种人工智能技术加速到来的趋势如何看?
景鲲:我们在这个领域做了很长时间,目睹了整个行业的变迁。我们在度秘上的投入,在两年半以前很少有人能看到路径到底是什么样的,但我们还是非常坚决的认为这个路径可以成功,而且可以一步步去实现。
Alexa的成功对我们来说并没有什么奇怪的,我们路径也差不多,比如度秘与搜索的结合、与手机百度App的结合、世界大会上与硬件的结合,整个路径对我们从业者来说是非常清晰的。我们认为后面的发展速度也一定会加快。
语音技术其实就像一百年前的电,谁也不知道电能干什么。但随着有一两个应用后,行业资深人士会马上意识到电对自己所在的行业会有什么样的改变。对这些非常聪明的业内人士来讲,只要有一丝光照进来,他们就明白会产生什么样的化学反应。
对AI来说也是一样的,以前大家都希望看到这这一丝光,看到这种化学反应。现在Alexa的成功、DuerOS的推出,是完全能够让普通人体会到用户体验的改变的。这里面的想象力很大,比如百度也在做AI在医疗、金融领域的应用。
亚马逊Alexa的研发据说投入了1000人,开发了4年多。百度在DuerOS上的投入大概是什么规模?预计在什么时间会开始进入爆发期?
景鲲:我们的投入规模可能比这个更大,加上我们还有很强大的搜索团队。我们这两年多来的投入绝对不会比亚马逊小。而且今年大家会看到很多产品开始出现,但是什么量级的产品会进入用户家庭,这个现在还很难评估。
从时间上来说,科技的爆发,其增速不是线性的,而是指数级的往上走。比如滴滴,它的增长绝对不是线性的,一夜之间很多人就会去拥抱它、接受它。所以我们现在做语音也不希望它是线性增长的,这对我们没意义。
我们留意到联想、华为都在CES上推出了搭载亚马逊Alexa的设备,这些设备只是针对北美市场的试水?
景鲲:除了百度,像联想、华为,以及其他值得尊敬的公司,大家现在的趋势并不是先在美国市场试水,再尝试中国市场。
你们现在的心情是什么样的?是不是很兴奋?
景鲲:我们的确是很兴奋,因为从事该项目好几年,也都是工程师出身。突然发现,我们离被消费者和市场认可如此接近,当然十分兴奋。
欢迎关注DT君的科幻电影公众号:
招聘
编辑、视觉设计、视频策划及后期
地点:北京
联系:[email protected]
MIT Technology Review 中国唯一版权合作方,任何机构及个人未经许可,不得擅自转载及翻译。
分享至朋友圈才是义举