A:现在大家已经形成一个共识,AI的发展,人才和算法很重要,另外一个很重要的因素就是数据。如果没有数据,后劲和发展能够就会受到限制。天猫推出这个端,在数据方面是有优势的。基于大的销量,就会建立自己的生态系统,形成循环。刚才您提到科大讯飞,我们对于高新技术一直是有需求的,数据的量虽然可以带来提升,但是慢慢也会收敛,在后期不会像早期有那么强的数据增量,它的曲线大概是这样子的,所以我不觉得技术在后期会被弱化,只能说我们可能需要更多更具革命性的技术。我们也希望像科大讯飞这样的公司能够在探索技术前沿方面作出更大的创新,引领我们。
Q:我有两个问题,一个是关于 “天猫精灵” 商业化的问题,你们实现盈利?另外一个,我们双十一去美国学习的时候那个教授也讲,他们大概有50%的智能音箱其实放在家里当音箱用,智能不智能其实没有那么大的关系,对于“天猫精灵” 来讲,用户中有多大的比例是把它当成一个智能设备每天跟它有交互的,有多少人就把它当成一个音箱用?
A:第一个问题其实是超出我的范围,因为我是一个做算法、做研究的人,所以在商业化思考上,比如以后怎么赚钱,其实不算是我最关心的事情。但是我觉得假如一个产品,并且是一个人工智能产品,它在早期我觉得我们可能先不用想太多,先让它去自由的发展,不要给它加太多商业化的条条框框,在后面它可能会带动我们很多惊喜,比如阿里的云业务。我们先尽力把我们的产品做好,把技术做好,能够抵达到更多的用户,这是我们现在最大的KPI,最希望能够达到的。
您刚刚讲的第二个问题,首先我觉得就算是听音乐这个事情,实际上它也体现了我们的智能性,就刚刚我举的这个例子,我们听音乐的时候用手机APP,其实也是要花很长的时间去跟手机交互,但是用智能音箱可能只需要五秒,这个事情本身就是一个智能的表现,让人机交互相当于上了一个新的台阶,让人机交互更自然、更便利,当用户适应了这样的交互方式之后,它又可以把它延伸到别的方面,比如说在厨房里面做菜的时候我想要买一个调料,以前我先要把手洗干净,打开手机APP,现在只要喊一嗓子它就可以了,所以我觉得它是可以有延伸性的,当用户习惯了,我们培养了用户这样一种方式,用户适应了这样一种方式,他又会把它延伸到别的领域里面去,去进行更多的操作。
从我们的结果来看,听音乐是用户最大的一个需求,因为它毕竟是个音箱,但是用户也用了很多的服务,包括像定闹钟、听新闻、问日程的安排还有甚至包括订外卖,用户实际上更多是在探索我们提供的服务。还有很多情况,用户可能不知道我们在提供服务,所以我们也在不时地去推送给他们,让他们了解到我们这一周又有些新的功能上线了,用户还是觉得非常兴奋,感觉像一个未知的世界,他们每周都有新的惊喜。
Q:我们也在看这个东西,我们的看法是这样的:它实际从长远来讲,是一个智能管家,比如说今天我老婆要过生日,它会自动提醒你,“别忘了,这事很大”,而且它会根据你老婆的习惯嗜好以及她已经有了什么,她缺什么,会自动推荐给你们,这样一来它整个和阿里的生态系统就完全衔接在一起了,所以这是我们理解的长远的想象。近期来讲,把它当一个音箱,刚开始都是一些大餐前的开胃小菜,那个只是说来验证我们说整个东西是不是有一个小闭环,那个和商业模式不一定有直接关系,但是说到第三个问题,说到技术,科大讯飞是不是会沦为技术公司,我非常同意王刚博士的说法,这里面有太多技术要解决。比如我们刚才说到CNN+LSTM非常好,但是一个大问题,刚才我们说的例子,说怎么让计算机记住我老婆的生日,提前多少天的时候要提示我说“老婆要过生日了,以前买过香水了,这次就不要买香水了,这次出了一个新款的什么口红你要不要买一个”,这种东西实际上是要和它的一些常识要挂在一起的,是不是CNN加上LSTM就能解决这个问题呢,我看是不行的。
A:对,不行的。
Q(接上一提问):所以有太多的问题需要处理了,所以这个东西来讲的话,它会有太多的商业变现和场景的应用的关系,但是说商业变现倒是有一个事情我很好奇,就是一些简单的东西是可以买了,不限于听歌,太复杂的可能不能买,你说我买一个洗衣粉这种可以买了,这个时候马上就呈现出来一个问题,你和阿里旺旺是怎么衔接的,我很想了解这个方面的问题?
A:大量的语音交互这个新的模式,它能够让交互的效率在很多情况下能够提升,并且也能够让它对一些特定的人群,比如说老人它更加地友好,是这种交互方式的体验,但它的本质上提供的这些服务可能还是说是可以是一样的。刚才您讲的技术这块讲得特别好,未来在自然语义理解方面我们肯定是要考虑到更多世界知识,体验知识,所以我们要建立知识图谱,能够让语言理解特别在模糊性这块,因为很多人说话的时候,我们人和人交流的时候,他说话很多时候被省略掉很多词,因为我们假设对方是了解相应的知识的,所以我们也希望音箱能够有相似的能力,在自然语言理解这个环节就会提高它的效率。
Q:能介绍一下目前产品的用户体验情况吗?以及未来的改进方向?
A:我们对这个系统有很多衡量指标:一是达成率,因为我们现在定义是帮助用户完成任务的智能助手,比如我要听歌,我要播放相应的音乐。所以我们就需要去看这个音箱返回的结果,它是不是帮助用户达成了想要的东西,这就是达成率。另外一个是性能,以及就它返回的时间有多久,这也是一个重要指标。当然还包括其他的一些指标,比如说听音乐,这个用户听音乐听了多久,他是不是中间切断了,这些我们也是在关注。从现在业务的情况来看,我们的达成率稳步上升。因为最开始第一个版本出来后,经过测试、评比,达成率还不是特别的理想。所以我们在后面经过了好几次技术的迭代,现在来看,我们的达成率还是不错的。不过我们还在优化我们的性能,这个产品的链条还是很长的,我们认为在速度的优化上还有空间,希望可以在1秒之内完成用户的需求。
Q:现在在人工智能领域分为两个,一个是图象的识别和相应的人工智能,一个是像语音、文本性的,你是怎么看待这两个不同的纬度以及它们之间的关系?未来它们最终在往前演化的时候,当逐渐实现了感知和理解的功能以后,它最终在智能端会进行汇集还是说会完全平行的两个方向的发展?如果能汇集的话,汇集的那个点是什么,它的核心的能力是什么?
A:我们马总(马云)也曾经说过,人的智能跟机器的智能是不一样的。我觉得从应用的场景来讲,图像人工智能与语音文本人工智能是可以并行的,比如说语音可以用在智能音箱,视觉可以用在自动驾驶、人脸识别、安防等方面。从应用的产品来看,我觉得它们更多是一个可以并行的关系。对于人来说,我们的大脑其实处理不同的信号也是有不同区域的,但是它总有一些方法让不同区域之间进行沟通,比如深度神经网络,它作为一种对知识要求不这么高的方法,它可以从数据里面自动的挖掘出哪些特征是重要的特征。所以这样的方法它同样可以在图象和语音上面都能够得到应用,因为这两者都是一个信号处理信号分析的问题,所以它们的方法是可以比较通用的,只是输入和输出不一样。
Q:根据我自己理解,我觉得以前鼠标操作电脑是一种操作方式,到现在手机屏幕用手指触摸是一种方式,我希望用语音来控制设备将来能作为一种全新的交互方式。我自己认为手指触摸从苹果到现在大概花了十年时间才比较成熟,对于这样的一个语音的交互方式,离真正能够大规模投入使用大概要多长时间?第二个问题是,现在都在讲智能家居的入口,如果家庭的这种管理方式真的变成现实了,可能大概需要多长时间才可能变成大规模投入使用的方式?
A:语音交互的大规模使用我觉得在美国已经发生了,比如说像Echo,它每年大概是一千万的销售,背后可能就是几千万的家庭,所以在美国的覆盖面还是非常大的。在中国,首先从技术的成熟度来讲的话,我们希望语音交互能够更加可靠和稳定。我很乐观,我觉得在一年到一年半时间内,可以实现95%以上的满足能力。
Q:您怎么看待人工智能分别在硬件和软件上的发展?人工智能硬件比如说像 “天猫精灵”,音箱是一种形态,那怎么样分别看待软件和硬件的发展方向?
A:我觉得它们两者后面是越来越融合的关系,端可能只是一种产品的形态,比如像我们的音箱,有这样一个硬件放在用户的家里面,但实际上人工智能都是在云上就进行处理,因为云上有比较多的计算的资源,所以我觉得它只是两种不同的表现形态。有的人工智能像美图秀秀里面做一些自动的化妆,它可能是以软件的形式显现出来,我们现在的 “天猫精灵” 的形态是以硬件的形式显现出来,但是它两者实际上用的智能能力我觉得是差不多的,没有太大的区别。
Q:我问一个技术问题一个非技术问题。技术问题,我看到一个应用的场景是让我比较兴奋的,您认为在技术层面对比其他平台阿里的优势在哪里?
A:这是一个挺有意思的问题,刚刚讲因为做技术的,可能也非常难去评价到底说哪一家的技术一定比另外一家好,并且技术也是不断地在发展迭代的,像我们的系统也是经常在更新,我相信其他的公司也是在不断地去更新技术,所以我是很难评价的。对于我们来讲,像知识图谱,像这样的东西能够跟我们的战略理解能够结合在一起,就是说补现在自然语言理解的短板,这是我们非常感兴趣的方向,别的公司我就不太清楚了,他们会不会往这方面做,包括我们做了之后跟它们的差别多大,这个我现在是没办法评论的,因为很多时候技术发展是一个一定要反复去试,试了之后到底能提高多少,预先没办法做判断。
Q(接上一提问):第二个非技术的问题,如果我是产品公司的,我想做个音箱,我非常想跟阿里合作,但你们做的这个产品让我有几个担忧,这个产品很好卖,结果你自己做,你又做的很便宜,数据全给你了,那我怎么跟你合作?
A:我们现在为止没有跟音箱的公司合作,我们更多的是跟内容提供商,跟性能的开发商,包括其他的像IoT的设备商合作,所以我的建议可能是大家做我们需要的东西,以后不要再做音箱了,做内容,做性能,这是我们非常欢迎的。
Q:现在音箱在国内也有一家在做,喜马拉雅它们也有自己的内容,它的技术是猎豹给它提供的,我也是在使用,但现在包括你刚才说到“天猫精灵”里面的一些音乐版权是来自于腾讯,腾讯其实也在发展AI,也在做语音识别这一块,竞争会是怎样的?我想听听您的想法。
A:阿里音乐它有自己的版权,腾讯音乐它也有它的版权,所以我们做了一些版权的交换,就是双方都得益的,不是我们拿了腾讯的版权。你刚刚讲的这个问题,因为我们是处于非常早期智能音箱语音交互这个市场,可能大家更多想的是说一起把这个事情先做大了,至于最后的格局会怎么分配我觉得现在也是早了一点,还不能够做评论,反正我觉得大家一起先把用户,因为用户买了这个音箱他希望有更全的内容,我觉得我们应该先合作把这个事情先做起来,后面再说。
Q:你的技术肯定要不停的迭代,我想阿里有没有可能性比如说未来技术方面跟别人去合作,因为音箱是一个入口,因为这的确是一个场景足够广泛,在整个居室里面也好、在整个办公室,很多地方它都可以被用,但是有些会出现专门的居住场景,比如在厨房里面,厨房里面其实很多地方可以承载这种技术,它可以植入到电器里面去,比如说我是做电冰箱的,技术可以快速可以跟它去连接去购物,我不一定是听音乐,但是我可以植入菜谱,比如说我在卫生间里面我有一面镜子,其实镜子背后是有很多的东西可以连接,你可以通过人脸识别的方法告诉我身体需要什么,更多的健康性,因为这种东西抓取数据是很多,你们会愿意跟这些专门的垂直领域的企业去合作,输出你们的技术,然后更多的场景大家一起协同发展吗?
A:其实我们在云栖大会上发布了一个叫做AliGenie,跟“天猫精灵”这个端比,它就是一个开放的平台,它包括了刚才我提到的像SR、LP,包括后面整合的一百多个服务,我们是希望把这样的能力输出来跟第三方的厂家合作,像一些跟智能家居的厂商,我们是非常乐意的,其实我们也有很多在谈,另外我们也希望能够输出到不同的垂直行业里面,比如南方航空,它们就跟我们合作定制了一些针对它们贵宾室的音箱,总结起来我们的心态是非常开放的,合作这个主题是非常鲜明的,我们真的希望跟所有的能够有关系的合作伙伴一起把这个事情做大,这个是毫无疑问的。
Q:我想请教一下,美国的那个场景跟中国的场景也有很多的不同,就是说他们的家都比较大,或者说主妇在家里花的时间比较长,相对于咱们中国可能小家庭比较多一些,都不太做饭,在家里时间少,您看一下未来这个市场发展,您这个产品跟美国的区别有没有完全的考虑进去,还是您预测中国的市场发展会跟美国对Echo的接受度是一样的成功,还是就是大家考虑了这个市场的差别呢?
A:我们在做的时候首先我们坚信很多用户的习惯是培养出来的,刚才我也说语音交互确实能够提高便利性,这种便利性很多用户现在是不知道的,交互这个东西其实跟我们的载体是有关系的,我们也可以把我们的能力输出到别的设备上,比如像家居产品、镜子,我觉得语音交互它带来这种革命性的或者说这种巨大的提升,不管是中美都是有需求的,可能只是说不同的市场我们可能需要不同的优化方法能够让它以更好的方式去被用户所接受,所以我觉得是这样的。
第二点,虽然大家说中美有差别,但是我们却在九个小时里卖了一百万台,我觉得这也是一个事实的证据,说明中国的家庭是有这种需求的,只是说以前大家可能比较悲观,反正我自己是比较乐观的,我们觉得这个市场是可以起来的,并且也能够像Echo在美国一样取得巨大的成功,我们是坚信这一点的。
Q:其实市场两派声音,一派认为智能音箱会成为下一个家庭入口,就是一个大步走的机会,还有一派认为这东西是伪命题,就觉得有没有智能音箱无所谓,你把它放在其他东西上面,甚至它就是一个你镶在墙上的一个接收器,或者说就在手机里面,它真正要连接的它就干三件事,一个就是控制你的智能家居,第二就是连接服务,比如我们叫滴滴叫外卖,你直接用语音叫就可以了,不用打开手机APP,还有一个就是你怎么样去能够提供好的内容,就是我在听音乐、听书或者说看电视,我通过它能够获取内容,真正谁能够整合这三样东西成为一个新的APP Store,那你才是真正下一个入口的掌握者,但是现在大家都搞音箱,其实我从Echo、像问问还有叮咚一堆我都买了,我买了这么长时间我真的用不起来,至少从我来说,我还是在用手机,不好用,可能对于老年人也许他会觉得好玩,你觉得未来它一定是音箱的形态,还是说它就是一个新的语音交互平台?
A:我可能更相信它会是一个比较通用的语音交互的平台,最后它应该是无所不在,然后又没有明显的存在感,你要它的时候它就来了,你不需要它的时候你看不见它,我觉得这可能是一个比较理想的情况。但是在早期的时候,我们也希望有这样的一个案例来证明它的可用性,音箱就作为一个载体被选中了,不管是在美国还是在中国,我们现在看它这个载体还是能够证明语音交互的价值。在未来不管是亚马逊Echo,还是我们的AliGenie,实际上我们的愿景都是希望能够让语音无处不在,不要局限于音箱这样的一种形式,而是以更灵活、更自由的方式和生活里面所有的联网的电子设备能够整合在一起,也是我们的一个信念。
Q:我大概在十多年前做过一些年的语音识别,我想请教一下,因为我们那个时候做发现在美国,因为它语音识别用的很早,最早汽车就是标配的说不能离开方向盘也不能去拿手机,所以它是在法律上强制在那个年代推语音识别,在中国其实很多汽车也装了蓝牙和语音识别的东西,但是为什么我们当时推不动?第一要教育消费者为什么要语音识别,第二是人和机器我想问的问题是,交互的情感上中国人好象比较保守和含蓄和害羞,他不想跟机器交互,你说为什么Echo在美国一年卖一千多万,在中国它的销量是怎么样的,或者说您看到的未来比如说2019年或者明年爆发,像我们现在手机上siri用了很多,华为的手机都有语音识别,但是有几个人真正在跟机器互动,明天早上问“几点了,天气怎么样”,就是中国人的这种文化习惯和使用习惯会不会造成对语音识别接受度和推广度的一个滞后。以前还有人跟我讲过,男人和女人对于语音识别使用都不一样的,以前像SoftBank做的机器人,很多类似的放在银行里面,有的是全身的有的是半身的,银行做了一个统计,说跟机器互动的大部分是女人,因为她们比较有耐心,男人进去就觉得很害羞或者觉得老爷们跟机器说话是不是挺傻的,你们有没有研究过这个东西,这实际上决定了我们产品最后能不能成功,您对这个事情有什么看法?
A:挺有意思的一个问题。我们当时没有研究过受众的性格这样的一些情况,我感觉以前大家用语音交互用的不多,可能主要的问题还是技术不够成熟,比如说在车里面,比如我们想用它,因为有噪声各种因素不准,用了两次之后用户有挫败感,就觉得还不如用手机,我的理解更多的是因为技术上的不成熟所以导致用户失去了耐心。我们如果看近几年来因为深入学习、大数据的使用,语音识别在语言理解它的效果是越来越好了,所以慢慢达到了能够让大家没有觉得很灰心丧气,现在我们慢慢到了这个临界点,可能十句里面有八句九句它都能够回答出来了,那用户就会接受了,我觉得是一个技术的问题。
Q:关于多模态交互,阿里大概做了哪些东西,请您跟我们分享一下?
A:我们做了像表情,我们也做了手势,我们也做了这样一些技术的研发,但至于会不会有这样的一种交互方式出来、产品出来,这个还不太确定。
Q:在家庭里面现场环境非常吵,比如有小朋友,家人聊天的时候会不会出现误判,现在是怎么解决的?
A:这种情况是存在的,比如我们现在的产品里面在噪声比较大,比较吵的情况下会对我们造成困扰,就是会识别错误,后面可能我们会用更多的比如像背景噪声的建模,用声音的位置等方式,希望能够尽量把造成的因素压制下来,这是我们现在要做的事情,我们希望能够在明年解决这个问题。
Q:我特别想了解咱们在做这个产品最开始那个概念究竟从哪里来的,就我一定要做这个事情?
A:我们对交互这个事情还是研究了挺久,我们觉得不管是对什么样的群体,更便捷的交互方式它都是需要的,不管是国籍、男女、年龄,他们其实都是需要一个更便捷、更自然、更容易的交互方式,所以我们就坚信语音交互是一个值得做的事情。我们也相信有些观点,很多事情是我们做到了之后用户才发现“我需要它”,如果在没有实现之前,用户很多是抵触的心理,所以因为相信而干。
Q:我大概七八年前就去科大讯飞调研过,当时他们就在做语音识别,而且也做了很久,那个时候已经做了很久。在我印象中阿里做语音这块技术肯定是没有他们时间久,你们是理念上有什么不同,你们在这两块技术深度上的方向有什么不同?
A:科大讯飞是一个非常让人尊敬的高科技公司,我们在语音上面的时间可能没有他们久,但是我们阿里还是很有积累的,以前我们在云上也有很多的语音识别的需求,所以我们也是一直有团队在做这块,而且我们的团队也是不小的,整个阿里大概也是有很多人一直在执着的去做语音识别这个事情,至于刚才讲到跟它的方向,因为现在深度学习是最有希望的方向,我觉得不管是科大讯飞还是我们,都是关注于深度学习这个大的框架,深度学习是一个非常大的框,里面有很多优化的点,可能有新的神经网络设计,一些新的优化的方法,我觉得可能各家都会根据自己的想法去做相应的优化,最后大家收敛到某一个点或者是会造成一个比较大的差异这个我不太清楚。
Q:我们现在能不能做得到辨别出每个人的声音作为唯一性的东西?
A:声纹识别在人数比较少,比如说六个人左右,我们是能够做到的,但是它毕竟没有人脸信息这么丰富,所以人一多的时候有可能会出问题,在家庭环境里面还是OK的,它遇到更大的规模的话就会有问题。
Q:我自己在用小鱼在家这个东西,我的体验会觉得他们也在不停的迭代,我来之前去创新工场那边,因为他们现在分拆了两个,一个是针对家庭这边,一个是针对企业级的,我想问“天猫精灵”这边有没有类似这种方向的分拆?
A:我们也跟行业有些垂直应用,比如一个是酒店,像跟万达酒店我们有很多合作,就是我们在每个酒店的房间里面放一个天猫精灵,然后用它来控制酒店里面的智能家居,比如叫服务员来送东西,我们跟南方航空提供一些特制性的特点,比如在他们VIP的休息室里面,所以我们也很重视跟不同的垂直产品有一些深度的融合,我们也是在做这个事情。
Q:像天猫精灵类似的产品,它的安全性怎么来保障?比如作为用户在家里怎么能够让用户相信,在我不想让它听到我说话的时候,它真的没有在听。
A:天猫精灵是有一个唤醒词的,就是“天猫精灵”,只有在叫了唤醒词之后,它才开始开麦,把这个声音进行处理,如果没有唤醒词的话,就不会去提取任何的声音,也不会做这个事情,因为如果你需要天猫精灵就表示你要跟它说话了。
Q(接上一提问):这个怎么让用户相信?因为毕竟开麦的时候它是在监控我的声音?
A:这是一个很有意思的问题,我们只能够给用户解释,并且我们也有相应的条款去跟他说明我们对数据的保护,我们内部对用户的数据保护是非常厉害的,基本上是用户说了“天猫精灵”,我们基本上很难能够去得到原声数据,基本上不可能,因为我们要做这些算法的,这些数据都是处理过的数据,不可能接触到原声数据的,所以我们数据保护是非常严格的。
Q:它的安全应该是从两方面,软件和硬件,这方面如果安全系数不够高一点,到了很多家庭里面如果被人黑掉,可以窃听很多家庭的隐私。
A:我们跟安全团队也是有合作的,不过这个事情可能跟其他所有的设备一样都存在这种风险,手机、汽车,都存在这个风险,我们能做的事情就是说魔高一尺道高一丈,能够有个更好的安全措施把这个问题解决掉。