雷锋网注:2017 CCF-GAIR 大会,蓦然认知 CEO 戴帅湘在智能助手专场做了《对话即应用》的演讲,阐述了语音交互在生活场景中的具体应用,以及机器对话中需要解决的有关语义理解的诸多问题。
会后,在专访中,戴帅湘又与雷锋网 进一步分享了其对于语义理解、场景服务的理解。眼下语义理解的核心是什么?难题在哪儿?如何克服?百度、阿里等巨头的进入将对创业公司造成什么影响...... 关于这些问题,戴帅湘一一作了解答。
以下为戴帅湘采访实录,雷锋网做了不改变原意的修改:
问:蓦然认知的连续对话能到什么程度?似乎在一些场景中,连续对话总是不能满足需要?
戴帅湘:连续对话其实不是句子,是意图,你可能说五句话还是同一个意图。刚才我说的多轮对话实际是融合了多种场景,比如你说 “我要去看电影”,但是在这之前,你可能需要了解,现在上映的有什么电影,是谁演的,这个导演最近有没有绯闻...... 它是扩展的,不只停留在看电影上面。
你要覆盖尽可能多的、用户可能发散的意图,因为人不是机器,不会按照固定的套路去问。人的思路是一个由单点往外扩散的过程,所以要尽可能地多理解他的意图,尽可能多做长尾的意图理解。解决这种发散性问题,把它囊括在对话系统里面很重要,所以,不是只要多轮次,要将多场景结合在一起。
问:要实现对长尾意图的理解,有什么难题?
戴帅湘:难题肯定会有,但是还是可以做到的。比如说语义理解,你是不是可以快速进行场景移植,是不是可以在新的场景里把已有的、已学的东西进行迁移学习。
要做到这些,现在有一些基本的方案,但不管用哪种,你都会考虑,有没有优化的。难点就在于,你能想到什么样的途径。
问:刚才在台上你说 “坚定地不看好智能音箱”,但好像蓦然现在也正在跟声智科技合作智能音箱的项目?
戴帅湘:声智做的是声音入口,它不一定要放到音箱里面,也可以是汽车、电视、穿戴式设备。音箱现在很火,推一个音箱芯片,可以多一份市场,并没有坏处。
但音箱不太可能成为量很大的产品,它烧不了量,规模化就很难,所以不太可能成为像电视那么主流的设备。
问:可亚马逊的出货量已经超过 1000 万台了。
戴帅湘:这是累计吧。美国的生活里,每家每户都有音箱,它是有基础的。这是很重要的原因。一样东西要成为爆款,必须要有延续性,比如手机,用户有需求,手机本身就是很大的市场。
存量市场必须得有,没有存量市场或者存量市场很小的话,推一个全新的品类,其实意义不大。除非你有说服用户的巨大能力,非常强大的营销能力,去让用户接受一个本来不大需要的东西,这个其实是有难度的。
问:为什么选择家居和车载这两个场景?
戴帅湘:因为它们本身就已经实现了商业化,市场前景非常广阔。电视在中国人的家里占据中心位置,做电视不是为了电视,而是为了占住家庭中心。只是电视比音箱难,它涉及的内容太多。
汽车产业已经有 100 年了,它需要融入更多新技术和互联网思维,比如自动驾驶、人机交互。这是一个非常有前景的场景,而且非常适合交互。
问:一些生态厂商,像小米、乐视可能已经占据了家庭设备的中心?
戴帅湘:其实在中国,真正占据家庭中心的是传统设备厂商,电视发货量最大的还是传统那几家。
而且电视没有那么大的增量,你还得改造它,比如说,已有的电视可以通过接入盒子或者其它东西改变。现在在国内,还没有可以垄断硬件的生态厂家,硬件永远是不可能垄断的,它一定是五花八门,百花齐放的。
问:像蓦然这样做云交互的公司,眼下最大的难点在哪里?
戴帅湘:最大的难点在于,现在面对的设备都是传统设备,要传统设备商接受一个新方案,改变既有的交互方式,这本质上需要传统行业的从业者有一定的新观念。比如传统企业和我们这种新兴的 AI 技术行业,如何很好地对接?
都说互联网 +,大家的观念是一致的,可是很难加在一起。
问:现在我们的技术在产品化上还有其它新的进展吗?
戴帅湘:我们其实有成套的框架,可以快速变成电视系统,音箱系统或者车载系统。从这方面看,我们有非常快的产品构建能力。下半年我们会做一次发布会,发布各种产品,包括耳机的、音箱的、电视的、车载的、机顶盒的等等。它们的样式都不一样,软件也有差异,但是对我们来说都是一套系统。
问:同样是做语音交互,阿里前几天推出了天猫精灵,百度也在一直强调 DuerOS 的战略地位,巨头的动作会对我们这样的公司决策有什么影响?
戴帅湘:我一直觉得这是一件好事。因为对话式语音交互其实是一个完整的链条,这个链条包含了很多方面,大家要做很多重复工作,比如降噪、云识别,这些劳动其实是不必要的。巨头开放可以很快把这块搞定,让创业公司告别重复劳动。
其实这个环境里最核心的部分是三个:语义理解,对话系统,学习系统。这部分没有任何限制,也没有任何界限,这些大公司自己都没做到这一步,它怎么开放给你?它开源的是两部分:
第一,前面的语音识别、降噪方案;
第二,后台的基本资源,比如百度的那些,其实本身就是免费的,到百度搜索上就可以获取到,它也是拿别人的。
问:大公司如果在这个领域重投入,将会对创业公司造成很大威胁?
戴帅湘:这是有可能的。一个东西刚开始出来,肯定是要跑得快,快速落地,积累数据,迭代,到后面也一定会有竞争,因为大家都认为语义理解、对话系统、学习系统是最核心的。
问:那跟大公司相比,创业公司的竞争力在哪里?
戴帅湘:很多人问过我这个问题。创业公司有一个很大的特点,就是专注,这非常重要,尤其是对于一个还没有成熟的东西,你要去攻克它,快速和应用市场、传统产业设备紧密结合起来。你的技术必须和这些设备同步打造、分析,要和这些公司团队坐在一起分析产品形态怎么设计,技术什么地方可用,什么地方不可用,不可用的情况下要怎么做。
但对于大公司来说,一些客户对它来说可能微乎其微,它的目标是做平台,我们是要创造一个东西。传统厂商并不具有那么多的认知,我们和它紧密结合起来,一步一步,先有一些它可感知的东西,再慢慢往下推。我觉得这个差异是很大的。
问:数据算是我们的一个劣势吗?
戴帅湘:其实我觉得不是。可能你不相信,但是我非常坚定地说,我们在技术上和这些所谓的大公司比,没有任何劣势。在机器数量、带宽费用上,我们会更节约,但是在技术上没有任何劣势。每个细节,每个到达技术的路径,我们都非常非常清晰。
到达每个目标的路径很多很多,我们明确地选择了一条,大公司选择的可能和我们不一样,但无非就是谁更快找到坡度更大的路线,可以快速达到目的。我觉得在这一点,创业公司会更容易,因为它直接和厂商对接,能达到目的,就快速达到目的,不追求平台有多大,多规范化。
问:听、听懂和服务的满足这三点,听懂好像是最难的,如果现在让你打分,满分 10 分,蓦然能做几分?
戴帅湘:这个怎么说,其实还是有一些限制。比如说在生活常用的场景,我们可以达到 7-8 分,但是如果要是泛泛地说,肯定是 5 分以下。因为有太多东西是你不能学习和了解的,它需要一个基本的框架,然后逐步迭代。人也是从小开始学基本的语文数学,然后慢慢学会更多。
现在如果停留在某些常用的、可用的场景里面,只要是能提供生活服务的,我们都能做出比较好的水平。但是脱离整个应用场景说听懂,其实意义不是很大。而且听懂和满足不是截然分开的,它们是紧密结合的,因为其实你不能判断它听不听得懂,而一定是从它的满足或者后效性上判断的。两者天生是不可分的。所以这样分为三个阶段,其实我是不认同的。
问:业务上有 2C 的考虑吗?
戴帅湘:我还是引用别人的一句话:真正做好一个软件以后,你很可能要做自己的硬件。这个硬件的形态可能不一样,可以是机器人,也可以是穿戴式设备,但是对于一个直接做交互,跟用户打交道的公司,将来肯定会推出适合自己的一系列硬件。
我们坚定地看好设备,我觉得影像时代就是设备的时代。
CCF-GAIR 2017 已经圆满结束,点击阅读原文,回顾大会精彩演讲 。