3 月 29 日,「语音智能与人机交互联合实验室」在北京成立,该实验室由中国人工智能公司出门问问与中科院自动化研究所模式识别国家重点实验室自然语言处理与机器翻译研究团队联合建立,将专注于自然语言理解、多轮对话管理、问答系统、机器翻译等人机语音交互核心技术研发领域。出门问问成立于 2012 年 10 月,是一家在语音识别、语义分析、垂直探索等技术领域具备自主研发能力的人工智能公司。根据此前路透社报道,于 2015 年 11 月出门问问完成 C 轮融资后的累计融资金额达 7500 万美元,投资方包括 Google 、红杉资本、真格基金、SIG 海纳亚洲、圆美光电、及歌尔声学。
「我们不能止步于产生需求时才进行研发,或是仅仅满足于照搬、挪用国外的新技术、开源算法。只有在探索前沿、核心算法上进行投入,我们才能够在人工智能领域实现突破。」出门问问创始人李志飞说。李志飞在美国约翰霍普斯金大学获得博士学位后,曾加入 Google 研究院从事机器翻译的研发工作。
基于这样的想法,出门问问对技术研究合作在经费投入也没有设置门槛和限制。「只要能做出比较有意思的成果,甚至对我们的技术不一定有直接的影响,都没有关系。我们是有情怀的,可能比较理想主义一点,但我们是真正希望能够做出一些创新的。」李志飞说。
事实上,能够促成这次为期三年的合作基础是,双方共同看好基于自然语言处理技术的人机交互趋势,且在研究资源方面能够实现优势互补。中科院自动化所模式识别国家重点实验室专注于机器翻译,而机器翻译是 NLP 技术最集中、最核心的应用,同时团队在基本自然语言处理方面的技术有非常扎实的研究成果,在国内甚至国际上都是十分领先的团队。而出门问问在成立之初就把眼光放在人工智能自然语言处理领域,并在两年前开始发力人工智能在智能硬件领域的商业化,先后发布了 Ticwatch 智能手表、Ticmirror 车载智能后视镜等 AI 落地产品,由此带来的研究优势是具备大量的用户、数据,可以构建端到端的系统,能够完成需要大量工程师、产品经理共同构建的工程方面的成果。
另一方面,在李志飞看来,企业做研究与科研机构有很大区别,大多数企业很难全力做比较长线的研究,作为创业公司要保证足够的前沿技术敏感寻求实验室共建是有效途径之一。他以深度学习的崛起作为案例说:「深度学习开山鼻祖 Geoffrey Hinton 曾在学界做了很多年相关研究,在 2007 年,当时我还在微软研究院语音识别组实习,他们就开始与微软进行合作,探讨把深度学习算法部署在微软系统里。直到 2012 年的时候,他们在语音识别领域做出了巨大的突破,之后 Google 才开始跟进。在美国,对于技术最早的探索大多还是在科研界。这也是国外很典型的一种模式。」
这次合作目标计划从搭建面向特定应用任务的自然语音处理系统开始,逐渐延展到场景构建和算法设计的创新,再到第三年设计具备演化拓展能力的算法和系统,推动合作企业的业务迭代。比如,基于自然语言的人机对话系统中,目前的瓶颈在于自然语言的理解以及上下文的对话机制,在听歌的场景下,用户说:「我想听周杰伦的歌」、「他有没有摇滚歌?」,在车载场景下,用户说「我要导航到国贸」、「找目的地附近的停车场」,这两处场景就存在一个比较通用的上下文指代的问题。