一文看尽阿里云即将上线的 NLP 技术到底可不可靠。
阿里云栖大会刚刚结束。作为中国最大的云平台,除传统云服务(如计算、存储、大数据、安全、通信)外,阿里云的触角已经延伸到 AI 技术领域。
目前,阿里云上的人工智能 ET 板块已经包含机器学习 PAI、语音识别与合成、人机对话、人脸识别、图像识别、以及印刷文字识别六大模块。
除这六大模块之外,近期,阿里云还将上线自然语言理解(NLP)模块。项目总负责人司罗也在今年云栖大会的现场分享中透露了这一消息。机器之心现场采访到司罗,与他谈了谈阿里在 NLP 技术上的底气。
对外开放技能:突破阿里自身场景的局限
从今年六七月份开始,本着阿里 iDST 部门对外赋能的使命,其中,由司罗带领的 NLP 团队开始着手「上云」。
与此前的对内服务大为不同,其中最主要的变化便是场景切换。阿里主攻电商、金融、娱乐场景,而云上的客户却涉及到各行各业。对于现阶段各知识领域还存在显著隔膜的 NLP 技术来说,存在不小的挑战。
但实际上,在这次「上云」之前,团队已经有对外服务的经验。
OpenSearch 是阿里云推出的一款云搜索服务,调用 OpenSearch 的用户能够让自己的网站、应用拥有搜索功能。使用这项服务的用户涵盖母婴、诗词、菜谱等五花八门的领域,给司罗团队提供了很好的练兵场,也是试金石。
对于 OpenSearch 上的分词技术,团队提供一套基础算法,并在算法上构建了自适应的模型体系,如金融、社交、新闻等。团队会根据用户网站不同的组织层次需求,为用户挑选最合适的模型,并同时提供产品可视化的配置,用户可以在上面独立配置自己的词表。
除 OpenSearch 外,团队在专有云方面也已经对外服务客户,如通过新闻、用户评价等帮助茅台酒厂进行舆情分析,帮助公安、法院等部门更快地查找备案资料等。
阿里云上 NLP 技术的输出将采用类似 OpenSearch 的模式,但服务类别将有所增加。在「上云」后的第一个阶段,阿里 NLP 提供的服务将包含电商实体识别、情感分析、反垃圾、地址解析四个底层技能点。
服务分几个层次提供,对于已经拥有某些模块的技术,且需要其他模块技术的公司(例如有分词技术但缺乏依存关系技术的互联网公司),阿里云 NLP 将提供技能点级的支持;对于缺乏 NLP 应用级技术的公司,例如反垃圾、情感分析等,阿里云 NLP 提供应用层面的支持;对于需要系统级解决方案,例如搜索、推荐系统的客户,阿里云 NLP 也有对应的服务模式。
值得一提的是,iDST NLP 的团队刚刚获得了 IJCNLP(国际联合 NLP 大会)语法纠错评测第一名的成绩。司罗认为这是对阿里 NLP 技术的一次有力证明。因为语法纠错任务涉及到很多自然语言的基础技术,如分词、句法分析、词法分析、依存关系以及语义分析等,对团队的综合技术实力是一次考验。
司罗
司罗认为,自然语言处理是实现强人工智能的非常重要的一环,而且重要性会越来越显现。「感知层面的事情越来越成熟了,认知层面也得跟上了。」他说。
但在他看来,认知层面的事情依然路漫漫其修远兮。他很爱举的一个例子是,你问一个聊天机器人「喜欢吃辣吗?」它可能会说「辣的那么恶心,我才不喜欢。」你接着问它「你喜欢吃四川菜吗?」它可能又回答你「四川菜是我的最爱!」
目前聊天机器人绝大部分是数据驱动,司罗认为要实现真正的语义理解还需要 5-10 年的跨越。「语义理解这回事儿现在学界都还不 OK 呢。」他说。另外现在的 NLP 技术鲁棒性不够,对于新闻语料来说效果不错,但对于日常对话,效果就很差。
虽然有很大的鸿沟摆在面前,但司罗认为这是必须要跨越的。「因为 NLP 技术是达到强人工智能的路上必须攻克的关键节点。」司罗说。
从「业务」到「技术」:我们获得了同事的认可
在将 NLP 拿到阿里云上对外开放之前,司罗带领的 NLP 团队其实走过了一段并不容易的「从技术到业务的沉淀之路」。换句话说,他们的技术,首先必须得到阿里内部各个业务线的使用与认同。
毫无疑问,司罗是阿里巴巴数据科学研究院(iDST)的几位元老之一,但在 2015 年 7 月,iDST 暂时解散,包括司罗在内的科学家们都必须深入到业务部门实地考察「钱是怎么来的」,这段经历被 iDST 的创立者兼现任院长金榕称作「上山下乡」。
当时,司罗跟随金榕进入搜索事业部。今年 3 月 iDST 宣布重组时,司罗才被任命 iDST NLP 团队负责人。