专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
51CTO官微  ·  隐形加班,太太太太太崩溃了! ·  5 天前  
OSC开源社区  ·  OSC源创会·西安站:【大模型技术与产业应用】 ·  1 周前  
OSC开源社区  ·  苹果“最强编程语言”10周年重磅更新——Sw ... ·  1 周前  
51好读  ›  专栏  ›  待字闺中

从“你妈逼你结婚了吗”的分词引发的思考

待字闺中  · 公众号  · 程序员  · 2016-11-27 19:37

正文

“你妈逼你结婚了吗?”


在不同的分词系统给出了不同的结果。


一个分词系统的结果是:


“你/妈/逼你/结婚/了/吗?”


另一个分词系统给出的结果是:


“你/妈逼/你/结婚/了/吗?”


严肃的用户坚持说第一个才是正确的结果,有幽默感的同学大呼第二个太牛逼了。公说公有理,婆说婆有理。在没有上下文,没有场景,没有具体应用的情形下,实际上无从评论孰好孰坏。但是,这个问题倒是引发了对中文自然语言处理研究方法的思考,借以抛砖引玉。


现在对中文自然语言处理的常用方法,且不说内部算法,基本是按照分而治之的逻辑,是研究分词,词性标注,语义标注,句法分析,语义分析,语用语境分析,语言生成,等等。然后,才是用这些方法或是模块或是子系统去解决具体的应用场景和问题,比如,信息检索,机器翻译,问答,理解,摘要,情感分析,等等。这种分而治之的做法,一直这么继承下来,大家玩的不亦乐乎。但是各种方法,都只是在尽力解决自己的局部问题,利用的都是对自己有利的信息,很可能是局部最优结果,很可能和其它模块是钟摆关系,比如,通用分词系统,追求的是分词的正确率,很少考虑分词的使用场景和来解决的具体问题。当将各个不同的方法整合起来用于一个具体问题和场景时,各个环节的方法引发的错误,很可能被关联的环节一个一个节放大,从而影响了对某个具体问题和场景解决的质量。


然而,深度神经元网络的seq2seq模型,最近在自然语言处理很多的任务或问题或场景上取得了不小突破。比如,Google推出的神经翻译,已经接近人类的翻译水平了;还有就是问答系统,也有一些出彩的地方;搜索或是信息检索,BrainRank使得质量和相关性更好了。我们看到,一个重要的原因是端到端的系统性的解决方案,而不是由一堆的分而治之,一环扣一环的子系统构成。也就是说,分词,词性,语法,语义,等,都自动嵌入或是隐含在大系统中,被系统自动学习和explore,不再是一个一个独立的,各自独立研发和评估和比拼。要玩就玩大的,解决实际应用问题才是王道。


那么,这么来说,是不是应该反思自然语言处理的传统的分而治之的做法,不再比拼子系统的性能和正确率,而是对于具体的问题场景和任务,研究和发现新的端到端的解决技术算法和方案。