从“你妈逼你结婚了吗”的分词引发的思考

待字闺中 · 公众号 · 程序员 · 2016-11-27 19:37

正文

“你妈逼你结婚了吗？”

在不同的分词系统给出了不同的结果。

一个分词系统的结果是：

“你／妈／逼你／结婚／了／吗？”

另一个分词系统给出的结果是：

“你／妈逼／你／结婚／了／吗？”

严肃的用户坚持说第一个才是正确的结果，有幽默感的同学大呼第二个太牛逼了。公说公有理，婆说婆有理。在没有上下文，没有场景，没有具体应用的情形下，实际上无从评论孰好孰坏。但是，这个问题倒是引发了对中文自然语言处理研究方法的思考，借以抛砖引玉。

现在对中文自然语言处理的常用方法，且不说内部算法，基本是按照分而治之的逻辑，是研究分词，词性标注，语义标注，句法分析，语义分析，语用语境分析，语言生成，等等。然后，才是用这些方法或是模块或是子系统去解决具体的应用场景和问题，比如，信息检索，机器翻译，问答，理解，摘要，情感分析，等等。这种分而治之的做法，一直这么继承下来，大家玩的不亦乐乎。但是各种方法，都只是在尽力解决自己的局部问题，利用的都是对自己有利的信息，很可能是局部最优结果，很可能和其它模块是钟摆关系，比如，通用分词系统，追求的是分词的正确率，很少考虑分词的使用场景和来解决的具体问题。当将各个不同的方法整合起来用于一个具体问题和场景时，各个环节的方法引发的错误，很可能被关联的环节一个一个节放大，从而影响了对某个具体问题和场景解决的质量。

然而，深度神经元网络的seq2seq模型，最近在自然语言处理很多的任务或问题或场景上取得了不小突破。比如，Google推出的神经翻译，已经接近人类的翻译水平了；还有就是问答系统，也有一些出彩的地方；搜索或是信息检索，BrainRank使得质量和相关性更好了。我们看到，一个重要的原因是端到端的系统性的解决方案，而不是由一堆的分而治之，一环扣一环的子系统构成。也就是说，分词，词性，语法，语义，等，都自动嵌入或是隐含在大系统中，被系统自动学习和explore，不再是一个一个独立的，各自独立研发和评估和比拼。要玩就玩大的，解决实际应用问题才是王道。

那么，这么来说，是不是应该反思自然语言处理的传统的分而治之的做法，不再比拼子系统的性能和正确率，而是对于具体的问题场景和任务，研究和发现新的端到端的解决技术算法和方案。