本文为 4 月 19 日,复旦大学(上海智能媒体研究所)——陈新驰博士在第 5 期 PhD Talk 中的直播分享材料和 QA 问答。
关注“Paperweekly”微信公众号,回复“20170419”获取下载链接。
请问老师,切分文本中的数学公式没有标注样本怎么破?
可以人工标注一些,或者先用匹配的方法把一些模式很强的公式分出来。
看起来神经网络的分词,较少考虑了时间性能,但是作为 NLP 的基础模块如果做工业产品这个时间代价会比较突出,博士怎么看这个问题?
神经网络的话一般来说只是训练的时候比较慢,因为它的过程会比较长一点,那么它在 test 的时候其实效率和速度还是可以的,再加上我们用 GPU 的话可以快速的矩阵运算,所以它不会在 test 的时候输于传统的方法。
字标注的也有缺陷,有些分词是基于词的角度,还有一些联合模型,陈博士能发表下您的看法吗?谢谢!
是的,各有优缺点吧。我们做的以基于字的为主,基于词的方法鲜有使用。
不管是传统方法还是 DL 的中文分词的效果已经相当好了,这个方向未来会有什么进一步发展变化吗?
目前在 Benchmarks 上的结果是很好了,但是换一个 Domain 就下去了,OOV 也是一个很大的问题,还有就是分词的粒度问题,能不能去更好地定义分词问题。
分词实践时候,有一个观察。不管是 CRF/struct perceptron/DNN 的方法,如果是在标准语料上训练的模型毕竟还是较小的模型,去切分其他 domain 语料(比如搜索引擎的 query,或者微博),效果都不太理想。特别多特征和 embedding 都会 oov;针对这个问题有什么好的解决方法吗?
这是一个很好的问题,我们也在寻求更好的解决方法。业界的方法往往比较暴力。我们现在一般都是关注在模型本身,往往看在 benchmark 上的结果。
在特定领域中往往没有标注语料,是不是神经分词方法就不太可行了?
如果没有标注语料,监督的方法都会有问题。要试试无监督的方法等。
请问您有没有试着在神经网络中结合之前的特征工程或者其它先验知识来提高分词准确率呢?
这是一个很常用的方法,我记得 Meishan Zhang 在 16ACL 论文中就用过。
中文自然语言处理深度学习,有 Python 示例代码嘛?
有的,我们后续会把我们的分词代码放到 FudanNLP 官方的 Github 上。
第1期Talk实录 | CN-DBpedia构建技术和思路
第2期Talk实录 | 词向量的几何分布及其应用
第3期Talk实录 | 数据驱动的大规模分类体系构建
第4期Talk实录 | 基于知识库的问答
关于PaperWeekly
PaperWeekly 是一个分享知识和交流学问的学术组织,关注的领域是 NLP 的各个方向。如果你也经常读 paper,喜欢分享知识,喜欢和大家一起讨论和学习的话,请速速来加入我们吧。
关注微博: @PaperWeekly
微信交流群: 后台回复“加群”