深度学习逐渐在NLP(自然语言处理)上发挥重要作用。 在此我就NLP问题的一些技术演变做一些简单阐述。
N元语法模型
连续文本序列“to be or not to be”可以通过以下方式来建模:
一元语法(单个词): to,be,or,not,to,be
二元语法(两个词): to be, be or, or not, not to, to be
三元语法(三个词): to be or, be or not, or not to, not to be
N元语法模型可以解决下一个词预测的问题,例如,如果前面的词是“to be or not to”,6元语法模型可以预测下一个词的可能是“be”:
P(be|to be or not to) = C(to be or not to be) / C(to be or not to)
词频-逆向文件频率(TF-IDF)
TF-IDF表示了单词的重要性。
一个单词的词频(TF)是该单词在文档中出现的次数:
TF(“cow” in document) = C(“cow” in document)/C(all words in document)
一个单词的文件频率是指包含这个单词的文件在所有文件中占的数量
DF(“cow”) = log(C(all documents)/C(documents contain “cow”))
例如,如果文档1中的“cow”出现4次,并且文档1包含100个词,则文档1上的单词“cow”的词语频率为0.04。 如果“cow”存在于100个文档中并且总共有10000个文档,则“cow”的文档频率为log(10000/100)= 2。因此,TF-IDF为0.04 * 2 = 0.08。
原文链接:
https://yq.aliyun.com/articles/68855