专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  【Forked:Swift中管理共享资源并发 ... ·  2 天前  
爱可可-爱生活  ·  【LLM Confabulation ... ·  2 天前  
宝玉xp  ·  昨天改了一段 AI 生成的 React ... ·  4 天前  
黄建同学  ·  可灵 AI ... ·  5 天前  
爱可可-爱生活  ·  【Apollo视频理解系列模型:专为视频理解 ... ·  6 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】一篇很好的参考文章:深度学习算法在自然语言处理中的一些心得

机器学习研究会  · 公众号  · AI  · 2017-01-19 20:00

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:云栖社区

深度学习逐渐在NLP(自然语言处理)上发挥重要作用。 在此我就NLP问题的一些技术演变做一些简单阐述。


N元语法模型

连续文本序列“to be or not to be”可以通过以下方式来建模:

一元语法(单个词): to,be,or,not,to,be

二元语法(两个词): to be, be or, or not, not to, to be


三元语法(三个词): to be or, be or not, or not to, not to be

N元语法模型可以解决下一个词预测的问题,例如,如果前面的词是“to be or not to”,6元语法模型可以预测下一个词的可能是“be”:

P(be|to be or not to) = C(to be or not to be) / C(to be or not to)


词频-逆向文件频率(TF-IDF)

TF-IDF表示了单词的重要性。


一个单词的词频(TF)是该单词在文档中出现的次数:

TF(“cow” in document) = C(“cow” in document)/C(all words in document)


一个单词的文件频率是指包含这个单词的文件在所有文件中占的数量

DF(“cow”) = log(C(all documents)/C(documents contain “cow”))


例如,如果文档1中的“cow”出现4次,并且文档1包含100个词,则文档1上的单词“cow”的词语频率为0.04。 如果“cow”存在于100个文档中并且总共有10000个文档,则“cow”的文档频率为log(10000/100)= 2。因此,TF-IDF为0.04 * 2 = 0.08。


原文链接:

https://yq.aliyun.com/articles/68855

“完整内容”请点击【阅读原文】
↓↓↓