专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

【独家】自然语言处理(NLP)入门指南

数据派THU · 公众号 · 大数据 · 2017-06-14 18:58

正文

请到「今天看啥」查看全文

致谢

钟崇光博士参与了数据派THU于6月5日、THU数据派于6月8日发布的《循序渐进提升Kaggle竞赛模型精确度，以美国好事达保险公司理赔为例》一文的校对工作，并且给出了许多有建设性的意见，在此数据派翻译组对钟博士表达诚挚的感谢！

作者：Melanie Tosik

翻译：闵黎

校对：丁楠雅

本文长度为 1100字 ，建议阅读 3分钟

Melanie Tosik目前就职于旅游搜索公司WayBlazer，她的工作内容是通过自然语言请求来生产个性化旅游推荐路线。回顾她的学习历程，她为期望入门自然语言处理的初学者列出了一份学习资源清单。

displaCy网站上的可视化依赖解析树

https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!&model=en&cpu=1&cph=0

记得我曾经读到过这样一段话，如果你觉得有必要回答两次同样的问题，那就把答案发到博客上，这可能是一个好主意。根据这一原则，也为了节省回答问题的时间，我在这里给出该问题的标准问法：“我的背景是研究**科学，我对学习NLP很有兴趣。应该从哪说起呢？”

在您一头扎进去阅读本文之前，请注意，下面列表只是提供了非常通用的入门清单（有可能不完整）。为了帮助读者更好地阅读，我在括号内添加了简短的描述并对难度做了估计。最好具备基本的编程技能（例如Python）。

在线课程

• Dan Jurafsky 和 Chris Manning：自然语言处理 [非常棒的视频介绍系列]

https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269

• 斯坦福CS224d：自然语言处理的深度学习 [更高级的机器学习算法、深度学习和NLP的神经网络架构]

http://cs224d.stanford.edu/syllabus.html

• Coursera：自然语言处理简介 [由密西根大学提供的NLP课程]

https://www.coursera.org/learn/natural-language-processing

图书馆和开放资源

• spaCy（网站，博客）[Python; 新兴的开放源码库并自带炫酷的用法示例、API文档和演示应用程序 ]

网站网址： https://spacy.io/

博客网址： https://explosion.ai/blog/

演示应用网址: https://spacy.io/docs/usage/showcase

• 自然语言工具包（NLTK）（网站，图书）[Python; NLP实用编程介绍，主要用于教学目的]

网站网址： http://www.nltk.org

图书网址: http://www.nltk.org/book/

• 斯坦福CoreNLP （网站）[由Java开发的高质量的自然语言分析工具包]

网站网址: https://stanfordnlp.github.io/CoreNLP/

活跃的博客

• 自然语言处理博客（HalDaumé）

博客网址： https://nlpers.blogspot.com/

• Google研究博客

博客网址： https://researc h.googleblog.co m/

• 语言日志博客（Mark Liberman）

博客网址： http://languagelog.ldc.upenn.edu/nll/

书籍

• 言语和语言处理（Daniel Jurafsky和James H. Martin）[经典的NLP教科书，涵盖了所有NLP的基础知识，第3版即将出版]

https://web.stanford.edu/~jurafsky/slp3/

• 统计自然语言处理的基础（Chris Manning和HinrichSchütze）[更高级的统计NLP方法]

https://nlp.stanford.edu/fsnlp/

• 信息检索简介（Chris Manning，Prabhakar Raghavan和HinrichSchütze）[关于排名/搜索的优秀参考书]

https://nlp.stanford.edu/IR-book/

• 自然语言处理中的神经网络方法（Yoav Goldberg）[深入介绍NLP的NN方法，和相对应的入门书籍 ]

https://www.amazon.com/Network-Methods-Natural-Language-Processing/dp/1627052984

入门书籍： http://u.cs.biu.ac.il/~yogo/nnlp.pdf

其它杂项

• 如何在TensorFlow中构建word2vec模型 [学习指南]

https://www.tensorflow.org/versions/master/tutorials/word2vec/index.html

• NLP深度学习的资源 [按主题分类的关于深度学习的顶尖资源的概述]

https://github.com/andrewt3000/dl4nlp

• 最后一句话：计算语言学和深度学习——论自然语言处理的重要性。（Chris Manning）[文章]

http://mitp.nautil.us/article/170/last-words-computational-linguistics-and-deep-learning

• 对分布式表征的自然语言的理解（Kyunghyun Cho） [关于NLU的ML / NN方法的独立讲义]

https://github.com/nyu-dl/NLP_DL_Lecture_Note/blob/master/lecture_note.pdf

• 带泪水的贝叶斯推论（Kevin Knight） [教程工作簿]

http://www.isi.edu/natural-language/people/bayes-with-tears.pdf

• 国际计算语言学协会（ACL） [期刊选集]

http://aclanthology.info/

• 果壳问答网站(Quora)：我是如何学习自然语言处理的？

https://www.quora.com/How-do-I-learn-Natural-Language-Processing

DIY项目和数据集

资料来源： http://gunshowcomic.com/

• Nicolas Iderhoff已经创建了一份公开的、详尽的NLP数据集的列表。除了这些，这里还有一些项目，可以推荐给那些想要亲自动手实践的NLP新手们：

数据集： https://github.com/niderhoff/nlp-datasets

• 基于隐马尔可夫模型（HMM）实现词性标注（POS tagging） .

https://en.wikipedia.org/wiki/Part-of-speech_tagging

https://en.wikipedia.org/wiki/Hidden_Markov_model

• 使用 CYK算法执行上下文无关的语法解析

https://en.wikipedia.org/wiki/CYK_algorithm

https://en.wikipedia.org/wiki/Context-free_grammar

• 在文本集合中，计算给定两个单词之间的语义相似度，例如点互信息（PMI，Pointwise Mutual Information）

https://en.wikipedia.org/wiki/Semantic_similarity

https://en.wikipedia.org/wiki/Pointwise_mutual_information

• 使用朴素贝叶斯分类器来过滤垃圾邮件

https://en.wikipedia.org/wiki/Naive_Bayes_classifier

https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering

• 根据单词之间的编辑距离执行拼写检查

https://en.wikipedia.org/wiki/Spell_checker

https://en.wikipedia.org/wiki/Edit_distance

• 实现一个马尔科夫链文本生成器

https://en.wikipedia.org/wiki/Markov_chain

• 使用 LDA 实现主题模型

https://en.wikipedia.org/wiki/Topic_model

https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation

• 使用 word2vec 从大型文本语料库，例如维基百科，生成单词嵌入。

https://code.google.com/archive/p/word2vec/

https://en.wikipedia.org/wiki/Wikipedia:Database_download

NLP在社交媒体上

• Twitter： #nlproc ， NLPers上的文章列表（由Jason Baldrige提供）

https://twitter.com/hashtag/nlproc

https://twitter.com/jasonbaldridge/lists/nlpers

• Reddit 社交新闻站点： /r/LanguageTechnology

https://www.reddit.com/r/LanguageTechnology

• Medium发布平台： Nlp

https://medium.com/tag/nlp

原文链接：

https://medium.com/towards-data-science/how-to-get-started-in-nlp-6a62aa4eaeff

闵黎，惠普企业，资深项目经理，负责全球运营数据分析，可视化辅助决策，优化运营，推动企业内部改进。探索大数据的神秘原力，颠覆式创新是我的兴趣所在。

翻译组招募信息

工作内容： 需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到： 定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利： 来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末 “阅读原文” 加入数据派团队~

为保证发文质量、树立口碑，数据派现设立 “错别字基金” ，鼓励 读者积极纠错 。

若您在阅读文章过程中发现任何错误，请在 文末留言 ，或到 后台反馈 ，经小编确认后，数据派将向检举读者发 8.8元红包 。

感谢一直以来您的关注和支持，希望您能够监督数据派产出更加高质的内容。

转载须知

如需转载文章，请做到 1、正文前标示：转自数据派THU（ID：DatapiTHU）； 2、文章结尾处附上数据派二维码。

申请转载，请发送邮件至[email protected]

公众号底部菜单 有惊喜哦！

企业，个人加入组织请查看 “联合会”

往期精彩内容请查看 “号内搜”

加入志愿者或联系我们请查看 “关于我们”

点击“ 阅读原文 ”加入组织~