自从 ChatGPT 横空出世以来,自然语言处理
(Natural Language Processing,NLP)
研究领域就出现了一种消极的声音,认为大模型技术导致 NLP “死了”。在某乎上就有一条热门问答,大家热烈地讨论了这个问题。
有人认为 NLP 的市场肯定有,但 NLP 的研究会遇到麻烦,因为大模型的训练建立在海量数据与超高算力之上,普通研究者难以获取这样的资源,只能做些应用研究;也有人认为大模型为 NLP 打开了一片新天地,NLP 的研究整体上会再上一个新台阶。
看看专家们怎么说,上海交通大学 ACM 班创办人俞勇教授等几位 AI 学界大咖认为,不了解过去,就无法理解当下。NLP 技术的发展历经了几十年,期间经历了多次重大技术革新,如果我们的讨论脱离历史发展,那是没有意义的。
所以俞勇教授等大佬们决心为 NLP 技术编写一本在历史和现代之间更加平衡的教科书——
《动手学自然语言处理》
,这本书将为我们讲透 NLP 的经典技术,梳理整个领域的发展脉络,启发我们思考 NLP 的未来。
NLP 的发展之路充满了探索与创新,2013年前后,基于符号系统和统计学习的方法主导着 NLP 研究的潮流。研究者通过制定复杂的规则和使用统计模型,尽力使计算机能够理解和生成自然语言。
然而,这种方法在处理复杂的语言结构和语义理解上存在着一定的局限性,难以适应不断增长的数据规模和复杂的语言任务。随着深度学习技术的兴起,特别是深度神经网络的发展,NLP 研究迈上了新台阶。
深度学习模型强大的表征学习能力,使得计算机可以更好地理解和处理自然语言,在诸多 NLP 任务上取得了突破性的进展。这一时期,神经网络模型开始成为 NLP 研究的主流,为文本分类、情感分析、机器翻译等任务提供了更加高效和灵活的解决方案。
真正让 NLP 脱胎换骨的是 2018 年,基于 Transfomer 架构的预训练语言模型崛起。预训练模型利用大规模语料库进行无监督学习,为各种 NLP 任务提供了强大的基础。
到 2022 年底,ChatGPT 的发布引发了前所未有的热潮。ChatGPT 不仅拥有惊人的生成能力,而且能够进行有意义的对话和语言理解,自然语言处理进入新时代。
NLP 的快速发展也为专业教学带来考验,一方面是已有教材在技术层面过时了,另一方面是市场上的一些新书只关注神经自然语言处理,不涉及传统技术。
《动手学自然语言处理》
就弥补了这两个缺憾,将带领我们温故而知新。
上海科技大学信息科学与技术学院长聘副教授、研究员、博士生导师。研究方向包括自然语言处理、机器学习等,主要研究将符号、统计和神经方法相结合用于语言结构的表示、学习与利用。发表论文100余篇,主要发表在ACL、EMNLP、AAAI 等人工智能领域顶级会议。担任多个顶级会议程序委员会委员和领域主席。曾获 ACL 2023 杰出论文奖,以及 SemEval 2022 和 SemEval 2023 最佳系统论文奖。
上海科技大学博士,长期从事自然语言处理研究工作,在 ACL、EMNLP、NAACL 等顶级会议上发表论文10余篇,担任ACL、NAACL 会议的领域主席以及ACL滚动审查(ACL Rolling Review)执行编辑。曾获得中国中文信息学会优秀博士学位论文提名、SemEval 2022 最佳系统论文奖等荣誉。
伊利诺伊大学厄巴纳-香槟分校博士生,长期从事自然语言处理研究工作,在 ACL、NAACL、AAAI、ICLR 等会议上发表了多篇论文。
上海交通大学 ACM 班创始人,国家级教学名师,上海交通大学特聘教授。2018 年创办伯禹人工智能学院,在上海交通大学ACM 班人工智能专业课程体系的基础上,对人工智能课程体系进行创新,致力于培养卓越的人工智能算法工程师和研究员。
有如此多的名师指点,学透 NLP 只需要走好三步。
在学习本书的内容之前,读者需要具备一些基础知识,包括基本的数学概念和机器学习的基础知识,如概率论、概率图模型、神经网络等。如果你已经准备好了,那我们继续前进。
本书将 NLP 的知识分为三部分,分别是
基础、序列、结构
。
从最基础的自然语言处理技术入手,讲解了文本规范化、文本表示、文本分类和文本聚类等内容。通过学习这些基础知识,读者可以了解如何将文本转化为计算机可以理解和处理的形式,以及如何对文本进行分类和聚类,为后续的学习打下坚实的基础。
书中深入探讨了自然语言的序列建模技术,包括语言模型、序列到序列模型、预训练语言模型和序列标注等内容。
通过学习这些内容,读者将了解对文本序列进行概率建模的方法。书中还介绍了预训练语言模型将语言模型和序列到序列模型在大量数据上进行预训练,获取通用语言学知识的过程。