三问 Christopher Manning：超越模型存在的语言之美

机器之心 · 公众号 · AI · 2017-09-01 11:39

正文

机器之心原创

作者：邱陆陆

「深度学习的波浪在计算语言学的海岸线上往复经年，而今已如海啸一般向所有的自然语言处理（NLP）会议发起冲击」。两年前，在北京，Christopher Manning 如是展开了 ACL 2015 的结语。

事实上，自然语言处理领域就像一个处于环太平洋地震带上的岛国，地震与海啸来了又去，岛上的常住民已经习以为常。Manning 就是自然语言领域里的这样一位「常住民」。1993 年，《计算机语言学》杂志发行了一本特刊，专门讨论如何应用势头强劲的「经验式方法」（empirical methods）。当时，取得了三个（！）学士学位（数学、计算机和语言学）的 Manning 正在斯坦福攻读语言学博士学位。1999 年，《计算机语言学》杂志里，至少一半的工作采用了经验式的方法。这时候，Manning 带着他油墨未干的、重达 1.66 千克教科书《统计自然语言处理基础》，作为斯坦福自然语言处理组（Stanford NLP Group）的创始成员回到了母校。这一待就是 18 年。18 年后的今天，当年的方法又被深度学习「拍死在沙滩上」成了前浪，但在学者之中，Chris Manning 与他的研究热度丝毫不减。从树形 RNN 到基于神经网络的依存句法分析，Manning 毫无疑问是一位深度学习在 NLP 领域的开拓者。

然而，这位著作等身的学者对待深度学习的态度十分矛盾。一方面他对「神经网络的统治地位」毫不讳言：「2017 年 NLP 领域的共识是，无论研究什么问题，丢个双向 LSTM 模型一定能搞定它，不行再加个注意力模块。」而另一方面，作为一位对语言的结构性深信不疑的研究者，他时常为简单粗暴的神经网络所取得的「令人惊讶的效果」感到「感伤」：「人类能够理解彼此，不是因为我们会对听到的词做局部加权平均。然而在很多自然语言处理任务上，我们无法做出比使用加权平均效果更好的模型，这让我非常担心。」

图：Manning 一份演讲 PPT 里的哭脸

欣慰也好，担心也罢，深度学习已经不可避免地卷起惊涛，拍上堤岸，波及的范围不止于学界，也到了业界，甚至公众范围中。在刚刚过去的七月里，Facebook 由于多轮对话引擎效果欠佳而选择关停，却让英国镜报和福布斯这样的老牌媒体翻出了压箱底的黑客帝国剧照，祭出了《FB 人工智能发明自己语言引发工程师恐慌，紧急拔电源》这样的标题，很是喧腾了一阵。

图：引发恐慌的两个小结巴

在嘈嘈切切的背景里，自然语言之岛上的「原住民」们过着怎样的生活？八月，Manning 时隔两年再次来到北京，机器之心带着三个问题，与他谈了谈他的欣慰与担心，他受到的影响与影响到的人，以及他的语言梦想与当下的选择。

第一问：深度学习的流行有没有改变自然语言处理的初衷？

一直以来，人们对「自然语言」寄予厚望，将其与「图像」和「语音」并提，视作深度学习有望颠覆的第三个领域。然而自然语言与另外二者存在着显著的不同：

图像和语音领域都存在一个公认的主要任务：我们可以「解决」物体识别问题，可以「降低」词错误率，领域里的目标明确清晰。而自然语言的问题从一开始就超越了感知层面进入了理解层面。即使是最「客观」的机器翻译，也不存在一个唯一的、百分之百正确的答案。

此外，由于语言的复杂性，语言学家花了大量的精力把语言这个大问题拆解成若干诸如词性标注、句法依存分析这样的子任务（component task），以便计算机理解。但是这些建立在大量规则和假设之上的子任务或许会帮助机器理解人类语言，却不见得是人类大脑使用语言的方法。因此，如果神经网络是一个模拟大脑的结构，那么为了让它发挥出更大的作用，是不是应该重新定义需要解决的问题？

Manning 认为，总的来说研究者还是把深度学习视为工具在解决原来问题，毕竟深度学习的好用性就体现在，它几乎能无差别提高所有自然语言任务的效果。而任务层面的思路转变主要存在于两方面：一是自然语言生成课题有了热度。在过去至少十年的时间里，研究者对语言生成都没有什么兴趣，因为太难了。而神经网络提供了一个做特定场景下自然语言生成的机会。二是确实存在研究兴趣从子任务到端到端整体任务的迁移，如今热门的机器翻译、阅读理解，都是典型的端到端任务。

而在任务的定义上，深度学习圈当下最大的疑惑是，分布式表示里，语素表示（component representation）究竟有没有作用，有多大作用。过去，自然语言学者在开始一项任务时会默认，学习词性和句子语法结构是通向自然语言理解的必经之路。然而现在的端到端任务上，最好的深度学习模型几乎都没有利用任何语素知识。

学者们一直在就「使用语素表示是否必要」展开辩论。乐观主义者选择相信深度学习的学习机制可以学到所有。只要提供更多文本，它就可以默默学会学习分布式表达、句法，然后完成端到端任务。另一群人，包括 Manning 自己，认为把额外信息提供给深度学习模型是有用的，问题只是怎么做能达到最好的效果：是进行多任务学习，让模型同时尝试完成不同的子任务，从而引导它学习结构更好的、对语法更敏感的表达；还是仍然做一个流水线模型（pipeline model），像传统的系统一样，先学会句子结构，再接上后续的深度学习模型。「我确信会有把子任务结果合理融合进深度学习模型的机会。」Manning 这样总结道。

第二问：联结主义（connectionism）是否有可能与符号主义（symbolism）携手并行？

「有！」他的回答毫不犹豫。

符号主义者认为人脑的认知过程和计算机的符号计算过程类似。信息就像存储在计算机里的一串串的字符，而认知就像按照程序的指令依序生成字符串。然而联结主义者认为，信息是以非符号化的形式存在在神经网络的神经元间权重里的。认知是一个动态的分层的过程，每个神经元的激活与否取决于神经元间的权重和与其相连的神经元的活动情况。

当然，这两派看似水火不容的观点，也并非全无交点。Manning 就提到了一位试图调和两种范式的「实现型」联结主义者： Paul Smolensky。Smolensky 是一位有物理背景的机器学习研究者，由于对语言学过于感兴趣，最终成为了一名认知科学家。他觉得，人类大脑的「硬件」构造可能和现行的神经网络不太一样。它像神经网络一样，存在众多分布式的、具有连续值的表示。但是很多高级的认知过程是在符号层面完成的。这个符号体系可能稍显凌乱，比如随着时间推移，一个词的意思乃至词性都可能发生很大变化，但是大脑的语言、视觉以及其他很多工作（比如数学推理），可以说基本上是符号层面的。比如，人的眼睛接受到一个连续的画面，但是出现在大脑里的却是小孩、椅子、桌子这样的符号。所以 Smolensky 认为，你在你的大脑里编码了大量符号化的表达，然后，如同逻辑表达式的生成过程，你可以在脑海里把符号表示结合在一起组成更大的表示，然后在这个层面完成计算。「我觉得这个大方向是对的」，Manning 说。

那么，联结主义和贝叶斯学派呢？

三问 Christopher Manning：超越模型存在的语言之美

正文

请到「今天看啥」查看全文