文 | Sergi Castella Sapé
2019 年这一年,称得上是“BERT 年”。相信这句话大家已经听过很多遍了。而众所周知,BERT 的基本框架——Transformer 自 2017年中提出以来,已然成为了NLP 领域的经典之作。老实说,Transformer 对 NLP 研究界产生的影响,真算不上高估:长短期记忆网络(LSTM) 虽然现在听起来有点过时,然而2019年研究者们逐步发表了大量高水平的相关论文,与此同时,谷歌发布的 BERT 能够以史无前例最快的速度将NLP 产品化。而上述这些成果,也让迁移学习( Transfer Learning)成为 NLP 领域中“最酷的孩子”。迄今为止,NLP 领域围绕这些模型取得了显著的发展,然而是否就能说Transformer已经到达顶峰了呢?我们接下来该重点关注哪些领域呢?基于注意力机制的网络在 2020 年又将取得哪些令人兴奋的成果呢?2019年见证了Transformer模型在架构变体上的激增,研究者们甚至很难跟上这一发展速度:大堂兄弟有Transformer-XL、GPT-2,、Ernie、 XLNet、RoBERTa 和 CTRL;小堂兄弟有ALBERT和DistilBERT;最近出生的侄子则有Reformer、Compressive Transformer等等。显而易见,现在这些新出现的模型依旧能够成功改进在很多任务上的性能,但是它们改进的价值又到底有多大?模型在维持性能的情况下变得越来越小,已经成为 2019 年模型发展的趋势,2020 年势必也还将保持这一趋势。然而除模型剪枝或蒸馏以外,2020年是否有可能出现一些创新的方法呢?而如今已无处不在的Transformer开发库的开发者—— HuggingFace 研究人员,现在又通过对 DistilBERT的训练方法,展现了令人耳目一新的趋势。“学习信号”对于人类发展智能,至关重要。图源自:Rachel诞生便自带光环的新架构会引发很多关注和讨论的声音(双关语),但是在 ML 领域,学习信号从后台运行演示。从广义上讲,模型的性能受到模型表达能力和训练信号质量(强化学习中的目标或奖励、深度学习中的损失)组合中最弱因素的限制。以在 student-teacher 的设置下训练 DistilBERT为例,在该设置中,student 网络(更小的)尝试模仿teacher 网络(原始的)。通过增加这一设置而不是仅仅在原始的语言建模任务上训练,student 网络的损失函数会更加丰富,从而让网络更具表现力地学到很多。如果你对此存疑,不妨回想一下2014年 GAN 发生了什么:当这个简单的网络耦合到一个有趣的损失函数(另一个网络)时,产生了神奇的魔法效应!自监督和语言建模作为语言任务的通用训练信号,应该像架构革命一样,被视作 NLP 领域取得巨大进展的“功臣”。2020 年,希望这一领域再出现创新成果!你可能听说过,磁北极和地球磁极并不是完全对齐的;实际上,磁极年复一年地在不停地摆动。不过,如果你地处荷兰附近,想前往“真正”的北极,传统的指南针将是一个极好的向导;至少比没有要好。然而,当你离目的地越来越近时,指南针的偏斜会越来越明显,它的向导作用就越来越小了。
类比到人工智能研究中,可以清楚地发现:客观测量是科学发展的基石,即使是有偏的测量也往往比完全没有要好。如何测量进展,是一个领域如何发展以及最终选择研究什么问题的重要驱动力;这正是我们需要根据引导最佳发展的激励因素,全面设计测量指标的原因。在过去几年中,标准的 NLP 任务一直都是研究的指向标。然而,越是快要解决一个数据集问题的时候,它作为进展的一个测量指标表现就越差,这也是为什么非常期待在2020 年能够出现取得里程碑式进展的新基准的原因。 2020年2月份GLUE 基准排行榜,Source: gluebenchmark.com例如,Facebook 研究院的研究人员正在为长句式的问答开发新的数据集和基准:ELI5 (Explain to Me Like I’m 5)。这个新的数据集旨在推动开放域问答领域的研究进展,突破Transformer当前擅长的任务的界限。[…]长句式问答数据集主要面临着在长源文档中分离相关信息和针对复杂、多样化的问题生成段落长度的解释的双重挑战。
另一个关于新数据集的有意思的案例是DeepMind 发布的语言建模基准PG-19,该基准携手另一个Transformer 的变体—— Compressive Transformer,可用于书本级的长上下文语言建模。此外,该任务还有望帮助Seq2Seq模型克服在处理(非常)长期的依赖关系时当前所面临的局限性。即便是无处不在的GLUE基准,现在也在进行必要的整改。其中SuperGLUE 就是它的一个强有力的竞争者,近期有望成为语言理解的通用基准。不仅如此,SuperGLUE 还囊括了其他更具挑战性的任务和更复杂的人类基线。如果不提到我最近最喜欢的一篇论文——François Chollet的《测量智慧》,这一部分就不能称之为完整了。针对测量智慧这一问题,论文颇具哲学论调,不过还是提出了一个具体的建议:抽象推理语料库以及更具挑战性的 Kaggle 挑战赛。迄今为止,我们还没有完全理解系统的神秘之处。我们对算法中智能的感知,往往与我们对其机制的理解程度成反比。不久前,人们曾认为,掌握国际象棋需要智力;而在1996年“深蓝”在国际象棋比赛中击败了 Gary Kasparov后,我们明白了:机器掌握国际象棋,并不需要智力。围绕“为什么会出现这样问题”建立一个坚实的理解,对于一个领域取得进展至关重要,这就是为什么即便模型在任务排行榜上看起来很不错,我们也不应该在没有仔细调查其内部原理的情况下就对其能力过早地下结论。现在已经有很多工作将这一理念纳入到Transformer 范畴中,致力于解释他们提出的这些模型的工作原理为什么跟Transformer 一样。不过最近的文献还没有完全趋同到一个明确的结论上。例如,在研究BERT的预训练模型的行为时,“BERT正在看什么?”(相关论文:https://arxiv.org/pdf/1906.04341.pdf)的结论是:某些注意力负责检测语言现象。然而与许多直觉相反的是,“注意力不是一种解释”的观点(相关论文:https://arxiv.org/pdf/1902.10186.pdf)坚称注意力不是解释 BERT理解了什么的可靠信号。“揭示BERT的黑暗秘密”的论文(链接:https://www.aclweb.org/anthology/D19-1445.pdf)则为模型在微调过程中发生的行为提供了有价值的见解,不过其结论的广度也是有限的:注意力没有捕获到清晰的语言现象,BERT严重地过度参数化(令人惊讶!🤯),而事实上,BERT解决大多数任务都不需要变得非常聪明。这种定性的探索很容易被忽略,因为它不会出现在度量标准中,但是我们应该时刻关注这种探索。总之,关于Transformer为什么厉害还有一众秘密待揭晓,这也是为什么在2020年等待这个领域出现新的研究是令人兴奋的。以上是我最想表达的观点,尽管还有许多其他值得关注的主题也应当在本文中提及,比如像Transformer 这样的框架将如何继续发展来推动研究工作,如何扩展迁移学习的能力,或者有哪些新方法能够有效结合符号推理与深度学习方法。
via:https://towardsdatascience.com/beyond-bert-6f51a8bc5ce1?gi=942c3f7b7a38
点击“阅读原文” 查看 ICLR 系列论文解读