专栏名称: AI科技大本营

迎来到AI科技大本营。这里汇集了优秀的AI学习者，技术大咖和产业领袖；提供接地气的实战课程。在这里和优秀的人一起成长。

必读：ICLR 2020 的50篇推荐阅读论文

AI科技大本营 · 公众号 · AI · 2019-10-30 15:05

正文

来源 | 香侬科技

本文整理了ICLR2020的相关论文，此次分享的是从Openreview中选取的部分论文，共50篇，其中大部分为NLP相关。文中涉及的相关论文推荐指数与推荐理由仅为个人观点，利益无关，亦不代表香侬科技立场。希望大家可以从中获得启发。

推荐指数4.0论文

论文1

Reducing Transformer Depth on Demand with Structured Dropout

https://openreview.net/pdf?id=SylO2yStDr

推荐说明： 还是那个问题，Transformer、BERT等模型太大，我们想要给模型瘦身而效果不减。

本文提出使用LayerDrop——随机丢弃一些层，来给模型减肥。这种Drop方法既可以起到正则化的效果，更重要的是，它可以无痛剪枝，不需要再次微调，一劳永逸，简直令人激动。

推荐理由： 方法非常优雅，在多个任务上的实验也表明了这种方法的有效性，怎一个好字了得。

推荐指数： 4.0

论文2

On Layer Normalization in the TransformerArchitecture

https://openreview.net/pdf?id=B1x8anVFPr

推荐说明： 我们知道，在原始的Transformer中，Layer Norm在跟在Residual之后的，我们把这个称为Post-LN Transformer。

而且用Transformer调过参的同学也知道，Post-LN Transformer对参数非常敏感，需要很仔细地调参才能取得好的结果，比如必备的warm-up学习率策略，这会非常耗时间。

所以现在问题来了，为什么warm-up是必须的？能不能把它去掉？

本文的出发点是：既然warm-up是训练的初始阶段使用的，那肯定是训练的初始阶段优化有问题，包括模型的初始化。

从而，作者发现，Post-LN Transformer在训练的初始阶段，输出层附近的期望梯度非常大，所以，如果没有warm-up，模型优化过程就会炸裂，非常不稳定。

既然如此，本文作者尝试把LayerNorm换个位置，比如放在Residual的过程之中（称为Pre-LN Transformer），再观察训练初始阶段的梯度变化，发现比Post-LN Transformer不知道好到哪里去了，甚至不需要warm-up，从而进一步减少训练时间，这一结果的确令人震惊。

推荐理由： 本文别出心裁，用实验和理论验证了Pre-LN Transformer结构不需要使用warm-up的可能性，其根源是LN层的位置导致层次梯度范数的增长，进而导致了Post-LN Transformer训练的不稳定性。

本文第一次将warm-up、LayerNorm、gradient和initialization联系起来，非常值得一读！

推荐指数： 4.0

推荐指数3.5论文

论文3

Copy That! Editing Sequences by CopyingSpans

https://openreview.net/pdf?id=SklM1xStPB

推荐说明： 对于文本修改任务如纠错，SEQ2SEQ方法其实并不好，这是因为大部分文本没有错，只需要单纯copy即可。

本文基于大篇幅copy现象提出copy spans方法去动态地修改序列。方法非常简单，但在代码修复、语法纠错任务上表现很好。

推荐理由： 方法简洁有效，未来有很大的扩展空间。

推荐指数： 3.5

论文4

SuperBloom: Bloom Filter MeetsTransformer

https://openreview.net/pdf?id=SJxy5A4twS

推荐说明： Bloom Filter是用来判定一个元素“是否一定不在集合”中的方法，也就是说，BF只有两种结果：可能在与一定不在。BF使用的是哈希表方法。

另一方面，词向量表一般非常大，这会降低训练和推理的效率。本文在Transformer中使用BF算法，对词向量矩阵大幅瘦身，并且在多个实验上达到Recall的提升。

推荐理由： 方法非常有趣，效果也很明显。

推荐指数： 3.5

论文5

Calibration, Entropy Rates, And Memory inLanguage Models

https://openreview.net/pdf?id=B1eQcCEtDB

推荐说明： 本文集中回答一个问题：语言模型生成句子的长距离依赖和真实语言的长距离依赖之间应该如何比较。以往的度量是用熵率衡量，越小越好。

但是，GPT-2尽管实现了23.7的PPL，它的熵率却达到了61.2，这说明这两个指标并不是在说同一件事。本文提出一种基于校准的方法检测和修正语言模型长距离依赖和真实分布之间不一致问题。

推荐理由： 本文有助于学界重视LM中长距离依赖和future-aware的问题。

推荐指数： 3.5

论文6

DEFINE: Deep Factorized Input WordEmbeddings for Neural Sequence Modeling

https://openreview.net/pdf?id=rJeXS04FPH

推荐说明： 还是那个问题，词典太大导致首尾两个embedding参数量庞大（实际上也没必要，因为很多词出现频率很低）。

本文提出使用“低维嵌入—>分层分组变换—>高维嵌入”的方法降低参数量，直接把Transformer-XL的参数化降一半。

在WikiText-103和PTB上的实验表明，参数量大幅减少的同时效果却不差；在WMT2014 En-De上的实验表明，参数量的降低是显著的。

推荐理由： 这种方法真的挺优雅的，感觉还可以改进，比如把FFN换成Attention和Conv啥的魔改一下。

推荐指数： 3.5

论文7

Understanding Knowledge Distillation inNon-Autoregressive Machine Translation

https://openreview.net/pdf?id=BygFVAEKDH

推荐说明： 之前我们给大家写了一个简单的NAT的介绍（打个广告：

https://zhuanlan.zhihu.com/p/73417154）。

其中基本都使用到了知识蒸馏（就是用teacher模型的输出当作NAT模型的输出目标），但是为什么非要这么做呢？难道用有噪音的输出不会效果更差吗？

本文使用大量实验告诉我们：蒸馏降低了NAT模型的条件熵。基于此，本文还提出了几种进一步提高NAT效果的方法，已经和AT效果差不多了。

推荐理由： 知识蒸馏恐怖如斯！

推荐指数： 3.5

论文8

Encoder-Agnostic Adaptation forConditional Language Generation

https://openreview.net/pdf?id=B1xq264YvH

推荐说明： 众所周知，对于非生成类任务，大型预训练模型已经成为刷SOTA的标配，但是怎么把预训练用到语言生成上去呢？

本文提出了三种encoder-agnostic的方法，将任一encoder得到的特征表示送入decoder并生成相应任务的句子。这里的encoder是具体任务相关的、随机初始化的。

而这三种方法的区别在于，decoder的不同部分有不同的初始化，但总的来说都分为使用预训练模型初始化或随机初始化。整个模型使用监督方法训练。在多个生成任务上的实验表明，这种方法的确可以显著提高生成效果。

推荐理由： 方法简单、有效、通用。

推荐指数： 3.5

论文9

Combiner: Inductively Learning TreeStructured Attention in Transformers

https://openreview.net/pdf?id=B1eySTVtvB

推荐说明： 本文使用了Sparse Attention和Hierarchical Attention Block的方法去得到句子的语法树，只需要对Transformer稍作修改，就可以取得相当好的结果。

和前一篇GrammarInduction文章不同，本文注重得到句子结构，也就是语法树，而前者注重语法规则。

推荐理由： 效果是真的不错，方法也很优雅，推荐阅读。

推荐指数： 3.5

论文10

Encoding Word Order in Complex Embeddings

https://openreview.net/pdf?id=Hke-WTVtwr

推荐说明： 本文提出一种通用的基于复数的方法去直接导出词向量，从而综合了词向量和位置向量，还可以表示词之间的相对距离。

而且Transformer中的positional embedding和word embedding结合方式可以看作是本文方法的一种特殊情况。在多个任务上的实验表明了这种方法的有效性。

推荐理由： 复数空间非常有趣，很有发展潜力。

推荐指数：3.5

论文11

Large-scale Pretraining for NeuralMachine Translation with Tens of Billions of Sentence Pairs

https://openreview.net/pdf?id=Bkl8YR4YDB

推荐说明： 本文在40B的超大数据上验证了NMT模型的效果，并且提出了一种平衡数据集利用和预训练效率的方法。

实验结果表明，大规模预训练的确可以显著提高NMT效果，而且也从经验上验证了在大语料下大模型的必要性。我们在WMT17 Ch-En上实现了32.3的BLEU值，达到新的SOTA。

推荐理由： 本文简直是暴力出奇迹的典范，虽然暴力，但是也确实验证了数据集和模型大小的有用性，还提出了大力下的训练方法，为广大“贫穷”的科研人员开辟了一条研究的路。

推荐指数： 3.5

推荐指数3.0论文

论文12

An Exponential Learning Rate Schedule forBatch Normalized Networks

https://openreview.net/pdf?id=rJg8TeSFDH

推荐说明： 这是一篇无关NLP的论文。本文提出了一个每次乘以(1+a)的指数递增学习率schedule方法，并在数学上证明它等价于BN + SGD + WD + Momentum + Standard Rate Tuning。

本文的出发点基于各种Normalization方法的scale-invariant性质：rescale模型的参数不会改变模型的预测结果。

因此，本文的方法可以总结为：（在使用如BN的Normalization方法的模型上）将初始学习率调为一个合适的值（如0.1），然后以（1+a）指数增长；当验证集的loss不再降低之后，再以（1+b,b

推荐理由： 本文突破了以往的固有想法——学习率要不断下降，从理论上验证了在Normalization下学习率指数上升的等价性，具有一定新颖性。

推荐指数： 3.0

论文13

Improving the Gating Mechanism of Recurrent Neural Networks

https://openreview.net/pdf?id=r1lnigSFDr

推荐说明： 各种模型内的门控机制期望可以动态地实现信息的更迭，保留重要的信息而丢弃不重要的信息。

从BP的角度看，保留信息实际上是梯度的保留，也就是接近函数的饱和区域（梯度约为1，也即函数值接近0或1）。但问题是，一旦接近饱和区域，模型实际上很难建模长距离信息。

本文使用两种方法缓解这些问题：（1）对遗忘门初始化为[0,1]上的均匀分布；（2）提出一个refine gate。在多个任务的实验验证了这种方法的有效性。

推荐理由： 本文探究了一系列门控方法，并且提出了一种新的门控方法——UR-LSTM，可以更好地建模长距离依赖。另外，本文的实验图很好看。

推荐指数： 3.0

论文14

Masked Translation Model

https://openreview.net/pdf?id=HygaSxHYvH

推荐说明： 长期以来，机器翻译都是基于seq2seq架构和AR生成。

本文提出的Masked Translation Model把编码器和解码器融合在一起，基于Mask方法，既可以AR生成，也可以Non-AR生成，还提供多种解码策略，非常flexible，可以看作一种更通用的KERMIT模型。

推荐理由： 这种翻译方法近来非常流行，本文继续提高了这种方法的翻译结果，不但可以做翻译，甚至可以做LM、Text Editing等，很方便。

推荐指数： 3.0

论文15

Multichannel Generative Language Models

https://openreview.net/pdf?id=r1xQNlBYPS

推荐说明： 本文提出了一个改进的KERMIT模型，用于建模多语言（这里称为多channel）的联合分布，如此既可以进行条件生成（如MT），也可以进行无条件生成（直接生成句子），不但可以AR生成，也可以Non-AR生成，功能丰富。

推荐理由： 再次强调这种通用模型，是非常厉害的！

推荐指数： 3.0

论文16

Semi-Supervised Named Entity Recognitionwith CRF-VAEs

https://openreview.net/pdf?id=BkxnKkrtvS

推荐说明： 本文独具匠心地把CRF和VAE相融合去做半监督下的NER。

标准情况下的NER是编码器->CRF->输出标签，而本文还加入了未标注文本，把CRF当成一种近似后验加入优化ELBO，从而实现半监督下的模型学习。实验证明了这种方法具有一定有效性。

推荐理由： 方法很有趣，但不太优雅。

推荐指数： 3.0

论文17

A Probabilistic Formulation ofUnsupervised Text Style Transfer

https://openreview.net/pdf?id=HJlA0C4tPS

推荐说明： 本文以一种概率生成模型的角度去分析无监督文本风格迁移，在没有平行语料的情况下，训练两个领域的隐平行句子。

然后使用两个LM先验模型+两个共享参数的领域转换模型直接去建模整体联合分布，然后使用ELBO优化模型。在多个数据集上的实验结果表明本文的方法可以提高Acc和BLEU值。

推荐理由： 以一种概率分布的视角搭建起了无监督文本风格迁移各种方法的桥梁，可以读一下。

推荐指数： 3.0

论文18

Word Embedding Re-Examined: Is theSymmetric Factorization Optimal?

https://openreview.net/pdf?id=HklCk1BtwS

推荐说明： 本文从理论上分析了word embedding具有一些良好性质的原因，本质上是共现矩阵到嵌入空间的低秩变换，这使得词之间的相对距离得以保留，从而共现矩阵有的性质，word embedding也得以继承。

推荐理由： 本文的证明过程具有一定的指导意义。

推荐指数： 3.0

论文19

Learning to Contextually AggregateMulti-Source Supervision for Sequence Labeling

https://openreview.net/pdf?id=HJe9cR4KvB

推荐说明： 本文学习了一个聚合同一任务不同数据源数据的序列标注模型，可以通过这种方法缓解数据内标注分布偏移和噪声的问题，也可以用于学习跨领域的数据。

推荐理由： 方法简单，效果不错，跨领域学习也有吸引力。

推荐指数： 3.0

论文20

BERTScore: Evaluating Text Generationwith BERT

https://openreview.net/pdf?id=SkeHuCVFDr

推荐说明： BERT既然这么牛逼，为什么不能用它作为一种度量标准呢？直接把生成句子和参考句子怼进BERT，然后计算token之间的cos相似度，然后用一个max-pool，再玄学算一下，暴力有效，因吹斯听！

推荐理由： 据说和人类评估更接近，而且也比较鲁棒（这篇文章好像是某会被拒了，重投ICLR）。

推荐指数： 3.0

论文21

Parallel Neural Text-to-Speech

https://openreview.net/pdf?id=BJeFQ0NtPS

推荐说明： 传统的TTS一般是follow了一个多流程的pipeline，近年来基于深度学习的方法使用的是seq2seq，比如WaveNet、ClariNet等。

本文提出ParaNet，一种Non-AR的TTS方法，直接提取Mel频谱，再使用Attention蒸馏，速度很快，效果不错。

推荐理由： 文本转语音的研究比较少，可以拿出来给大家复（预）习下。

推荐指数： 3.0

论文22

Contextual Text Style Transfer

https://openreview.net/pdf?id=HkeJzANFwS

推荐说明： 本文介绍了一种新的任务：上下文相关文本风格迁移。所谓上下文相关，就是在迁移的时候要保持上下文语义的一致性，这就在单纯的文本风格迁移上多了一层要求。

本文提出的方法基于半监督，使用了多个损失，比较复杂，但是不难理解，效果却也不错。

推荐理由： 挖了个新坑，妙啊。

推荐指数： 3.0

论文23

Are Transformers Universal Approximationsof Sequence-to-Sequence Functions?

https://openreview.net/pdf?id=ByxRM0Ntvr

推荐说明： 本文从理论上证明了：Transformer是一个支持连续和置换不变性序列到序列函数的通用近似器，只要有足够好的positional embedding。

此外，本文还发现把self-attention替换成其他的一些上下文映射函数可以取得更好的效果。

推荐理由： 满页的公式，还是你们来。

推荐指数： 3.0

论文24

TABNET: Attentive Interpretable TabularLearning

https://openreview.net/pdf?id=BylRkAEKDH

推荐说明： 本文提出使用sequential attention去建模表格型数据，适用于各种分类和回归任务。

推荐理由： Kaggle福利，现成模板，童叟无欺。

推荐指数： 3.0

论文25

Mixout: Effective Regularization toFinetune Large-Scale Pretrained Language Models

https://openreview.net/pdf?id=HkgaETNtDB

推荐说明： 本文提出一种新的用于微调预训练模型的L2正则化方法：mixout。

所谓mixout，就是在微调的整个过程中，动态地融合两个阶段模型的参数的方法，这样可以使得微调渐次进行，不至于导致效果的崩塌。在GLUE几个任务上的实验验证了该方法的有效性。

推荐理由： 方法挺有趣，可以进一步推广到其他任务看看效果。

推荐指数： 3.0

论文26

Language GANs Falling Short

https://openreview.net/pdf?id=BJgza6VtPB

推荐说明： 评价一个模型生成句子的效果有两方面的指标：质量和多样性。只重视前者而忽略后者会导致exposure bias，尤其对于像GAN这种生成模型。

本文创造性地使用temperature作为一种评估模型quality-diversitytrade-off的指标。通过这种方法，作者发现基于MLE的生成模型在quality/diversity上都超过了基于GAN的方法。

推荐理由： 很有意思的文章，不过GAN真的是弟弟？

推荐指数： 3.0

论文27

Unifying Question Answering, TextClassification, and Regression via Span Extraction

https://openreview.net/pdf?id=HketzTNYwS

推荐说明： 用BERT去做QA、文本分类和回归任务时，都是使用的最后一层单元的Span（或长或短），本文认为可以把这些任务综合起来进行。

对QA，按照原BERT处理，直接抽取即可；对文本分类，在文本前加上“positive ornegative”，然后让模型去判别“positive/negative”对应位置的span即可。

对句对分类，在文本前加上“entailment, contradictionor neutral”；对回归问题，直接对可能的值均匀分割成一些离散的值。

使用这种方法，我们有望把这些任务合在一种模型里，减少了模型的设计量，并且如果做成多任务，还可以提高有限数据量下的效果。

推荐理由： 本文来自Salesforce论文小分队，不用我多说了嗷。

推荐指数： 3.0

论文28

Are Pre-trained Language Models Aware ofPhrases? Simple but Strong Baselines for Grammar Induction

https://openreview.net/pdf?id=H1xPR3NtPB

推荐说明： 本文提出直接从预训练的语言模型中提取语法结构成分，形成语法树。

本文提出直接从Transformer-like的预训练语言模型中，利用其多头机制，直接提取各种短语结构，包括动词短语、名词短语、副词短语等。

本文在英语语法推导任务上验证了该方法的有效性，可以作为一个很强的baseline。

推荐理由： 不再训练，不用规则！语法推导，点击就送！

推荐指数： 3.0

论文29

Dynamically Pruned Message PassingNetworks for Large-scale Knowledge Graph Reasoning

https://openreview.net/pdf?id=rkeuAhVKvB

推荐说明： 知识图谱推理最近变得很火，这其实也是一个有巨大潜力的方向。以往的研究大多是给出一个推理路径（path-based）。

本文提出一种更灵活、更具解释力的方法，能够在推理的同时进行网络图剪枝得到子图（sub-graph），提高大规模知识图谱下的推理效率。

本文采用了attention、consciousness prior等多种方法，十分novel。

推荐理由： 新的推理方法，有探索价值。

推荐指数： 3.0

论文30

An Empirical Study on Post-ProcessingMethods for Word Embeddings

https://openreview.net/pdf?id=Byla224KPr

推荐说明： 本文又是一篇偏理论的文章，研究了词向量的后处理方法，把这种方法视为对Gram矩阵的缩放。

两个词向量集应该满足各向同性缩放，从而中心核对齐（CKA）可以作为一种度量，因此我们目标就是去最大化这个相似性度量。

为此，本文提出在半黎曼流形（semi-Riemannian manifold）上优化，并且scale了其中的单位矩阵。实验表明本文的方法具有一定效果。

推荐理由： 本文的词向量后处理方法看似很复杂，但实际上作者给出了步骤，还是非常直观的。

推荐指数： 3.0

论文31

Reinforcement Learning BasedGraph-to-Sequence Model for Natural Question Generation

https://openreview.net/pdf?id=HygnDhEtvr

推荐说明： 作为一个NLP中比较小众的领域，问题生成（QG）可以说是小众中偏困难的了。它比QA难在，它是一个纯粹的文本生成任务，而QA一般是作为分类任务。

本文首先提出一个对齐网络进行词层面和隐层层面的对齐；然后使用一个双向的图到序列生成器获得进一步的特征表示；最后使用一个RNN解码器生成句子。

而且，本文还使用了CE损失和RL损失相结合的方法保证语法和语义的兼顾。

推荐理由： 本文提出了一个基于RL损失的Graph2Seq模型用于QG，实验效果也是杠杠的。

推荐指数： 3.0

论文32

Topology of Deep Neural Networks

https://openreview.net/pdf?id=SkgBfaNKPr

推荐说明： 本文认为，从拓扑学的角度看，深度模型实际上是把拓扑上非常复杂的数据转化为简单的拓扑结构，使得在输出的时候线性可分，并且ReLU会使得这种简化过程更快。

推荐理由： 把深度学习模型置于拓扑学的观点下，给出了解释深度学习模型的一个非常直观的途径。

推荐指数：3.0

推荐指数2.5论文

论文33

Toward Controllable Text ContentManipulation

https://openreview.net/pdf?id=Skg7TerKPH

推荐说明： 表格转文本和受限文本生成是近期比较火热的议题，把二者结合起来又如何呢。

本文提出受限表格转文本生成方法，对给定表格和一个参考句，模型需要生成一段文本，文本的内容是描述表格，但风格却是参考句。

在这种设置下，本文首先构建了两个专门的数据集，然后使用seq2seq+attention+copy+reconstruction的方法训练模型。

推荐理由： 本文的出发点比较有趣，提出了一个简单实用的模型结构，并且结合了表格转文本和文本风格迁移两大主题，可以阅读。

推荐指数： 2.5

论文34

A Syntax-Aware Approach for UnsupervisedText Style Transfer

https://openreview.net/pdf?id=Bkll_kHFPB

推荐说明： 本文提出把预测语法标签作为附加任务去做无监督的文本风格转换，

损失还有三个：reconstruction, back-translation和discrimination。在几个常用数据集的实验上取得了一致的提高。

推荐理由： 这种语法多任务可以看作一种防止过拟合的手段，出乎我意料的是，效果竟然还不错。

推荐指数： 2.5

论文35

Compressive Transformers for Long-RangeSequence Modeling

https://openreview.net/pdf?id=SylKikSYDH

推荐说明： LSTM不能建模长距离序列，Transformer存储代价又太大，Transformer-XL会把很旧的单元丢掉，基于此，本文提出把Transformer-XL中要丢弃的部分压缩，当作一种“压缩记忆”。

怎么压缩呢？用花式CNN和Pooling……当然了，本文还提出一个新的数据集——PG-19，在这个数据集、WikiText-103和Enwiki8上达到SOTA。

通过各种实验，本文证明了对超长文本建模，CompressedTransformer的确表现最好。

推荐理由： 方法简单，但是有效呀！

推荐指数： 2.5

论文36

Contextual Temperature for LanguageModeling

https://openreview.net/pdf?id=H1x9004YPr

推荐说明： 在softmax中使用temperature已经是一个基本操作了，但是之前的温度设置要么全程固定，要么随训练保持规律地变化。

本文认为，温度大小应该和上下文有关，从而使用当前步的上文学习一个对当前步的温度，在MoS上进行LM实验，并且采用了多个正则项。大概有2个点的PPL提升。

推荐理由： 其实温度和上下文相关还是很有道理的，但是本文的方法比较简单，好在实验还做得不错。

推荐指数： 2.5

论文37

On Variational Learning of ControllableRepresentations for Text without Supervision

https://openreview.net/pdf?id=Hkex2a4FPr

推荐说明： 本文分析了使用VAE控制无监督文本生成的困难所在——后验空间的潜在空缺（latent vacancy）问题。

由此，本文提出使用两个损失项将后验高斯均值映射到一个受限空间中，从而鼓励该空间能够被“填满”，进行更好的优化。

这两个损失，一是结构化重构损失——一种max margin方法把目标往两个方向推，二是正则项——约束embeddingmatrix为正交。

推荐理由： 方法简单，效果尚可。

推荐指数： 2.5

论文38

Neural Markov Logic Networks

https://openreview.net/pdf?id=SkeGvaEtPr

推荐说明： 马尔科夫逻辑网络（MLN）是一种将一阶逻辑和概率图模型相结合的统计学习方法。

本文提出的神经马尔科夫逻辑网络（NMLN）不需要显式地指定一阶逻辑规则，而通过神经网络隐式地学习。在知识库填充和分子数据生成的实验上取得显著效果。

推荐理由： 看起来很厉害，有空学习下。

推荐指数： 2.5

必读：ICLR 2020 的50篇推荐阅读论文

正文

请到「今天看啥」查看全文