专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

本周值得读 | 不容错过的7篇paper

PaperWeekly · 公众号 · 科研 · 2017-03-26 17:27

正文

➊

Guided Perturbations: Self Corrective Behavior in Convolutional Neural Networks

本文来自 UMCP 和 GE Global Research Center，文章提出一种通用的提高 CNN 性能的方法，无需学习和调整模型参数，为输入加上有引导性的结构扰动（guided structural perturbation）使预训练好的模型性能提高。2013 年 Goodfellow 和 Szegedy 发现模型对添加特定噪声的对抗样本误分类的情况，说明了 DNN 泛化能力存在问题，本文使用与其相反的思路来改善模型泛化能力。

将网络输出结果转换为 1-hot encoded vector（最大的置信类别设为 1，其他的都为 0），将其作为 groundtruth 求 loss 函数的值然后回传计算对输入层的梯度，将这个梯度乘一个非负的 scaling factor，然后加到原本的输入上即为扰动后的输入数据。文中有比对过不同数值的 scaling factor，大概 0.5 到 2 之间有比较好的效果。这种扰动的影响可以看做一种残留信息，在网络中传递时使得各个像素的上下文内容变得平滑了。（附一句原文：perturbations of the input image could be viewed as a form of structured distortion that is added to the input such that the context gets amplified in each pixel’s neighborhood which enables the network to correct its own mistakes）。文章最后还指出对网络中其他层做类似调整能进一步提高效果，也分析了对耗时的影响（速度和性能的权衡）。

论文链接：https://arxiv.org/abs/1703.07928

推荐人：刘桐，天津大学（PaperWeekly arXiv 组志愿者）

➋

#GAN#

Generalization and Equilibrium in Generative Adversarial Nets (GANs)

文章出自普林斯顿大牛 Sanjeev Arora。本文的贡献主要有三点：

1. 泛化能力是衡量生成模型好坏的一个重要标准，本文指出 JS 散度、Wasserstein 距离都不能很好地衡量模型的泛化能力，为此，文中提出了一种基于 discriminator 的 neural network divergence/distance，用于衡量模型的泛化能力。

2. 作者还证明了 WGAN 的纯策略纳什均衡解的存在性。

3. 作者提出了 MIX+GAN（混合策略 GAN）的训练模式，该模式在实际训练中更稳定，并且证明了混合策略纳什均衡解的存在性。

论文链接：https://arxiv.org/abs/1703.00573

推荐人：洪佳鹏，北京大学（PaperWeekly arXiv 组志愿者）

➌

Very Deep Convolutional Networks for Text Classiﬁcation

作者来自 Facebook AI Research 和法国勒芒大学，该文章首先使用深层的神经网络来处理 NLP 任务，提出一种字符级深层卷积神经网络（VDCNN）用于文本处理，最多使用了 29 层卷积神经网络，更新了部分文本分类任务的 state-of-the-art。该文章延续了（Zhang）等人 15 年的文章用于文本分类的字符级卷积神经网络，包括测试数据和字符级信息拥吻文本分类任务，并给出深度分别为 9,17,29 的测试结果，证明深度确实能提高性能（精度）。该文章是首篇将用于 NLP 的神经网络向深度发展的文章。

论文链接：https://arxiv.org/abs/1606.01781

相关论文：https://arxiv.org/abs/1509.01626

相关源码：https://github.com/geduo15/Very-Deep-Convolutional-Networks-for-Natural-Language-Processing-in-tensorflow

推荐人：庄航，中科大（PaperWeekly arXiv 组志愿者）

➍

Predicting Deeper into the Future of Semantic Segmentation

本文来自 Facebook AI Research，给定一个语义分割过的视频序列，预测尚未观看到的帧的分割结果，可以预测短时（2 秒内较准确）、中时和长时的分割结果，总体上比 baseline 准确度提高 25%。使用 state-of-the-art 的 semantic segmentation 模型（multi-scale dilated-10 semantic image segmentation network）来提供 label，不需大量的人工标注来分析。使用 CNN 隐式的分析 semantic segmentation map 中的信息，不需显式的为目标和场景建模。模型使用了 Adversarial 训练方式，可以批量（batch）的预测，即一次性预测未来的很多帧，也可以 autoregressive 的预测，即迭代式的使用一帧预测下一帧。

论文链接：https://arxiv.org/abs/1703.07684

推荐人：刘桐，天津大学（PaperWeekly arXiv 组志愿者）

➎

#GAN in NLP#

Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets

GAN 理论的热度仍在持续，但 GAN 在 NLP 任务中的应用并不那么理想，本文尝试在经典的机器任务中应用了 GAN 理论，并给出了定量地分析，是一次积极的尝试。

论文链接：https://arxiv.org/abs/1703.04887

➏

#NMT#

Massive Exploration of Neural Machine Translation Architectures

本文的实验只有 Google 这种级别的大厂才能做的出，本文对大型 NMT 模型训练过程中各个超参数对结果的影响进行了实验分析，得出了许多有意义的结论：（1）embedding 用 2048 维结果最好，但没好到哪里去，128 维就基本上结果不错了；（2）LSTM 比 GRU 效果好；（3）2-4 层的双向 encoder 效果最佳等一些比较有指导意义的结论。

论文链接：https://arxiv.org/abs/1703.03906

相关代码：https://github.com/google/seq2seq/

感觉没几家有能力复现出来，因为 Google 花了 250,000 GPU hours 来训练。不过结论却是很有意义，毕竟调参是个技巧活。

➐

#NMT#

最后推荐一个基于 dl4mt 框架的 NMT 框架 Nematus，功能更多，感兴趣的同学可以看过来。

框架介绍 paper 地址：

https://arxiv.org/pdf/1703.04357.pdf

相关代码：https://github.com/rsennrich/nematus

✎✎✎

本期「每周值得读」的部分内容来自 PaperWeekly arXiv 志愿者小组推荐，如果您也是arXiv 爱好者，愿意一起来丰富 PaperWeekly 的推荐内容，就请加入我们吧。请添加下面的微信号，并注明「学校+硕士生/博士生+研究方向」，一起来为 AI 领域学术的发展贡献自己的一份力量。

关于PaperWeekly

PaperWeekly 是一个分享知识和交流学问的学术组织，关注的领域是 NLP 的各个方向。如果你也经常读 paper，喜欢分享知识，喜欢和大家一起讨论和学习的话，请速速来加入我们吧。

关注微博: @PaperWeekly
微信交流群: 后台回复“加群”