专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
募格学术  ·  博士一次安家费38.5万元,博士后补贴40- ... ·  2 天前  
研之成理  ·  加州大学河滨分校Fudong ... ·  3 天前  
实验万事屋  ·  博士硕士就共一发了17.3分的Nature子 ... ·  4 天前  
51好读  ›  专栏  ›  PaperWeekly

本周值得读 | 不容错过的7篇paper

PaperWeekly  · 公众号  · 科研  · 2017-03-26 17:27

正文


Guided Perturbations: Self Corrective Behavior in Convolutional Neural Networks


本文来自 UMCP 和 GE Global Research Center,文章提出一种通用的提高 CNN 性能的方法,无需学习和调整模型参数,为输入加上有引导性的结构扰动(guided structural perturbation)使预训练好的模型性能提高。2013 年 Goodfellow 和 Szegedy 发现模型对添加特定噪声的对抗样本误分类的情况,说明了 DNN 泛化能力存在问题,本文使用与其相反的思路来改善模型泛化能力。

将网络输出结果转换为 1-hot encoded vector(最大的置信类别设为 1,其他的都为 0),将其作为 groundtruth 求 loss 函数的值然后回传计算对输入层的梯度,将这个梯度乘一个非负的 scaling factor,然后加到原本的输入上即为扰动后的输入数据。文中有比对过不同数值的 scaling factor,大概 0.5 到 2 之间有比较好的效果。这种扰动的影响可以看做一种残留信息,在网络中传递时使得各个像素的上下文内容变得平滑了。(附一句原文:perturbations of the input image could be viewed as a form of structured distortion that is added to the input such that the context gets amplified in each pixel’s neighborhood which enables the network to correct its own mistakes)。文章最后还指出对网络中其他层做类似调整能进一步提高效果,也分析了对耗时的影响(速度和性能的权衡)。


论文链接:https://arxiv.org/abs/1703.07928


推荐人:刘桐,天津大学(PaperWeekly arXiv 组志愿者)



#GAN#


Generalization and Equilibrium in Generative Adversarial Nets (GANs)


文章出自普林斯顿大牛 Sanjeev Arora。本文的贡献主要有三点:


1. 泛化能力是衡量生成模型好坏的一个重要标准,本文指出 JS 散度、Wasserstein 距离都不能很好地衡量模型的泛化能力,
为此,文中提出了一种基于 discriminator 的 neural network divergence/distance,用于衡量模型的泛化能力。


2. 作者还证明了 WGAN 的纯策略纳什均衡解的存在性。


3. 作者提出了 MIX+GAN(混合策略 GAN)的训练模式,该模式在实际训练中更稳定,并且证明了混合策略纳什均衡解的存在性。


论文链接:https://arxiv.org/abs/1703.00573


推荐人:洪佳鹏,北京大学(PaperWeekly arXiv 组志愿者)



Very Deep Convolutional Networks for Text Classification


作者来自 Facebook AI Research 和法国勒芒大学,该文章首先使用深层的神经网络来处理 NLP 任务,提出一种字符级深层卷积神经网络(VDCNN)用于文本处理,最多使用了 29 层卷积神经网络,更新了部分文本分类任务的 state-of-the-art。该文章延续了(Zhang)等人 15 年的文章用于文本分类的字符级卷积神经网络,包括测试数据和字符级信息拥吻文本分类任务,并给出深度分别为 9,17,29 的测试结果,证明深度确实能提高性能(精度)。该文章是首篇将用于 NLP 的神经网络向深度发展的文章。


论文链接:https://arxiv.org/abs/1606.01781


相关论文:https://arxiv.org/abs/1509.01626


相关源码:https://github.com/geduo15/Very-Deep-Convolutional-Networks-for-Natural-Language-Processing-in-tensorflow


推荐人:庄航,中科大(PaperWeekly arXiv 组志愿者)



Predicting Deeper into the Future of Semantic Segmentation


本文来自 Facebook AI Research,给定一个语义分割过的视频序列,预测尚未观看到的帧的分割结果,可以预测短时(2 秒内较准确)、中时和长时的分割结果,总体上比 baseline 准确度提高 25%。使用 state-of-the-art 的 semantic segmentation 模型(multi-scale dilated-10 semantic image segmentation network)来提供 label,不需大量的人工标注来分析。使用 CNN 隐式的分析 semantic segmentation map 中的信息,不需显式的为目标和场景建模。模型使用了 Adversarial 训练方式,可以批量(batch)的预测,即一次性预测未来的很多帧,也可以 autoregressive 的预测,即迭代式的使用一帧预测下一帧。


论文链接:https://arxiv.org/abs/1703.07684


推荐人:刘桐,天津大学(PaperWeekly arXiv 组志愿者)



#GAN in NLP# 


Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets


GAN 理论的热度仍在持续,但 GAN 在 NLP 任务中的应用并不那么理想,本文尝试在经典的机器任务中应用了 GAN 理论,并给出了定量地分析,是一次积极的尝试。


论文链接:https://arxiv.org/abs/1703.04887



#NMT#


Massive Exploration of Neural Machine Translation Architectures


本文的实验只有 Google 这种级别的大厂才能做的出,本文对大型 NMT 模型训练过程中各个超参数对结果的影响进行了实验分析,得出了许多有意义的结论:(1)embedding 用 2048 维结果最好,但没好到哪里去,128 维就基本上结果不错了;(2)LSTM 比 GRU 效果好;(3)2-4 层的双向 encoder 效果最佳等一些比较有指导意义的结论。


论文链接:https://arxiv.org/abs/1703.03906


相关代码:https://github.com/google/seq2seq/


感觉没几家有能力复现出来 ,因为 Google 花了 250,000 GPU hours 来训练。不过结论却是很有意义,毕竟调参是个技巧活。




#NMT#


最后推荐一个基于 dl4mt 框架的 NMT 框架 Nematus,功能更多,感兴趣的同学可以看过来。


框架介绍 paper 地址:

https://arxiv.org/pdf/1703.04357.pdf


相关代码:https://github.com/rsennrich/nematus


✎✎✎


本期「每周值得读」的部分内容来自 PaperWeekly arXiv 志愿者小组推荐,如果您也是arXiv 爱好者,愿意一起来丰富 PaperWeekly 的推荐内容,就请加入我们吧。请添加下面的微信号,并注明「学校+硕士生/博士生+研究方向」,一起来为 AI 领域学术的发展贡献自己的一份力量。




关于PaperWeekly


PaperWeekly 是一个分享知识和交流学问的学术组织,关注的领域是 NLP 的各个方向。如果你也经常读 paper,喜欢分享知识,喜欢和大家一起讨论和学习的话,请速速来加入我们吧。

关注微博: @PaperWeekly
    微信交流群: 后台回复“加群”