「本周值得读」是 PaperWeekly 的优质文章集合地。在这里,来自 NLP、CV、DL 等方向的学习达人,各自用精炼妙语推荐当下最新的高质量文章。 ➊
#机器阅读理解#
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
本文提出阅读理解领域的一个新的数据集, 称为 triviaQA, 文章从 14 个问答网站收集问答对, 然后根据问答对, 将 bing 的搜索结果和维基百科的相关页融合出文章, 从而形成文章-问题-答案的数据样本。
数据集包括 650k 的 document-query-answer 对, 95k 的问答对,在规模上超出了之前阅读理解的主流数据集。在对数据集进行采样分析得出, 数据集中约 69% 的问题与文章具有不同的句法结构,41% 具有多义词或者短语, 40% 的答案需要多句联合推断才能得出答案, 答案并不完全是文章中的子文本串,在这个数据集的基础上, 作者实现了三个模型, 随机实体模型, 实体分类器, 和 BiDAF 网络(其中 BiDAF 网络在 Squad 数据集中取得较好的成绩, 当前排第六名, EM 分与人类相比差 9 个点), 在 triviaQA 上分别取得了约 15%, 20%, 40% 的效果, 远低于人类的表现 80%, 这个巨大的鸿沟也意味着数据集对领域有着较大的推动作用。 本文还对模型的表现进行分析, 可以看出, 在长文本, 文本信息冗余, 联合推断等情况下, 当前模型的表现都还不够好。 这也意味着在阅读理解领域, 还有很多工作有待探索。
论文链接:https://arxiv.org/abs/1705.03551
推荐人:于翮,北京航空航天大学(PaperWeekly arXiv 组志愿者)
➋
#问答系统#
Ask the Right Questions: Active Question Reformulation with Reinforcement Learning
每个人问同一个问题的表述都可能是不同的,自动问答系统应该如何更好的理解用户的问题呢?当我们用一种描述方式来提问时,可能不会被 get 到,但也许换一种方式来表达就会好一些,这就是所谓的“ask the right questions”。本文提出了一种增强学习方案,通过重新表述用户的问题来让 QA 系统更好的理解问题,从而给出更加准确的答案,在 SearchQA 数据集上取得了比较明显的效果。本文工作来自 Google。
论文链接:https://arxiv.org/abs/1705.07830
推荐人:大俊,PaperWeekly 首席客服
➌
#CNN & RNN#
pix2code: Generating Code from a Graphical User Interface Screenshot
本文基于深度学习实现了由 GUI 图片自动行成 iOS、Android、Web 布局代码,达到了 77% 的准确度,并开放了训练数据集。pix2code 从两个角度出发,a:理解图像以及推断其中实体各个属性的 CV 问题;b:理解语言并生成合理语法语义文本的语言建模问题。
主要要点:
Vision Model:使用 VGGNet 对图片进行编码
Language Model:使用 DSL 对图片进行描述,并使用 LSTM 提取语言结构关系
结合 Vision Mode 和 Language Model:使 LSTM 把输入的 DSL 代码进行编码成 q,并与图片编码 p 连接成 r,把 r 传入解码器(stacked 双层 LSTM 网络)
Training:使用滑动窗口(window=48 empirical),multiclass log loss
Sampling:使用 符号做为开始和结束标志,一次生成一个符号,生成符号用作下一个符号生成的输入,直到遇到
亮点推荐:由 GUI 图片自动生成布局代码
演示地址:
https://github.com/tonybeltramelli/pix2code
论文链接:https://arxiv.org/abs/1705.07962
推荐人:罗玄,北京邮电大学(PaperWeekly arXiv 组志愿者)
➍
#对话生成#
A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues (AAAI 2017)
本文在 Variational Autoencoder(VAE)启发下提出了 VHRED,用一个 latent variable 来解决对话生成(dialog generation)中的远距离语义控制问题。传统的对话生成模型如 RNNLM, HRED(hierarchical recurrent encoder-decoder)在生成下一句话的只能依靠 RNNLM 或者 decoder RNN 的当前 state,这样这个 state 就需要负责两个工作:(1)根据已生成的 tokens 生成下一个 token;(2)保存该句子的整体语义(例如 topic)。如此一来在生成一句话的过程中,随着 state 的变化就很难保持整体语义。
本文在 HRED 基础上,还用了一个 latent variable 来作为 decoder RNN 生成一个句子时的条件,从而通过该 latent variable 来保证(1)句内语义统一;(2)上文信息的有效保留。Latent variable 的训练参考了 VAE [2] 这篇文章。 实验中使用了 Twitter Dialogue Corpus 作为训练语料。在 AMT 的人工评价中,本文将 VHRED 和 TF-IDF、LSTM、HRED 进行了对比。在给出较短上文时,用户认为 VHRED 生成的句子好于 TF-IDF、HRED,而在给出较长上文时,VHRED 好于所有其他模型。在自动指标(word embedding-based topic similarity)评价中,VHRED 也取得了最好的得分。
Latent variable 的应用有助于对不同层级的关系进行建模,可以用于 music modeling,language modeling 等方面。同时,这类模型的优化也一般需要用到贝叶斯方法。
相关文章 CVAE [3], [4]。
论文链接:
[1] https://arxiv.org/abs/1605.06069
[2] https://arxiv.org/abs/1312.6114
[3] https://arxiv.org/abs/1705.00316
[4] https://arxiv.org/abs/1703.10960
推荐人:赵天雨,京都大学(PaperWeekly arXiv 组志愿者)
➎
#关系推理神经网络#
A simple neural network module for relational reasoning
来自于 Google DeepMind 的关系推理神经网络。关系推理是通用人工智能的最重要模块,但是事实证明神经网络很难学会。DeepMind 构造了一种关系推理神经网络,定义一堆对象 O={o_1, o_2, ... o_i, o_j, ...} 之间的关联函数为,RN(O) = f_{phi} (sum_{ij} g_{theta}(o_i, o_j) )。其中 g_{theta} 计算任意两个对象 o_i 和 o_j 之间的关联,求和保证了不同对象之间关联的顺序无关性,f_{phi} 最后产生最终顺序无关的 all-to-all 的关系推理。这个网络在一组测试集上的推理表现超越了人类,在 bAbI 自然语言问答上也表现卓越。
论文链接:https://arxiv.org/abs/1706.01427
推荐人:庞龙刚,UC Berkeley(PaperWeekly arXiv 组志愿者)
➏
#故事生成#
Event Representations for Automated Story Generation with Deep Neural Nets
本文研究的问题非常有趣,通过给定一系列的 events、action 和 words,生成一个故事。本文的方法是先将输入处理成一个 event 序列,然后将离散的 event 序列转化成一系列连续的 event,最后再将这些 event 生成一段故事。自然语言生成(NLG)问题,通过给定不同的限定条件,比如情感,比如 topic,会有非常多好玩的东西可以被生成。
论文链接:http://cn.arxiv.org/abs/1706.01331
推荐人:大俊,PaperWeekly 首席客服
❼
#反卷积#
Pixel Deconvolutional Networks
在图像分割(如 U-Net)和图像生成(如 GAN、VAE)中广泛用到 deconvolution layer 来做 up-sampling,up-sampling 的过程相当于把多个卷积核算出的中间结果的 feature map 中的像素点周期性的排布开(原文: periodical shuffling of multiple intermediate feature maps),由于相邻像素是使用不同的卷积核独立计算得到的,所以相邻像素没有直接的关联性,这样就会导致得出的 feature map 中有 checkerboard 效应。
本文提出了 PixelDCL(pixel deconvolutional layers)结构,通过按顺序依赖的计算每个中间结果 feature map 来使相邻像素具有直接关联,从而可以得到平滑的低噪声的 deconvolution 结果。图像分割的实验结果去掉了原本分割得到的一些细碎的小块,更加平滑和准确。
论文链接:https://arxiv.org/abs/1705.07962
推荐人:刘桐,天津大学(PaperWeekly arXiv 打卡小组)
✎✎✎
「本周值得读」栏目的内容来自 PaperWeekly arXiv 志愿者小组推荐,如果您也是 arXiv 爱好者,愿意一起来丰富 PaperWeekly 的推荐内容,并且培养良好的阅读习惯,就请加入我们吧。请添加下面的微信号,并注明「志愿者+学校+硕士生/博士生+研究方向」,一起来为 AI 领域学术的发展贡献自己的一份力量。
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。