「本周值得读」是 PaperWeekly 的优质文章集合地。在这里,来自 NLP、CV、DL 等方向的学习达人,各自用精炼妙语推荐当下最新的高质量文章。
➊
#机器阅读理解#
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension
本文提出阅读理解领域的一个新的数据集, 称为 triviaQA, 文章从 14 个问答网站收集问答对, 然后根据问答对, 将 bing 的搜索结果和维基百科的相关页融合出文章, 从而形成文章-问题-答案的数据样本。
数据集包括 650k 的 document-query-answer 对, 95k 的问答对,在规模上超出了之前阅读理解的主流数据集。在对数据集进行采样分析得出, 数据集中约 69% 的问题与文章具有不同的句法结构,41% 具有多义词或者短语, 40% 的答案需要多句联合推断才能得出答案, 答案并不完全是文章中的子文本串,在这个数据集的基础上, 作者实现了三个模型, 随机实体模型, 实体分类器, 和 BiDAF 网络(其中 BiDAF 网络在 Squad 数据集中取得较好的成绩, 当前排第六名, EM 分与人类相比差 9 个点), 在 triviaQA 上分别取得了约 15%, 20%, 40% 的效果, 远低于人类的表现 80%, 这个巨大的鸿沟也意味着数据集对领域有着较大的推动作用。 本文还对模型的表现进行分析, 可以看出, 在长文本, 文本信息冗余, 联合推断等情况下, 当前模型的表现都还不够好。 这也意味着在阅读理解领域, 还有很多工作有待探索。
论文链接:
https://arxiv.org/abs/1705.03551
推荐人:
于翮,北京航空航天大学(PaperWeekly arXiv 组志愿者)
➋
#问答系统#
Ask the Right Questions: Active Question Reformulation with Reinforcement Learning
每个人问同一个问题的表述都可能是不同的,自动问答系统应该如何更好的理解用户的问题呢?当我们用一种描述方式来提问时,可能不会被 get 到,但也许换一种方式来表达就会好一些,这就是所谓的“ask the right questions”。本文提出了一种增强学习方案,通过重新表述用户的问题来让 QA 系统更好的理解问题,从而给出更加准确的答案,在 SearchQA 数据集上取得了比较明显的效果。本文工作来自 Google。
论文链接:
https://arxiv.org/abs/1705.07830
推荐人:
大俊,PaperWeekly 首席客服
➌
#CNN & RNN#
pix2code: Generating Code from a Graphical User Interface Screenshot
本文基于深度学习实现了由 GUI 图片自动行成 iOS、Android、Web 布局代码,达到了 77% 的准确度,并开放了训练数据集。pix2code 从两个角度出发,a:理解图像以及推断其中实体各个属性的 CV 问题;b:理解语言并生成合理语法语义文本的语言建模问题。
主要要点:
-
Vision Model:使用 VGGNet 对图片进行编码
-
Language Model:使用 DSL 对图片进行描述,并使用 LSTM 提取语言结构关系
-
结合 Vision Mode 和 Language Model:使 LSTM 把输入的 DSL 代码进行编码成 q,并与图片编码 p 连接成 r,把 r 传入解码器(stacked 双层 LSTM 网络)
-
Training:使用滑动窗口(window=48 empirical),multiclass log loss
-
Sampling:使用
符号做为开始和结束标志,一次生成一个符号,生成符号用作下一个符号生成的输入,直到遇到
亮点推荐:由 GUI 图片自动生成布局代码
演示地址:
https://github.com/tonybeltramelli/pix2code
论文链接:
https://arxiv.org/abs/1705.07962
推荐人:
罗玄
,北京邮电大学(PaperWeekly arXiv 组志愿者)
➍
#对话生成#
A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues (AAAI 2017)
本文在 Variational Autoencoder(VAE)启发下提出了 VHRED,用一个 latent variable 来解决对话生成(dialog generation)中的远距离语义控制问题。传统的对话生成模型如 RNNLM, HRED(hierarchical recurrent encoder-decoder)在生成下一句话的只能依靠 RNNLM 或者 decoder RNN 的当前 state,这样这个 state 就需要负责两个工作:(1)根据已生成的 tokens 生成下一个 token;(2)保存该句子的整体语义(例如 topic)。如此一来在生成一句话的过程中,随着 state 的变化就很难保持整体语义。
本文在 HRED 基础上,还用了一个 latent variable 来作为 decoder RNN 生成一个句子时的条件,从而通过该 latent variable 来保证(1)句内语义统一;(2)上文信息的有效保留。Latent variable 的训练参考了 VAE [2] 这篇文章。 实验中使用了 Twitter Dialogue Corpus 作为训练语料。在 AMT 的人工评价中,本文将 VHRED 和 TF-IDF、LSTM、HRED 进行了对比。在给出较短上文时,用户认为 VHRED 生成的句子好于 TF-IDF、HRED,而在给出较长上文时,VHRED 好于所有其他模型。在自动指标(word embedding-based topic similarity)评价中,VHRED 也取得了最好的得分。
Latent variable 的应用有助于对不同层级的关系进行建模,可以用于 music modeling,language modeling 等方面。同时,这类模型的优化也一般需要用到贝叶斯方法。
相关文章 CVAE [3], [4]。
论文链接:
[1] https://arxiv.org/abs/1605.06069
[2] https://arxiv.org/abs/1312.6114
[3] https://arxiv.org/abs/1705.00316
[4] https://arxiv.org/abs/1703.10960
推荐人:
赵天雨
,京都大学(PaperWeekly arXiv 组志愿者)
➎
#关系推理神经网络#
A simple neural network module for relational reasoning
来自于 Google DeepMind 的关系推理神经网络。关系推理是通用人工智能的最重要模块,但是事实证明神经网络很难学会。DeepMind 构造了一种关系推理神经网络,定义一堆对象 O={o_1, o_2, ... o_i, o_j, ...} 之间的关联函数为,RN(O) = f_{phi} (sum_{ij} g_{theta}(o_i, o_j) )。其中 g_{theta} 计算任意两个对象 o_i 和 o_j 之间的关联,求和保证了不同对象之间关联的顺序无关性,f_{phi} 最后产生最终顺序无关的 all-to-all 的关系推理。这个网络在一组测试集上的推理表现超越了人类,在 bAbI 自然语言问答上也表现卓越。
论文链接:
https://arxiv.org/abs/1706.01427
推荐人:
庞龙刚,UC Berkeley(PaperWeekly arXiv 组志愿者)
➏
#故事生成#
Event Representations for Automated Story Generation with Deep Neural Nets