专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

论文推荐：QA，增强学习，知识图谱，机器阅读理解 | 本周值得读 #40

PaperWeekly · 公众号 · 科研 · 2017-07-08 08:31

正文

「本周值得读」是 PaperWeekly 的优质文章集合地。在这里，来自 NLP、CV、DL 等方向的学习达人，各自用精炼妙语推荐当下最新的高质量文章。

这是第 40 篇「本周值得读」

➊

#Machine Reading Comprehension#

NewsQA: A Machine Comprehension Dataset

这篇文章来自于 Maluuba Research，介绍了一个新的数据集 NewsQA 用于机器阅读理解 (Machine Reading Comprehension)，NewQA 提供了超过 10 万经过人工标注得到的问题-答案 (question-answer)对。这些问题和答案来自于美国 CNN 的 10,000 多篇新闻文章，答案还包括了相应文章以及文字段落。数据集的收集包含了 4 个阶段，旨在得到那些经过推理 (reasoning) 才能回答的问题。

文中的分析也支持了 NewsQA 的问题回答超出了简单的语言匹配和文本识别。最后文章测量了人类在这个数据集上的表现，并将其与几个神经模型进行了比较，机器与人类之间的差距 (0.198 in F1 score) 表明现有模型仍有很大的进步空间。

Machine Reading Comprehension 最近两年在 NLP 领域得到了大量关注，这篇文章在 Related work 部分详细介绍了目前主流的几个数据集以及它们的优缺点，比如 MCTest, CNN/Daily Mail, Children’s Book Test, SQuAD。值得一提的是，相比较于由 Stanford NLP Group 整理的 SQuAD，NewsQA 包含了更多的文章和问题，而且需要复杂推理的问题也比 SQuAD 更多 (33.9% v.s 20.5%)。

论文链接： https://arxiv.org/pdf/1611.09830.pdf

NewsQA 数据集链接：

https://datasets.maluuba.com/NewsQA

推荐人：

姚文林，Texas A&M University（PaperWeekly arXiv 打卡小组）

➋

#词表示#

Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation

本文来自卡耐基梅隆，主要探讨了 character-level encoding 的 rnn 作法，现在 word embedding 已经成为自然主义处理的标配，但是 word embedding 存在着一些问题，比如一个词形就需要一个 embedding，对于英文这种语言来说，学到 cat 并不能推导出 cats 的表示，也无法通过两个词组合出新的词，对于常见的一些 ilize， ification 等等后缀，也无法比较好的处理，英文维基中约 6000 万句，2000 万不同小写化并 tokenize 后的词，那么想要涵盖就需要如此大小的词典。因此可以考虑使用 charater-level 的 encoding，本文提出的 C2W 模型就是其中之一，具体做法是首先对每个字符建立字符表，然后类似，word-embedding，建立一个 charater-embedding 的 lookup table，再对这些 charater-embedding 过一个 BiLSTM，得到双向的最后一个隐状态后，通过一个线性变换，得到最后的 embedding。

文章通过 language modeling 和 pos tagging 两个实验，证实这种作法的效果的可行性，在 langueage modeling 实验中，取得较小的 perplexicity，特别是土尔其语这种形变比较复杂多样的语言中，更显著地胜过 word-embedding 的方法，在 pos tagging 实验中，也取得了 state of art 的效果，在结合了 word embmedding 之后，表现为当前最优。通过实验还可以看到，character-level embedding 参数较少，在进行 cache 处理之后，速度也满足需求。

论文链接： https://arxiv.org/pdf/1508.02096.pdf

代码地址： https://github.com/wlin12/JNN

推荐人： 于翮，北京航空航天大学（PaperWeekly arXiv 打卡小组）

➌

#Deep Learning#

Learning Deep Feature Representations with Domain Guided Dropout for Person Re-identification

本文提出了一种通用的基于深度学习的多源数据联合学习的算法（使用本文提出的 Domain Guided Dropout 替换传统的 Dropout），并通过广泛的实验，在 Learning ReID feature representation 任务上有效的验证和分析了算法的有效性。

作者来自香港中文大学。

论文链接： https://arxiv.org/abs/1604.07528

代码地址：

https://github.com/Cysu/dgd_person_reid

推荐人： 张文杰（PaperWeekly arXiv 志愿者）

➍

#统计学习#

Dual Supervised Learning

本篇本章是刘铁岩老师他们在去年提出对偶学习范式的基础上提出了对偶监督学习，已被 ICML2017 收录。论文中展示了对偶监督学习的机器学习范式在机器翻译，图像分类与生成和情感分析三组任务中都可以为愿模型带来明显的性能提升。

论文链接： https://arxiv.org/pdf/1707.00415.pdf

推荐人： qianan （来自 PaperWeekly 社区）

➎

#QA#

#增强学习#

Machine Comprehension by Text-to-Text Neural Question Generation

本文研究问题生成，提出通过文档和答案来生成问题，使用修改过的 seq2seq 来生成问题，同时使用 BiDAF 模型来对问题回答出答案，并将答案做为一个 reward 来指导问题生成。这种思路很新颖，而且有些对抗生成的味道，而且在问题生成中，通过 location softmax 和 shortlist softmax 来进行折衷的思路，似乎也有助于处理机器问答中答案不在文档的情况。并且文章使用强化学习来提升问题的效果，整个工作很值得学习。

论文推荐：QA，增强学习，知识图谱，机器阅读理解 | 本周值得读 #40

正文

请到「今天看啥」查看全文