「本周值得读」是 PaperWeekly 的优质文章集合地。在这里,来自 NLP、CV、DL 等方向的学习达人,各自用精炼妙语推荐当下最新的高质量文章。
➊
#Machine Reading Comprehension#
NewsQA: A Machine Comprehension Dataset
这篇文章来自于 Maluuba Research,介绍了一个新的数据集 NewsQA 用于机器阅读理解 (Machine Reading Comprehension),NewQA 提供了超过 10 万经过人工标注得到的问题-答案 (question-answer)对。 这些问题和答案来自于美国 CNN 的 10,000 多篇新闻文章,答案还包括了相应文章以及文字段落。数据集的收集包含了 4 个阶段,旨在得到那些经过推理 (reasoning) 才能回答的问题。
文中的分析也支持了 NewsQA 的问题回答超出了简单的语言匹配和文本识别。 最后文章测量了人类在这个数据集上的表现,并将其与几个神经模型进行了比较,机器与人类之间的差距 (0.198 in F1 score) 表明现有模型仍有很大的进步空间。
Machine Reading Comprehension 最近两年在 NLP 领域得到了大量关注,这篇文章在 Related work 部分详细介绍了目前主流的几个数据集以及它们的优缺点,比如 MCTest, CNN/Daily Mail, Children’s Book Test, SQuAD。值得一提的是,相比较于由 Stanford NLP Group 整理的 SQuAD,NewsQA 包含了更多的文章和问题,而且需要复杂推理的问题也比 SQuAD 更多 (33.9% v.s 20.5%)。
论文链接:
https://arxiv.org/pdf/1611.09830.pdf
NewsQA 数据集链接:
https://datasets.maluuba.com/NewsQA
推荐人:
姚文林,Texas A&M University(PaperWeekly arXiv 打卡小组)
➋
#词表示#
Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation
本文来自卡耐基梅隆,主要探讨了 character-level encoding 的 rnn 作法,现在 word embedding 已经成为自然主义处理的标配,但是 word embedding 存在着一些问题, 比如一个词形就需要一个 embedding,对于英文这种语言来说,学到 cat 并不能推导出 cats 的表示,也无法通过两个词组合出新的词,对于常见的一些 ilize, ification 等等后缀,也无法比较好的处理,英文维基中约 6000 万句,2000 万不同小写化并 tokenize 后的词,那么想要涵盖就需要如此大小的词典。因此可以考虑使用 charater-level 的 encoding,本文提出的 C2W 模型就是其中之一,具体做法是首先对每个字符建立字符表,然后类似,word-embedding,建立一个 charater-embedding 的 lookup table,再对这些 charater-embedding 过一个 BiLSTM,得到双向的最后一个隐状态后,通过一个线性变换,得到最后的 embedding。
文章通过 language modeling 和 pos tagging 两个实验,证实这种作法的效果的可行性,在 langueage modeling 实验中,取得较小的 perplexicity,特别是土尔其语这种形变比较复杂多样的语言中,更显著地胜过 word-embedding 的方法,在 pos tagging 实验中,也取得了 state of art 的效果,在结合了 word embmedding 之后,表现为当前最优。通过实验还可以看到,character-level embedding 参数较少,在进行 cache 处理之后,速度也满足需求。
论文链接:
https://arxiv.org/pdf/1508.02096.pdf
代码地址:
https://github.com/wlin12/JNN
推荐人:
于翮,北京航空航天大学(PaperWeekly arXiv 打卡小组)
➌
#Deep Learning#
Learning Deep Feature Representations with Domain Guided Dropout for Person Re-identification
本文提出了一种通用的基于深度学习的多源数据联合学习的算法(使用本文提出的 Domain Guided Dropout 替换传统的 Dropout),并通过广泛的实验,在 Learning ReID feature representation 任务上有效的验证和分析了算法的有效性。
作者来自香港中文大学。
论文链接:
https://arxiv.org/abs/1604.07528
代码地址:
https://github.com/Cysu/dgd_person_reid
推荐人:
张文杰(PaperWeekly arXiv 志愿者)
➍
#统计学习#
Dual Supervised Learning
本篇本章是刘铁岩老师他们在去年提出对偶学习范式的基础上提出了对偶监督学习,已被 ICML2017 收录。论文中展示了对偶监督学习的机器学习范式在机器翻译,图像分类与生成和情感分析三组任务中都可以为愿模型带来明显的性能提升。
论文链接:
https://arxiv.org/pdf/1707.00415.pdf
推荐人:
qianan
(来自 PaperWeekly 社区)
➎
#QA#
#增强学习#
Machine Comprehension by Text-to-Text Neural Question Generation
本文研究问题生成,提出通过文档和答案来生成问题,使用修改过的 seq2seq 来生成问题,同时使用 BiDAF 模型来对问题回答出答案,并将答案做为一个 reward 来指导问题生成。这种思路很新颖,而且有些对抗生成的味道,而且在问题生成中,通过 location softmax 和 shortlist softmax 来进行折衷的思路,似乎也有助于处理机器问答中答案不在文档的情况。并且文章使用强化学习来提升问题的效果,整个工作很值得学习。