专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

周末论文阅读清单 | 本周值得读 #43

PaperWeekly · 公众号 · 科研 · 2017-07-29 08:25

正文

「本周值得读」是 PaperWeekly 的优质文章集合地。在这里，来自 NLP、CV、DL 等方向的学习达人，各自用精炼妙语推荐当下最新的高质量文章。

这是第 43 篇「本周值得读」

➊

#语言模型评测#

On the State of the Art of Evaluation in Neural Language Models

用统一的代码框架和调参方法来评测几类经典的语言模型，数据用的是 ptb 和 wikitext。作者来自 Deepmind 和 Oxford。

论文链接：https://arxiv.org/abs/1707.05589

推荐人：大俊，PaperWeekly 首席客服

➋

#机器阅读理解#

#ACL2017#

Reading Wikipedia to Answer Open-Domain Questions

本文使用维基百科作为知识源，提出了一种解决开放式 (open domain) 问题的方法。本文基于假设：任何有关事实的问题都可以用维基百科文章中的文字来回答。这个大规模机器阅读 (machine reading at scale) 的任务结合了文件检索（找相关文章）和机器文本理解（识别答案所对应文本）。本文所提出的方法使用了 bigram hashing 的搜索和 multi layer LSTM 的 TF-IDF 匹配来寻找维基百科段落中的答案。文章在 4 个数据集上进行了实验表明：（1）两个模块可以分别超越维基搜索引擎和 SQuAD 任务中实现 state-of-the-art 的结果，（2）相比较与单任务学习，使用多任务学习 (multitask learning) 和 distant supervision 可以在多个任务上实现性能的提升。

本文的核心思想是把 open domain QA 和 machine comprehension 结合起来，使得机器能以更加灵活的方式回答问题。

论文链接：https://arxiv.org/pdf/1704.00051.pdf

推荐人：

姚文林，Texas A&M University（PaperWeekly arXiv 打卡小组）

➌

#EMNLP 2017#

Video Highlight Prediction Using Audience Chat Reactions

本文研究的问题非常有意思，对一些体育赛事进行精华筛选，本质上是在做 video frame labeling，同时借助了这些视频的讨论信息来做预测。

论文链接：https://arxiv.org/abs/1707.08559

推荐人：大俊，PaperWeekly 首席客服

➍

#Text Classification#

Supervised Learning of Universal Sentence Representations from Natural Language Inference Data

许多 NLP 系统依赖于 word embedding，它是以无监督的方式 (unsupervised) 对大型语料库进行训练后得到的。然而，如何将更长的文本（例如句子）编码成 embedding 表示仍然很困难。这篇文章展示了使用斯坦福自然语言推理数据集 (Stanford Natural Language Inference dataset) 训练的通用句子表示 (universial sentence representation) 能够在多个任务上优于无监督的方法，如 SkipThought 向量。就像计算机视觉使用 ImageNet 来自动学习特征，然后将其迁移到其他任务中，这篇文章的工作表明自然语言推理对于其他 NLP 任务迁移学习的适用性。

这篇文章来自 Facebook AI Research, 作者公开了代码以及训练后的模型，读者可以很容易的应用本文训练后的模型得到一个句子的 embedding 表示。题外话：本文代码是基于最近很火的 PyTorch。相比于 TensorFlow 使用静态图，research 中使用 PyTorch 动态图构建神经网络真是方便太多。

论文链接：https://arxiv.org/pdf/1705.02364.pdf

代码链接：

https://github.com/facebookresearch/InferSent

推荐人：

姚文林，Texas A&M University（PaperWeekly arXiv 打卡小组）

➎

#EMNLP 2017#

Challenges in Data-to-Document Generation

本文提出了一个更加有难度的自然语言生成问题，给定一个数据表，生成一个概括性的文档。提出问题的同时，本文给出了一个数据集，以 NBA 篮球比赛数据为输入，生成一段比赛描述新闻。作者来自 Harvard NLP 组。

论文链接：https://arxiv.org/abs/1707.08052

代码链接：

https://github.com/harvardnlp/boxscore-data

推荐人：大俊，PaperWeekly 首席客服

➏

#数据集#

SPEECH-COCO: 600k Visually Grounded Spoken Captions Aligned to MSCOCO Data Set

一个语音描述的 mscoco 数据集。

论文链接：https://arxiv.org/abs/1707.08435

数据集链接：http://mscoco.org/external/

推荐人：大俊，PaperWeekly 首席客服

✎✎✎

「本周值得读」栏目的内容来自 PaperWeekly arXiv 志愿者小组推荐，如果您也是 arXiv 爱好者，愿意一起来丰富 PaperWeekly 的推荐内容，并且培养良好的阅读习惯，就请加入我们吧。请添加下面的微信号，并注明「志愿者+学校+硕士生/博士生+研究方向」，一起来为 AI 领域学术的发展贡献自己的一份力量。

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。