生活总是忙碌,习惯的养成绝非朝夕。从本周开始,PaperWeekly 将尝试进行在线 reading group 的活动,希望忙碌着的你们,能和我们一起在阅读和学习中获得不一样的自由,获得独属于自己的乐趣。
我们的第一期阅读小组将一起精读本文,并通过在线协作工具进行交流,参与者需具备当期 topic 的研究背景,并在活动开始前完成论文阅读(活动细则详见文末)。
MAT: A Multimodal Attentive Translator for Image Captioning
文章来源:
https://arxiv.org/pdf/1702.05658.pdf
关键词
Image Captioning,Multimodal Translation,Attention
问题
针对 image captioning 问题,本文提出了一种多模态翻译模型,并且引入了新的 sequential attention 机制。
模型
1. Formulation
此前,大多数基于 CNN-RNN 的 image captioning 模型都将图像的 CNN feature 作为 RNN 的输入,但是静态的 feature 不能针对 RNN 的序列特性提供足够的信息;另一方面,一些基于 sequence 的 captioning 模型尝试在每一步都输入 CNN feature,但实际上只是在不断强化同样的概念,并不能提供更多的语境信息。
因此,本文提出了基于 Seq2Seq 的多模态翻译模型:
该模型的核心观点:首先对图像进行 object detection,将检测到的 object 序列逐个输入到 RNN 中,在 decoding 阶段输出单词。图中,**O**为检测到的 object representation,最后还需要输入全图的 CNN feature 作为 global environmental information。在生成句子时,结合 encoding 的所有隐状态和 decoding 的当前状态,通过 attention layer(见后)得出 attention vector **C**,并在此基础上计算:
2. Seq2Seq Multimodal Translator
Source sequence representation
首先利用 Object feature detector 检测 object 并提取其特征,再将这些特征嵌入隐空间中。文中使用了 R-FCN 作为 detector,并对最后一个卷积层的特征进行 roi pooling。
Target sequence representation
每个单词都使用长度等于字典大小的 one-hot 向量表示,之后也将其嵌入至前述的隐空间中。
Sequential Attention Layer
在以往 image captioning 研究中,attention 机制都建立在图像的 feature map 之上,这在一定程度上提高了对图像内容描述的准确度,但是并没有在 encoding 时很好地利用语境信息。
我们可以观察到,在 object sequence 中距离开头非常近的 object 可能和 decoding 时靠后的单词有较大的关联。例如,图片中可能有一只狗的检测分数最高,因而会在 encoding 时排在序列的第一位,但是“dog”这个词也许会出现在句子的末尾(A man is playing with a dog)。所以在生成单词时,作者使用了 attention layer 计算当前 decoding 状态与所有 encoding 隐状态的相关性。
dt 为当前的 decoding state,h 为 encoding hidden state,V,W 均为参数。
Training
训练在 MSCOCO 数据集上进行。由于 batch training 时会出现 source sequence 和 target sequence 长度不一致的情况,文中使用了一种 bucket and padding 的方法。具体为:设定四个 bucket,例如 {(2, 10), (4, 15), (6, 20), (8, 30)}。括号前一位数字代表 object 个数,后一位数字代表 target sequence 长度。假设某个样本中有 5 个 object 和 10 个单词,由于 5 超过了第二个 bucket 中 4 个 object 的门限,因而该样本落入第三个 bucket 中,同时使用 zero padding 来填补长度至 (6, 15)(原文 zero padding the words from 10 to 15,此处存疑)。
最终损失函数:
Results
本文使用 MSCOCO evaluation server 对性能进行了测试,得到了不错的结果。
Baseline Models
- Vanilla CNN+RNN
- Seq2Seq model without attention
通过比较 baseline 1 和 baseline 2 可以发现,图像的 sequential representation 确实能够比单纯的 CNN feature 更好地表达视觉信息;比较 MAT 和 baseline 1 以及 baseline 2,发现本文提出的 sequential attention layer 能进一步给性能带来相当大的提升。
相关工作
关于 Image Captioning 的相关工作可以参考 PaperWeekly 第二十二期和二十五期的内容。
简评
本文创新性地提出了图像的 sequential representation,将 image captioning 当作 Seq2Seq translation 解决,同时引入的基于 sequence 的 attention layer 也被证明能够有效地提升算法的性能。
完成人
杨凯杰,硕士在读
[email protected]
kyleyeung.github.io
__________________
阅读小组参与细则
1. 参与者需具备当期 topic(本期为 image caption)的研究背景,并在活动开始前完成论文阅读。
2. 扫描下方二维码添加主持人微信,注明“reading group”,本次活动报名截止时间为 3 月 18 日 20:00。
3. 待通过验证后,向主持人提交当期测试题答案。本期测试题如下:
本篇 paper 中提出的 attention layer 与以往的 attention 机制有什么不同?
同学们长按识别二维码
报名参与
关于PaperWeekly
PaperWeekly 是一个分享知识和交流学问的学术组织,关注的领域是 NLP 的各个方向。如果你也经常读 paper,喜欢分享知识,喜欢和大家一起讨论和学习的话,请速速来加入我们吧。
关注微博: @PaperWeekly
微信交流群: 后台回复“加群”