专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
51好读  ›  专栏  ›  PaperWeekly

阅读小组 | 第一期活动反馈 & 第二期成员招募

PaperWeekly  · 公众号  · 科研  · 2017-03-30 18:34

正文


阅读小组第一期,我们精读的文章是 Image Caption 方向的 MAT: A Multimodal Attentive Translator for Image Captioning


首期活动得到了大家的积极响应,我们收到了很多同学发来的笔记,大家也就各种细节进行了很多高质量讨论。


阅读小组第一期笔记精选


> > >kyleyang< < <


该模型的核心观点:首先对图像进行 object detection,将检测到的 object 序列逐个输入到 RNN 中,在 decoding 阶段输出单词。图中,O 为检测到的 object representation,最后还需要输入全图的 CNN feature 作为 global environmental information。


在以往 image captioning 研究中,attention 机制都建立在图像的 feature map 之上,这在一定程度上提高了对图像内容描述的准确度,但是并没有在 encoding 时很好地利用语境信息。


我们可以观察到,在 object sequence 中距离开头非常近的 object 可能和 decoding 时靠后的单词有较大的关联。例如,图片中可能有一只狗的检测分数最高,因而会在 encoding 时排在序列的第一位,但是“dog”这个词也许会出现在句子的末尾(A man is playing with a dog)。所以在生成单词时,作者使用了 attention layer 计算当前 decoding 状态与所有 encoding 隐状态的相关性。


> > >carrot< < <


讨论下更 general 的问题,现在 image caption 基本是只要物体识别做的好,出来的句子就不会差,现在大部分方法也都是在做物体识别,把物体识别的信息加到模型里。那 image captioning 这个问题的独特性在哪里? 而且模型之间的能力感觉现在的评测标准根本反应不出来,就算能说一句对的话也不一定代表能理解图片的意思,感觉 image QA 才更加 well defined 能体现不同模型的能力,大家怎么看?


> > >Issac< < <


本文最有新意的是把 image caption 做成了 machine translation ,形成了一种 CNN+encoder+decoder 的 multimodel,在 encoder 中多次将 detection 输入(不同于 ACVT 在 feature 层级上融合),并且对于每个预测单词,结合所有 detection 进行评分(简直套用 machine translation 里面的思想,不同于 show attend an tell 在 feature 层级上找关注点),attention layer 相当于对词图匹配,不同点主要在于应用的层级。


> > >rwang< < <


我感觉这篇文章做的还不够完善。比如说,需要额外一个实验把 encoder 去掉,但是保留 attention layer,看看结果如何。这样才能证明 encoder 所编码的 context 信息有用。你们觉得呢?


阅读小组第一期优质Q & A


rwang :感觉文章里实验结果好,主要来自于对多个物体的独立表示和 attention layer 的 sequential 选取 object's representation,而非 encoder 对 objects representations 的 sequential encoding。你们怎么看?


kyleyang :对,把 detection 的结果拿出来做翻译确实是个比较新的方法。encoder 应该目的在于对接上 seq2seq 的框架。


rluo :不知道定论,只能说他的实验绝对有欠缺。我也同样好奇。


xmyqsh :基本同意你的看法,如果想反驳你的看法的话,就应该从 objects representation 序列中 object 的先后顺序能不能反映出一些信息量这个角度思考。


kyleyang :attention layer 的目的其实就在于减少顺序的影响,你认为能反映出什么信息量?


rwang :同感。所以这边文章里用 encoder 去做序列编码所起到的作用很不清楚,其作用也就不具有说服力。


xmyqsh :说的不是 attention 的信息量,是 objects 按 score 排序的信息量,我觉得 objects 随机排序影响也不大。


sophieag :我想问一下,他 finetune resnet 了么?


rluo :我觉得他是把 rfcn 用作预处理步骤的,要不不可能 12 小时。 而且从 coding 角度,我觉得直接用会比较方便一点2333。


kyleyang :确实是直接用最方便,所以他不是 end2end training。


rwang :应该没有 fine-tune,只是拿过来直接用的吧。


kyleyang :文中没有提及,理论上来说可能 fine-tune 可能会好一点。


xmyqsh :数据有标注的话 finetune 一下还是有提升的,不如 pooled featuremap 可能不太准。


rluo :我觉得发邮件问吧,就是 1. sequence encoding 有必要吗?2. highest to lowest 是最好的 order 嘛?或者换了 order 结果会有什么区别吗?


阅读小组第二期招募


本期阅读小组的关键词为,我们将一起精读下文并通过在线协作工具进行交流,参与者需具备当期 topic 的研究背景,并在活动开始前完成论文阅读(活动细则详见文末)。


A Character-Level Decoder without Explicit Segmentation for Neural Machine Translation


文章来源


https://arxiv.org/abs/1603.06147


作者


Junyoung Chung, Kyunghyun Cho, Yoshua Bengio


单位


University of Montreal, New York University


关键词


Neural Machine Translation, Character-level


问题


无论是 SMT 还是 NMT 一般都是基于"词"的,本文在经典的 attention-based seq2seq 模型之上,提出了一种在 decoder 端基于“字”的翻译,并验证了其有效性。







请到「今天看啥」查看全文