➊
Coupled Deep Learning for Heterogeneous Face Recognition
不同模态(例如近红外 NIR 和可见光 VIS)采集的人脸照片的匹配问题被称为异构人脸匹配(Heterogeneous face matching,HFM)问题。不同模态的数据之间具有互补性,例如 NIR 数据受光照影响小,网络上有大量的 VIS 数据等。不同模态的数据之间差异较大,并且缺失足够的训练样本对。本文提出了一种新的方法(coupled deep learning, CDL)来解决 HFM 问题。其主要的想法是对 NIR 的投影矩阵和 VIS 的投影矩阵引入组合迹范数(trace norm)来一方面使得两个投影矩阵之间具有相关性,另一方面作为正则项限制模型空间的复杂度;此外引入 Triplet ranking loss 来迫使类间的大间距,并给出了合理的 Triplet 选择方法。CDL 的性能在 CASIA NIR-VIS 2.0 数据集和 CUFS, CUFSF 上超过了目前最好的算法。不过本文仍然有一些地方没有很好研究:例如为什么组合 trace norm 可以迫使投影矩阵相关,没有做 ablation study,好的性能会不会是由于海量数据的预训练带来的,而不是 CDL 方法带来的?
论文链接:
https://arxiv.org/abs/1704.02450
推荐人:
吴沐,北京航空航天大学(PaperWeekly arXiv组志愿者)
➋
Exploring Question Understanding and Adaptation in Neural-Network-Based Question Answering
近年来, 随着斯坦福问答数据集(SQuAD)的推出, 机器理解有了长足的进展, 本文在前人工作的基础上, 对问题的表征做了深入的的研究, 获得更优的结果。首先, 本文在前人工作的基础上做了一些小的改动, 并以之做为实验的 baseline,具体来说, 在注意力的双向计算上, 本文使用 max pooling 和 mean pooling 两种机制来计算 question based filter passage embedding。使得最后的 passage 表示信息更为丰富。在 prediction layer 中, 本文使用前向与后向两个 pointer network, 预测出两个结果再进行平均。 使预测结果更稳定可靠。
在 baseline 的基础上, 本文重点研究了对于 question 的表征。首先文章将 question representation 喂给一个 TreeLSTM, 并以此 TreeLSTM 的根结点向量作为新的 question 的表示,从而在 question 的表示中加入了语法结构信息。另一方面, 由于问答数据集中的问题,可以分为了 why, what, how 等类别,如果能够捕获到问题所属的类别, 然后进行自适应训练(adaptation training), 这样不同的问题既共享同样的模型, 在需要的时候又能够进行区分, 就可以在更细的粒度上捕获到数据的更多特征。在这样的考虑下,文章引入一个 11 维的 one-hot 向量来标识问题所属的类别, 并用一个中心向量来代表这个问题类别, 在训练过程中更新这个中心向量, 从而自适应地将不同类的问题区别开。
通过这一系列做法,在 SQuAD 数据集上,取得了 77% 的 EM-score 和 68% 的 F1-score。
论文链接:
https://arxiv.org/abs/1703.04617
推荐人:
于翮,北京航空航天大学(PaperWeekly arXiv组志愿者)
➌
Not All Pixels Are Equal: Difficulty-aware Semantic Segmentation via Deep Layer Cascade
本文认为针对语义分割任务,图像中的像素不应该平等对待,而是存在难易区别的。所以,经统计,本文将图片上的像素分成了简单,中等,困难三种集合。其中 70% 的困难像素分布在物体边界。据此,本文提出了一种新的模型 Deep Layer Cascade 来针对性地处理不同难易程度的像素从而提高语义分割的准确率和速度。Deep Layer Cascade (LC) 是在 Inception-Resnet-v2 的基础上改进的。它将模型分为了三个阶段,每个阶段都会额外添加两层卷积层和 softmax 损失函数。同时每个阶段引入了一个概率阈值 ρ,利用 ρ 来控制每个阶段处理哪些像素,预测概率大于 ρ 的就在本阶段处理,小于 ρ 的就传递至下一阶段,从而针对性处理像素并且提高计算速度。为了实现针对性处理像素,本文还提出了一种 Region Convolution 来只处理每个阶段感兴趣的区域,忽视其他区域。Region Convolution 通过二值 mask 来实现,感兴趣的区域置 1,其他区域置 0。
经测试,LC 在 VOC12 test set 上 mIoU 达到 80.3,在 COCO 上预训练可达到 82.7;在 Cityscapes test set 上可得到 71.1 的 mIoU。
论文链接:
https://arxiv.org/abs/1704.01344
深入解读:
https://zhuanlan.zhihu.com/p/26343033
推荐人:
余昌黔,华中科技大学(PaperWeekly arXiv组志愿者)
➍
#增量式#
#word2vec#
Incremental Skip-gram Model with Negative Sampling
本文的最大亮点在于提出了一种增量式的词向量学习模型,并且通过数学和实验证明验证了算法的有效性。
论文链接:
https://arxiv.org/abs/1703.10960
推荐人:
大俊,PaperWeekly 首席客服