如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:)
Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
>>>lovemusicge<<<
概述:提出双路径 GAN 来合成逼真的正视图,方法是同时感知全局结构信息和局部细节。 网络结构: G(生成器)包含两部分: G_G(全局) 的前半部分采用下采样编码,后半部分采用上采样解码,还是用 skip 进行多尺度 feature fusion。作用是处理全局性结构。这是一个传统的实现。 G_l (局部)有四个,称为 landmark located patch network,分别是左右眼为中心的区域,鼻子区域,嘴巴区域。作用是处理 4 个 facial landmarks 周围的纹理。 需要注意的是 G_G 的前后两部分之间有一个特殊的层:bottleneck,它产出一个 256 维的 feature vector Vid 用于identity classification。并在这一层,向 Vid 中加入一个 100 维的高斯白噪声来对 pose and identity 之外的变量建模。
D(判别器)呢,则输出 2*2 的 probability map 而非一个简单的标量值,4 个分量分别对应 4 个特征区域。
Loss 函数为 5 个 loss 函数的加权复合: Pixel-wise Loss:G_G,G_l 以及它们的复合输出都进行像素损失测量,这个 loss 是传统的 loss,特点是会使结果变平滑,但是速度快。文中说为了方便监督,对 G_G 的后半部分多尺度输出增加约束,但加了什么约束没有说。
Symmetry loss : 在两个空间定义 symmetry loss,一个是 original pixel space,一个是laplacian image space。拉普拉斯空间对于照明变化更为鲁棒,更多地表示面部结构。
Adversarial loss : D 的部分使用 trick loss,而没有使用 Goodfellow 给出的第一种 adversarial loss,这个本来是为了绕开梯度消失的难题,但根据 WGAN,这个似乎更容易使得模型崩溃。
Identity preserving loss : VGG loss,需要预训练 VGG 网络,主要用于保真度恢复,成本高昂,意义不明确,根据 SRGAN 的经验,VGG(5,4)的效果似乎最好。
TV:根据传统方法理解,主要用于去噪,这一项似乎也是受 Feifei 这篇启发。(Perceptual Losses for Real-Time Style Transfer and Super-Resolution)
结论:这篇论文让人不禁回想起以前的论文搞创新往往是在模型上增加先验项。理论上似乎受 Feifei(Perceptual Losses for Real-Time Style Transfer and Super-Resolution)以及 SRGAN 启发很大,其中 pixel mse loss,VGG loss 和 TV 在两篇文章中出现过,方法上表现为对传统方法的集成,难点在于实现,其中 VGG loss 的使用使得效率不会很高。
>>>YadiraF<<<
My feel: The synthesized results are so amazing not because of innovations in algorithms but author's strong ability in engineering.
3 networks: the two-pathway generator, the discriminator and the pretrained recognizer have equipped the designed framework enough power to learn both the local and global and idendity-preserved information about faces.
And 4 losses: L_pixel and L_sym keep the details and symmetry of frontal faces, L_adv keeps the reality, L_ip keeps the identity. (And all these losses are common used in researches about face)
So, synthesized frontal faces can be generated. Then the big problem is how to balance all these losses and reach the equilibrium. (engineering problem and not easy for us to implement :-D)
And.. worth learning: two path-way (local and global) network used in generating faces. symmetry loss can help generate the details of the other side of a face, which is customized for frontal face. Clever :-D Overall, a great work and thanks the authors!
>>>993917172<<<
该方法的“局部+全局”并行处理策略值得我们学习。在局部和全局网络中,他借鉴了文献“Image Restoration Using Very Deep Convolutional Encoder-Decoder Networks with Symmetric Skip Connections”的“编码+解码”的思路,主要是解决姿态的问题,而分辨率的问题则是由后来的判别网络不断调优所得。
知识图谱
▼
Modeling Relational Data with Graph Convolutional Networks
>>>karis<<<
本文介绍了 R-GCN(关系型图卷积神经网络)并将其应用于知识库构建所涉及的两大任务——实体分类和关系预测。 (1)R-GCN 基于一阶 GCN 框架,不同点在于:GCN 是无标记无方向的网络结构,目标是对图中的节点进行分类;R-GCN 有标记有方向,可以对实体和关系进行分类。 (2)利用 R-GCN 进行实体和关系的分类,都需要进行节点的编码。Entity encoder 的输入是当前节点的相邻节点的信息,包括关系类型、关系的方向以及节点自循环的信息。隐藏层的输入是前一个隐藏层的输出,其计算公式中 a(rb) 和 V(b) 是模型要训练的关键参数,被整个网络共享使用,相当于 CNN 中的滤波器。 (3)利用 R-GCN 进行关系分类的训练和预测时,其与实体分类的不同点在于,增加了关系的解码器,即基于全集上的关系 R 对单个 s-r-o 的关系计算其得分。论文中使用了 DistMult factorization 计分。 (4)在学习方法上使用了 Adam optimizer、full batch、dropout 等。 (5)实体分类的评测是在 AIFB、MUTAG 和 BGS 三个集合上进行。在 AIFB 集合上,此论文的结果高于 baseline,但在其它两个集合上明显低于 baseline。
由此论文可以进一步了解的方向可能是:(1)了解 R-GCN 的细节,论文(Kipf & Welling, 2016)和代码(https://github.com/tkipf/gcn)(2)通用 GCN 框架,并非一阶GCN(Defferrard et al. ,NIPS 2016) (3)在实体分类上的 baseline models(Petar Ristoski et al. ,2016)。
>>>zengpingweb<<<
本文提出用 R-GCNs 进行链接预测和实体分类,这与以往的主流的 Trans 系列模型不同,是知识表示学习领域的一个新思路,是我见到的第一篇将 GCN 用于此类任务的文章。
针对链接预测任务,该文章提出用 R-GCNs 充当 encoder,而采用 DistMult 充当 decoder,我对 GCN 和 DistMult 均不熟悉,因此无法进一步探讨这种做法的优劣。
由于之前读了 Trans 系列的若干文章,因此感觉此文在一些概念上的解释没有这些文章清晰,而且该文的 baseline 不是最新成果,在链接预测领域的实验结果也没有这两年提出的模型好。
简而言之,这篇文章提供的思路对我有启发,但模型有待进一步改进。
>>>lizhili<<<
对 GCN 并不熟悉,直观上感觉采用图模型利用知识库进行链接预测是一种比较舒服的思路,文章模型相较于一些较为流行的知识表示模型(比如翻译模型等)结果差的原因可能是刚开始将 GCN 应用到这些自然语言处理任务中模型相对来说还有些粗糙,还具备改进空间。 本文主要将模型应用于链接预测以及实体分类两个任务中。本文模型主要是为了处理现实知识库中多种关系数据、特性。 实体分类模型就是在图中每个 node 后面用 softmax 链接预测模型主要分为:1.编码部分:R-GCN 产生实体潜在特征表示 2.解码部分:一种张量分解模型主要是利用这些表示去预测标记边的,文中主要采用 DistMult 作为 score function,用来计算分数。
多模态
▼
Person Search with Natural Language Description
>>>csz<<<
这篇文章提出了一个新的更细粒度的图片检索问题:根据自然语言描述检索人的图片。该任务有 2 个难点:1)句子描述中不是每一个词都是检索的关键词,如何对不同的词赋予不同的检索权重;2)每个词和图片的匹配关系怎么计算。针对这两个问题文章分别提出了 2 个子模块:1)word-level gate:根据 LSTM 的 hidden state 计算每个词的重要性;2)attention over visual units:对图片做一个 multi-label 词分类的问题是不容易的,难点在于需要预测的 concepts 怎么来(phrase 太多了),因此文章不显式地直接训练 visual 上的 multi-label 分类器,而是用结合 language model 和 visual model 自动地学习需要预测的 concepts 以及图片中是否出现了该 concepts。
>>>LinDayong<<<
文本和图片的匹配,一种方法是将整个文本和整个图片分别编码成文本向量和图片向量,然后让匹配的图文对在向量空间中的距离尽可能近,不匹配的图文对在向量空间中的距离尽可能远。
这篇论文使用的是更细粒度的单词级别的图文匹配。要判断一个句子是否和某张图片匹配,那就要看句子中的单词是否和图片里的某些东西能够对应上。
具体到模型而言,对于句子中的每个单词,Unit-level Attention 得到句子和图片特征的关联度有多大,Unit Activation 得到该图片是否包含该特征。两者结合可以得到单词和图片特征的关联度。Word-level Gate 用来衡量句子中每个单词的重要性。三者组合起来得到句子和图片的匹配程度。
>>>dengdan<<<