专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
新智元  ·  百度首个自研万卡集群点亮,上架DeepSee ... ·  23 小时前  
量子位  ·  热搜第一!DeepSeek百万年薪招AI人才 ... ·  昨天  
爱可可-爱生活  ·  【Crocotile ... ·  2 天前  
爱可可-爱生活  ·  【单Agent vs. ... ·  2 天前  
51好读  ›  专栏  ›  机器学习研究会

【开源】ICCV 2017论文精选第二弹 (附代码)

机器学习研究会  · 公众号  · AI  · 2017-11-08 22:59

正文

ICCV 2017

文章精选第二弹

有码有文才好看

主旨摘要和开源

TFCaffe随你选

如此良心好小编

看完记得随手赞


d=====( ̄▽ ̄*)b


DualNet: Learn Complementary Features for Image Recognition



在这项工作中,我们提出了一个名为DualNet的新型框架,旨在学习更精确的图像识别表示。在这个网络中,两个并行的神经网络被协调学习互补的特征,从而构建一个更宽的网络。具体而言,我们将端到端的深度卷积神经网络从逻辑上划分为两个功能部分,即特征提取器和图像分类器。两个子网络的提取器并排放置,形成DualNet的特征提取器。然后,将两个子网络的双流特征聚合输入到最后的分类器进行分类,同时,在每个子网的特征提取器后面附加两个辅助分类器,以使得单独学习的特征能够单独进行判别。通过对三个分类器的结果进行加权,实现互补约束,这就是DualNet的关键。此外,作者还提出了相应的训练策略,即迭代训练和联合训练,从而使两个子网络相互配合。最后,作者在经典架构CaffeNet,VGGNet,NIN和ResNet上进行了测试,使用的数据集有CIFAR-100,Stanford Dogs和UEC FOOD-100。结果表明,DualNet有助于学习更精确的图像表征,从而获得更高的识别精度。值得一提的是,本文在CIFAR-100数据集上的结果达到了领先水平。


开源链接(Caffe):

https://github.com/ustc-vim/dualnet


Towards 3D Human Pose Estimation in the Wild: A Weakly-Supervised Approach



本文中作者研究了在户外开放环境下三维人体姿态估计的问题。由于缺乏训练数据,该问题一直颇具挑战,现有的数据集要么是在实验环境中获得,要么是二维姿态数据。本文提出了一种弱监督的迁移学习方法,在两阶级联结构的单个深度网络中使用混合的2D和3D标签。该网络采用一个3D深度回归子网络对前沿的2D姿态估计子网络进行增强。在现有的两阶段方法中,对两个子网络分别训练,与之不同的是,本文采用的是端对端的训练方式,从而充分利用二维姿态估计和深度估计两个子任务之间的相关性。通过共享表示可以更好地学习深层特征。文中,在实验环境下获得的3D姿态标签被迁移到开放环境图像中。此外,作者引入了一个三维几何约束对3D姿态估计进行正则化,在缺乏ground truth深度标签时有效。本文在2D和3D的实验中均获得了良好性能。



网络结构如上图。在训练时,室内的带3D标签的数据集室外的2D标签的数据均被用来训练。在测试时,网络可以实现对室外图像的3D姿态估计。在测试阶段,图像经过堆叠的漏斗形网络后变成2D的热力图,这些热力图与底层特征图汇总后作为后续深度回归模型的输入。在训练时,2D及3D数据集被混合在同一个batch中。对于3D数据,采用标准的欧式距离回归代价函数,对于2D数据,本文提出了一个基于人类骨骼先验知识及2D标签的弱监督代价函数。


开源链接(Torch7):

https://github.com/xingyizhou/pose-hg-3d


Deformable Convolutional Networks



本文首次在卷积神经网络中引入了学习空间几何形变的能力,得到可变形卷积网络,从而更好地解决了具有空间形变的图像识别任务。


由于构造卷积神经网络 (CNN) 所用的模块中几何结构是固定的,其几何变换建模的能力本质上是有限的。在我们的工作中,我们引入了两种新的模块来提高卷积神经网络 (CNN) 对变换的建模能力,即可变形卷积 (deformable convolution) 和可变形兴趣区域池化 (deformable ROI pooling)。它们都是基于在模块中对空间采样的位置信息作进一步位移调整的想法,该位移可在目标任务中学习得到,并不需要额外的监督信号。新的模块可以很方便在现有的卷积神经网络 (CNN) 中取代它们的一般版本,并能很容易进行标准反向传播端到端的训练,从而得到可变形卷积网络 (deformable convolutional network)。大量的实验验证了本文方法在目标检测和语义分割等复杂视觉任务上的有效性,证明了在深度卷积神经网络中学习空间上密集的几何形变是可行的。



上图中,a为传统的空间采样点,b为可变性的空间采样点,在原有采样位置的基础上引入了位移。c和d为可变性采样的特殊情况,用以表明可变形卷积可以解决尺度变化及角度旋转的问题。

可变形卷积的示意图








请到「今天看啥」查看全文