AI 科技评论按
:CVPR 2017的获奖论文已经在大会的第一天中公布,共有6篇论文获得四项荣誉。AI 科技评论对6篇获奖论文作简要介绍如下。
CVPR最佳论文
本届CVPR共有两篇最佳论文,其中就有一篇来自苹果。
「Densely Connected Convolutional Networks」
论文作者:康奈尔大学 Gao Huang,清华大学 Zhuang Liu,康奈尔大学 Kilian Q. Weinberger,Facebook 人工智能研究院 Laurens van der Maaten
论文地址:
https://arxiv.org/abs/1608.06993
论文简介:近期的研究已经展现这样一种趋势,如果卷积网络中离输入更近或者离输出更近的层之间的连接更短,网络就基本上可以更深、更准确,训练时也更高效。这篇论文就对这种趋势进行了深入的研究,并提出了密集卷积网络(DenseNet),其中的每一层都和它之后的每一层做前馈连接。对于以往的卷积神经网络,网络中的每一层都和其后的层连接,L层的网络中就具有L个连接;而在DenseNet中,直接连接的总数则是L(L+1)/2个。对每一层来说,它之前的所有的层的 feature-map 都作为了它的输入,然后它自己的 feature-map 则会作为所有它之后的层的输入。
DenseNet 类型的网络有这样几个引人注目的优点:它们可以缓和梯度消失的问题,可以加强特征传播,可以鼓励特征的重用,而且显著减少参数的数量。论文中在 CIFAR-10、CIFAR-100、SVHN、ImageNet 这四个高竞争性的物体识别任务中进行了 benchmark,DenseNet 在多数测试中都相比目前的顶尖水平取得了显著提升,同时需要的内存和计算力还更少。
「Learning From Simulated and Unsupervised Images through Adversarial Training」
论文作者:苹果公司 Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb
论文地址:
https://arxiv.org/abs/1612.07828
论文简介:随着图像领域的进步,用生成的图像训练机器学习模型的可行性越来越高,大有避免人工标注真实图像的潜力。但是,由于生成的图像和真实图像的分布有所区别,用生成的图像训练的模型可能没有用真实图像训练的表现那么好。为了缩小这种差距,论文中提出了一种模拟+无监督的学习方式,其中的任务就是学习到一个模型,它能够用无标注的真实数据提高模拟器生成的图片的真实性,同时还能够保留模拟器生成的图片的标注信息。论文中构建了一个类似于 GANs 的对抗性网络来进行这种模拟+无监督学习,只不过论文中网络的输入是图像而不是随机向量。为了保留标注信息、避免图像瑕疵、稳定训练过程,论文中对标准 GAN 算法进行了几个关键的修改,分别对应“自我正则化”项、局部对抗性失真损失、用过往的美化后图像更新鉴别器。
论文中表明这些措施可以让网络生成逼真的图像,并用定性的方法和用户实验的方法进行了演示;定量测试则是用生成的数据训练模型估计目光注视方向、估计手部姿态。结果表明,经过模型美化后的生成图像可以为模型表现带来显著提升,在 MGIIGaze 数据集中不依靠任何有标注的真实数据就可以取得超过以往的表现。
论文详解:上周时候苹果开放了自己的机器学习博客“苹果机器学习日记”,其中第一篇就是对这篇获奖论文的详解,AI 科技评论编译文章
在这里
,欢迎感兴趣的读者详细了解。
CVPR最佳论文提名
「Annotating Object Instance with a Polygon-RNN」
论文作者:多伦多大学计算机学院Llu´ıs Castrejon,Kaustav Kundu,Raquel Urtasun,Sanja Fidler
论文地址:
https://arxiv.org/abs/1704.05548
论文简介:论文中介绍了一种半自动的物体标注方法。这套系统的思路是,不再像以往一样把图像中的物体分割作为一种像素标注问题,把它看作一个多边形位置预测问题,从而模仿目前已有的标注数据集的方式生成检测标注框。具体来讲,论文中的方法在输入图像后可以依次生成多边形的边把图像中的物体围起来。这个过程中,人类标注员可以随时参与并纠正错误的顶点,从而得到人类标注员眼中尽可能准确的分割。
根据论文中的测试,他们的方法可以在 Cityscapes 的所有类别中把标注速度提升至4.7倍,同时还可与原本真值的重合度 IoU 达到78.4%,与人类标注者之间的典型重合率相符。对于车辆图像,标注速度可以提升至7.3倍,重合度达到82.2%。论文中也研究了这种方法对于从未见过的数据集的泛化能力。
「YOLO9000: Better, Faster, Stronger」