由于同样的物体在图像中可能呈现出不同的大小、姿态、视角变化甚至非刚体形变,因此如何适应这些复杂的几何形变是物体识别的主要难点,同时也是计算机视觉领域多年来关注的核心问题。很多传统经典方法,如尺度不变的特征变换(scale invariant feature transform, or SIFT)和可变形部件模型(deformable part models)等,都旨在解决这一问题。然而,由于人工设计特征的局限性,传统视觉方法在物体识别问题上多年来并未取得突破性的进展。
不久前,微软亚洲研究院视觉计算组的研究员在arXiv上公布了一篇题为“Deformable Convolutional Networks”(可变形卷积网络)的论文,首次在卷积神经网络(convolutional neutral networks,CNN)中引入了学习空间几何形变的能力,得到可变形卷积网络(deformable convolutional networks),从而更好地解决了具有空间形变的图像识别任务。
研究员们通过大量的实验结果验证了该方法在复杂的计算机视觉任务(如目标检测和语义分割)上的有效性,首次表明在深度卷积神经网络(deep CNN)中学习空间上密集的几何形变是可行的。该论文的源代码也于近期在GitHub上公布。
近年来,随着深度卷积神经网络的普遍使用,很多困难的视觉问题都获得了重大突破。图像识别于两年多前首次超越了人类的识别能力。物体检测、图像分割等也都达到了几年前传统方法难以企及的高度。
由于强大的建模能力和自动的端到端的学习方式,深度卷积神经网络可以从大量数据中学习到有效特征,避免了传统方法人工设计特征的弊端。然而,现有的网络模型对于物体几何形变的适应能力几乎完全来自于数据本身所具有的多样性,其模型内部并不具有适应几何形变的机制。究其根本,是因为卷积操作本身具有固定的几何结构,而由其层叠搭建而成的卷积网络的几何结构也是固定的,所以不具有对于几何形变建模的能力。
举个例子,想要识别出同一图像中不同大小的物体(比如远近不同的两个人),理想的结果是,在对应于每个物体的位置网络需要具有相应大小的感受野(receptive field)。直观的说,为了识别更大的物体网络需要看到更大的图像区域。然而,在现有的卷积网络架构中,图像中任何位置的感受野大小都是相同的,其取决于事先设定的网络参数(卷积核的大小、步长和网络深度等),无法根据图像内容自适应调整,从而限制了识别精度。
原文链接:
https://mp.weixin.qq.com/s/GRyNPezKA1Q0FkPTX65cGg