语义分割指的是将图像中的每一个像素关联到一个类别标签上的过程,这些标签可能包括一个人、一辆车、一朵花、一件家具等等。在这篇文章中,作者介绍了近来优秀的语义分割思想与解决方案,它可以称得上是 2019 语义分割指南了。
选自Medium, 作者:Derrick Mwiti,机器之心编译,参与:Nurhachu Null,Geek AI。
我们可以认为语义分割是像素级别的图像分类。例如,在一幅有很多辆车的图像中,分割模型将会把所有的物体(车)标记为车辆。但是,另一种被称为实例分割的模型能够将出现在图像中的独立物体标记为独立的实例。这种分割在被用在统计物体数量的应用中是很有用的(例如,统计商城中的客流量)。
-
Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
-
Fully Convolutional Networks for Semantic Segmentation
-
U-Net: Convolutional Networks for Biomedical Image Segmentation
-
The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
-
Multi-Scale Context Aggregation by Dilated Convolutions
-
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
-
Rethinking Atrous Convolution for Semantic Image Segmentation
-
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
-
FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation
-
Improving Semantic Segmentation via Video Propagation and Label Relaxation
-
Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
-
论文地址: arxiv.org/pdf/1502.02…
这篇论文的主要贡献如下:
-
为边界框或图像级别的训练引入 EM 算法,这可以用在弱监督和半监督环境中。
-
证明了弱标注和强标注的结合能够提升性能。在合并了 MS-COCO 数据集和 PASCAL 数据集的标注之后,论文的作者在 PASCAL VOC 2012 上达到了 73.9% 的交并比性能。
-
证明了他们的方法通过合并了少量的像素级别标注和大量的边界框标注(或者图像级别的标注)实现了更好的性能。
-
论文地址: arxiv.org/pdf/1605.06…
在生物医学图像处理中,得到图像中的每一个细胞的类别标签是非常关键的。生物医学中最大的挑战就是用于训练的图像是不容易获取的,数据量也不会很大。U-Net 是非常著名的解决方案,它在全连接卷积层上构建模型,对其做了修改使得它能够在少量的训练图像数据上运行,得到了更加精确的分割。
-
论文地址:https://arxiv.org/pdf/1505.04597.pdf
在这个模型中,训练是通过输入的图像、它们的分割图以及随机梯度下降来完成的。数据增强被用来教网络学会在使用很少的训练数据时所必需的鲁棒性和不变性。这个模型在其中的一个实验中实现了 92% 的 mIoU。
-
论文地址:https://arxiv.org/pdf/1611.09326.pdf
-
针对语义分割用途,将 DenseNet 的结构扩展到了全卷积网络。
-
提出在密集网络中进行上采样路径,这要比其他的上采样路径性能更好。
-
证明网络能够在标准的基准测试中产生最好的结果。
这篇论文提出了一个卷积网络模块,能够在不损失分辨率的情况下混合多尺度的上下文信息。然后这个模块能够以任意的分辨率被嵌入到现有的结构中,它主要基于空洞卷积。
-
论文地址:https://arxiv.org/abs/1511.07122
在这篇论文中,作者对语义分割任务中做出了下面的贡献:
-
为密集预测任务使用具有上采样的卷积
-
在多尺度上为分割对象进行带洞空间金字塔池化(ASPP)
-
通过使用 DCNNs 提升了目标边界的定位
-
论文地址:https://arxiv.org/abs/1606.00915
这篇论文解决了语义分割的主要挑战,包括:
-
由重复的最大池化和下采样导致的特征分辨率降低
-
检测多尺度目标
-
因为以目标为中心的分类器需要对空间变换具有不变性,因而降低了由 DCNN 的不变性导致的定位准确率。
-
论文地址:https://arxiv.org/pdf/1706.05587.pdf
在没有密集条件随机场(DenseCRF)的情况下,论文的 DeepLabv3 版本在 PASCAL VOC 2012 测试集上实现了 85.7% 的性能。
这篇论文的方法「DeepLabv3+」在 PASCAL VOC 2012 数据集和 Cityscapes 数据集上分别实现了 89.0% 和 82.1% 的性能,而且没有做任何后处理。这个模型在 DeepLabv3 的基础上增加一个简单的解码模块,从而改善了分割结果。
-
论文地址:https://arxiv.org/pdf/1802.02611v3.pdf