专栏名称: AI科技大本营

迎来到AI科技大本营。这里汇集了优秀的AI学习者，技术大咖和产业领袖；提供接地气的实战课程。在这里和优秀的人一起成长。

1小时上手MaskRCNN·Keras开源实战 | 深度应用

AI科技大本营 · 公众号 · AI · 2019-08-20 18:45

正文

作者 | 小宋是呢

来源 | CSDN博客

0. 前言介绍

开源地址：

https://github.com/matterport/Mask_RCNN

个人主页：

http://www.yansongsong.cn/

MaskRCNN 是何恺明基于以往的 faster rcnn 架构提出的新的卷积网络，一举完成了 object instance segmentation。该方法在有效地目标的同时完成了高质量的语义分割。文章的主要思路就是把原有的 Faster-RCNN 进行扩展，添加一个分支使用现有的检测对目标进行并行预测。

此开源代码：这是在 Python 3，Keras 和 TensorFlow 上实现 Mask R-CNN 。该模型为图像中对象的每个实例生成边界框和分割蒙版。它基于特征金字塔网络（FPN）和ResNet101骨干网。

存储库包括：

Mask R-CNN的源代码，建立在FPN和ResNet101之上。
MS COCO的培训代码
MS COCO的预训练重量
Jupyter笔记本可以在每一步都可视化检测管道
ParallelModel类用于多GPU培训
评估MS COCO指标（AP）
您自己的数据集培训示例

代码记录在案，设计易于扩展。如果您在研究中使用它，请考虑引用此存储库（下面的bibtex）。如果您从事3D视觉，您可能会发现我们最近发布的Matterport3D数据集（https://mp.weixin.qq.com/s/Dt0jbw5Mg-NA_c1A4D_jhg）也很有用。该数据集是由我们的客户捕获的3D重建空间创建的，这些客户同意将其公开供学术使用。您可以在此链接（https://matterport.com/gallery/）查看更多示例。

1. MaskRCNN环境搭建

首先在项目源码地址下载源码到本机中：

https://github.com/matterport/Mask_RCNN

1.1 要求

Python 3.4，TensorFlow 1.3，Keras 2.0.8和其他常见软件包requirements.txt。

亲测Python版本为3.6也可以，建议3.4及以上。

Python安装建议使用 mini conda 安装和管理环境

TensorFlow，Keras 也建议直接使用 conda install tensorflow keras

1.2 MS COCO要求：

要在MS COCO上进行训练或测试，还需要：

pycocotools（下面的安装说明）
MS COCO数据集
下载5K迷你和35K 验证 - 减去迷你的子集。最初的快速R-CNN实现中的更多细节。

安装链接如下：

MS COCO数据集:

(http://cocodataset.org/#home)

迷你：(https://dl.dropboxusercontent.com/s/o43o90bna78omob/instances_minival2014.json.zip?dl=0)

验证 - 减去迷你的：(https://dl.dropboxusercontent.com/s/s3tw5zcg7395368/instances_valminusminival2014.json.zip?dl=0)

快速R-CNN：

(https://github.com/rbgirshick/py-faster-rcnn/blob/master/data/README.md)

如果您使用Docker，则已验证代码可以在此Docker容器上运行（https://hub.docker.com/r/waleedka/modern-deep-learning/）。

为什么需要安装 pycocotools，经过看源码发现，训练 coco 数据集时用到了pycocotools 这个模块，如果不安装会报错无法正常运行。

1.3 安装

1. 克隆此存储库：https://github.com/matterport/Mask_RCNN

2. 安装依赖项（CD 进入项目根目录，pip3 不行的话可以尝试用 pip）

pip3 install -r requirements.txt

在linux安装时，使用此方法一切正常，就是速度会有些慢，因为安装内容较多。

使用Windows安装时可能会遇到shapely，无法安装的情况，解决方法如下：

conda install shapely -y

3. 从存储库根目录运行安装程序

python3 setup.py install

不报错的话就安装完成了，如果报错可以根据错误提示，网络搜索解决。

python3 不行的话就用 python，还要注意一点你使用哪个python环境安装，后面运行的时候也要用此python环境运行MaskRCNN。

4. 从发布页面下载预先训练的COCO权重（mask_rcnn_coco.h5）。

这里提供一个下载地址，可以直接下载使用：

https://github.com/matterport/Mask_RCNN/releases/download/v2.0/mask_rcnn_coco.h5

5.（可选）pycocotools从这些回购中的一个训练或测试MS COCO安装。（这里就是1.2 MS COCO要求，需要安装pycocotools）

Linux：https：//github.com/waleedka/coco
Windows：https：//github.com/philferriere/cocoapi。您必须在路径上安装Visual C ++ 2015构建工具（有关其他详细信息，请参阅存储库）

经过本人安装测试，可以使用较为简单的方式来安装：

Linux中直接使用：

pip3 install pycocotools

windows 中需要先安装 Visual C++ 2015，下载地址：https://go.microsoft.com/fwlink/?LinkId=691126

然后执行：注意要和安装MaskRCNN同一Python环境

pip3 install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPI

上述都执行完成的话，keras版本的MaskRCNN就安装完成了。下面我们动手试用一下。

2. 使用演示

用安装Mask RCNN的python环境打开 jupyter notebook，命令行，或shell运行：

jupyter notebook

指定jupyter notebook默认路径，便于打开项目工程可以参考这个博客：https://www.cnblogs.com/awakenedy/p/9075712.html

运行完成后，会自动打开一个网页，如果不能就手动复制一下地址打开。

进入下载的MaskRCNN的根目录，打开 samples/demo.ipynb 文件。

代码如下：

In [1]:导入相关文件，设置参数，下载网络模型等：

由于下载速度慢，建议直接下载

https://github.com/matterport/Mask_RCNN/releases/download/v2.0/mask_rcnn_coco.h5

到根目录在运行下面代码

import osimport sysimport randomimport mathimport numpy as npimport skimage.ioimport matplotlibimport matplotlib.pyplot as plt # Root directory of the projectROOT_DIR = os.path.abspath("../") # Import Mask RCNNsys.path.append(ROOT_DIR)  # To find local version of the libraryfrom mrcnn import utilsimport mrcnn.model as modellibfrom mrcnn import visualize# Import COCO configsys.path.append(os.path.join(ROOT_DIR, "samples/coco/"))  # To find local versionimport coco %matplotlib inline  # Directory to save logs and trained modelMODEL_DIR = os.path.join(ROOT_DIR, "logs") # Local path to trained weights fileCOCO_MODEL_PATH = os.path.join(ROOT_DIR, "mask_rcnn_coco.h5")# Download COCO trained weights from Releases if neededif not os.path.exists(COCO_MODEL_PATH):    utils.download_trained_weights(COCO_MODEL_PATH) # Directory of images to run detection onIMAGE_DIR = os.path.join(ROOT_DIR, "images")

Using TensorFlow backend.

In [2]:进行一些参数设置

我们将使用一个经过 MS-COCO 数据集训练的模型。这个模型的配置在coco.py 中的 cococonfig 类中。

为了进行推断，请稍微修改配置以适合任务。为此，对 cococonfig 类进行子类化，并重写需要更改的属性。

class InferenceConfig(coco.CocoConfig):    # Set batch size to 1 since we'll be running inference on    # one image at a time. Batch size = GPU_COUNT * IMAGES_PER_GPU    GPU_COUNT = 1    IMAGES_PER_GPU = 1 config = InferenceConfig()config.display()

Configurations:BACKBONE                       resnet101BACKBONE_STRIDES               [4, 8, 16, 32, 64]BATCH_SIZE                     1BBOX_STD_DEV                   [0.1 0.1 0.2 0.2]COMPUTE_BACKBONE_SHAPE         NoneDETECTION_MAX_INSTANCES        100DETECTION_MIN_CONFIDENCE       0.7DETECTION_NMS_THRESHOLD        0.3FPN_CLASSIF_FC_LAYERS_SIZE     1024GPU_COUNT                      1GRADIENT_CLIP_NORM             5.0IMAGES_PER_GPU                 1IMAGE_CHANNEL_COUNT            3IMAGE_MAX_DIM                  1024IMAGE_META_SIZE                93IMAGE_MIN_DIM                  800IMAGE_MIN_SCALE                0IMAGE_RESIZE_MODE




    
              squareIMAGE_SHAPE                    [1024 1024    3]LEARNING_MOMENTUM              0.9LEARNING_RATE                  0.001LOSS_WEIGHTS                   {'rpn_class_loss': 1.0, 'rpn_bbox_loss': 1.0, 'mrcnn_class_loss': 1.0, 'mrcnn_bbox_loss': 1.0, 'mrcnn_mask_loss': 1.0}MASK_POOL_SIZE                 14MASK_SHAPE                     [28, 28]MAX_GT_INSTANCES               100MEAN_PIXEL                     [123.7 116.8 103.9]MINI_MASK_SHAPE                (56, 56)NAME                           cocoNUM_CLASSES                    81POOL_SIZE                      7POST_NMS_ROIS_INFERENCE        1000POST_NMS_ROIS_TRAINING         2000PRE_NMS_LIMIT                  6000ROI_POSITIVE_RATIO             0.33RPN_ANCHOR_RATIOS              [0.5, 1, 2]RPN_ANCHOR_SCALES              (32, 64, 128, 256, 512)RPN_ANCHOR_STRIDE              1RPN_BBOX_STD_DEV               [0.1 0.1 0.2 0.2]RPN_NMS_THRESHOLD              0.7RPN_TRAIN_ANCHORS_PER_IMAGE    256STEPS_PER_EPOCH                1000TOP_DOWN_PYRAMID_SIZE          256TRAIN_BN                       FalseTRAIN_ROIS_PER_IMAGE           200USE_MINI_MASK                  TrueUSE_RPN_ROIS                   TrueVALIDATION_STEPS               50WEIGHT_DECAY                   0.0001

In [3]:建立网络模型，载入参数

# Create model object in inference mode.model = modellib.MaskRCNN(mode="inference", model_dir=MODEL_DIR, config=config) # Load weights trained on MS-COCOmodel.load_weights(COCO_MODEL_PATH, by_name=True)

WARNING:tensorflow:From c:\datas\apps\rj\miniconda3\envs\tf_gpu\lib\site-packages\tensorflow\python\framework\op_def_library.py:263: colocate_with (from tensorflow.python.framework.ops) is deprecated and will be removed in a future version.Instructions for updating:Colocations handled automatically by placer.WARNING:tensorflow:From c:\datas\apps\rj\miniconda3\envs\tf_gpu\lib\site-packages\mask_rcnn-2.1-py3.6.egg\mrcnn\model.py:772: to_float (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.Instructions for updating:Use tf.cast instead.

类名

模型对对象进行分类并返回类 ID，类 ID 是标识每个类的整数值。有些数据集将整数值赋给它们的类，而有些则没有。例如，在 MS-COCO 数据集中，“Person”类为 1，“Teddy Bear”类为 88。ID 通常是连续的，但并不总是连续的。例如，COCO 数据集具有与 ID70 和 72 相关联的类，但没有与 71 相关联的类。

为了提高一致性与同时支持对来自多个源的数据的训练，我们的 DataSet 类为每个类分配了它自己的顺序整数 ID。例如，如果使用我们的数据集类加载 COCO 数据集，“Person”类将获得类 ID=1（就像 COCO 一样），“Teddy Bear”获得类 78（不同于 COCO）。在将类 ID 映射到类名时，请记住这一点。

要获取类名列表，你需要加载数据集，然后使用类名称属性，如下所示

# Load COCO datasetdataset = coco.CocoDataset()dataset.load_coco(COCO_DIR, "train")dataset.prepare() # Print class namesprint(dataset.class_names)

我们不希望你为了运行这个演示而下载 COCO 数据集，所以我们在下面列出了类名列表。列表中类名的索引表示其 ID（第一个类是 0，第二个类是 1，第三个类是 2，…等等）。

In [4]:配置类别名

# COCO Class names# Index of the class in the list is its ID. For example, to get ID of# the teddy bear class, use: class_names.index('teddy bear')class_names = ['BG', 'person', 'bicycle', 'car', 'motorcycle', 'airplane',               'bus', 'train', 'truck', 'boat', 'traffic light',               'fire hydrant', 'stop sign', 'parking meter', 'bench', 'bird',               'cat', 'dog', 'horse', 'sheep', 'cow', 'elephant', 'bear',               'zebra', 'giraffe', 'backpack', 'umbrella', 'handbag', 'tie',               'suitcase', 'frisbee', 'skis', 'snowboard', 'sports ball',               'kite', 'baseball bat', 'baseball glove', 'skateboard',               'surfboard', 'tennis racket', 'bottle', 'wine glass', 'cup',               'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple',               'sandwich'




    
, 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza',               'donut', 'cake', 'chair', 'couch', 'potted plant', 'bed',               'dining table', 'toilet', 'tv', 'laptop', 'mouse', 'remote',               'keyboard', 'cell phone', 'microwave', 'oven', 'toaster',               'sink', 'refrigerator', 'book', 'clock', 'vase', 'scissors',               'teddy bear', 'hair drier', 'toothbrush']

In [5]:读入照片进行识别

原文中采用从 images 文件夹随机读取的方式。我这里注释掉了前两句，采用读取自己准备的照片，这里是我的母校照片。

大家只需要将 image_file 改为自己准备照片地址即可。

# Load a random image from the images folder#file_names = next(os.walk(IMAGE_DIR))[2]#image = skimage.io.imread(os.path.join(IMAGE_DIR, random.choice(file_names))) image_file = os.path.join(IMAGE_DIR, "ahnu.jpg") image = skimage.io.imread(image_file) # Run detectionresults = model.detect([image], verbose=1) # Visualize resultsr = results[0]visualize.display_instances(image, r['rois'], r['masks'], r['class_ids'],                             class_names, r['scores'])

Processing 1 imagesimage                    shape: (768, 1024, 3)        min:    0.00000  max:  255.00000  uint8molded_images            shape: (1, 1024, 1024, 3)    min: -123.70000  max:  151.10000  float64image_metas              shape: (1, 93)               min:    0.00000  max: 1024.00000  float64anchors                  shape: (1, 261888, 4)        min:   -0.35390  max:    1.29134  float32

3. 训练模型

我训练了samples/shapes/train_shapes.ipynb例子，并成功调用了多GPU，如果大家遇到问题可以看我下面的解决方法。。

3.1 MS COCO 培训

我们为 MS COCO 提供预先训练的砝码，使其更容易入手。你可以使用这些权重作为起点来训练您自己在网络上的变化。培训和评估代码在samples/coco/coco.py。你可以在 Jupyter 笔记本中导入此模块（请参阅提供的笔记本中的示例），或者你可以直接从命令行运行它：

# Train a new model starting from pre-trained COCO weightspython3 samples/coco/coco.py train --dataset=/path/to/coco/ --model=coco # Train a new model starting from ImageNet weightspython3 samples/coco/coco.py train --dataset=/path/to/coco/ --model=imagenet # Continue training a model that you had trained earlierpython3 samples/coco/coco.py train --dataset=/path/to/coco/ --model=/path/to/weights.h5 # Continue training the last model you trained. This will find# the last trained weights in the model directory.python3 samples/coco/coco.py train --dataset=/path/to/coco/ --model=last

你还可以使用以下命令运行 COCO 评估代码：

# Run COCO evaluation on the last trained modelpython3 samples/coco/coco.py evaluate --dataset=/path/to/coco/ --model=last

应设置培训计划，学习率和其他参数 samples/coco/coco.py。

3.2 对您自己的数据集进行培训

首先阅读关于气球颜色飞溅样本的博客文章。

（https://engineering.matterport.com/splash-of-color-instance-segmentation-with-mask-r-cnn-and-tensorflow-7c761e238b46）

它涵盖了从注释图像到培训再到在示例应用程序中使用结果的过程。

总之，要在您自己的数据集上训练模型，您需要扩展两个类：

Config 该类包含默认配置。对其进行子类化并修改您需要更改的属性。

Dataset 此类提供了一种使用任何数据集的一致方法。它允许您使用新数据集进行培训，而无需更改模型的代码。它还支持同时加载多个数据集，如果要检测的对象在一个数据集中并非全部可用，则此选项非常有用。

见例子samples/shapes/train_shapes.ipynb，samples/coco/coco.py，samples/balloon/balloon.py，和samples/nucleus/nucleus.py。

本人测试了 samples/shapes/train_shapes.ipynb，单 GPU 训练基本都没有问题，使用多 GPU 运行时可能会出现这个问题：

Keras object has no attribute '_is_graph_network'

解决方法：

降级Keras到2.1.6可以解决这个问题

pip install keras==2.1.6

加速安装

pip install keras==2.1.6 -i https://pypi.tuna.tsinghua.edu.cn/simple

3.3 与官方文件的不同之处

这个实现大部分都遵循 Mask RCNN 文章，但在一些情况下我们偏向于代码简单性和泛化。这些是我们意识到的一些差异。如果您遇到其他差异，请告诉我们。

图像大小调整： 为了支持每批训练多个图像，我们将所有图像调整为相同大小。例如，MS COCO上的 1024x1024px 。我们保留纵横比，因此如果图像不是正方形，我们用零填充它。在论文中，调整大小使得最小边为 800px ，最大边为 1000px。

1小时上手MaskRCNN·Keras开源实战 | 深度应用

正文

请到「今天看啥」查看全文