本文对比了Faster RCNN, SSD和R-FCN三种方法,每种方法都基于TensorFlow的实现,对比单模型、单次前传的性能。每一种方法都首先在TensorFlow中复现了原论文的报告精度,然后在此基础上进行修改对比。具体地:特征提取器采用了VGG16, Resnet101, Inception V2, Inception V3, Inception Resnet V2, MobileNet等多个模型;Faster RCNN和R-FCN选用同样的feature map层来预测region proposal;SSD在最上层的feature map基础上加入多个2倍大小的额外层做预测;Faster RCNN和R-FCN的proposal数量从10变化到300;本文同时探索了feature map的stride从32变化到16、8的影响;保持参数量不变;匹配方式统一为二分图,匹配框统一encode为[10*x_c/w_a, 10*y_c/h_a, 5*logw, 5*logh],回归的loss统一设置为Smooth L1 Loss;输入图像分辨率统一resize到短边为600,同时对比了短边为300分辨率的情况;计算时间包含了一次forward加上post-processing的时间。