Strong data augmentation 我们添加了Mosaic与Mixup两种数据增广以提升YOLOX的性能。Mosaic是U版YOLOv3中引入的一种有效增广策略,后来被广泛应用于YOLOv4、YOLOv5等检测器中。MixUp早期是为图像分类设计后在BoF中进行修改用于目标检测训练。通过这种额外的数据增广,基线模型取得了42.0%AP指标。注:由于采用了更强的数据增广,我们发现ImageNet预训练将毫无意义,因此,所有模型我们均从头开始训练。
Multi positives 为确保与YOLOv3的一致性,前述anchor-free版本仅仅对每个目标赋予一个正样本,而忽视了其他高质量预测。参考FCOS,我们简单的赋予中心区域为正样本。此时模型性能提升到45.0%,超过了当前最佳U版YOLOv3的44.3%。
SimOTA 先进的标签分配是近年来目标检测领域的另一个重要进展。基于我们的OTA研究,我们总结了标签分配的四个关键因素:(1) loss/quality aware; (2) center prior; (3) dynamic number of positive anchors; (4) global view。OTA满足上述四条准则,因此我们选择OTA作为候选标签分配策略。具体来说,OTA从全局角度分析了标签分配并将其转化为最优运输问题取得了SOTA性能。
Modified CSPNet in YOLOv5 为公平对比,我们采用了YOLOv5的骨干,包含CSPNet、SiLU激活以及PAN头。我们同样还延续了其缩放规则得到了YOLOX-S、YOLOX-M、YOLOX-L以及YOLOX-X等模型。对比结果见下表,可以看到:仅需非常少的额外的推理耗时,所提方法取得了3.0%~1.0%的性能提升。
Tiny and Nano detectors 我们进一步收缩模型得到YOLOX-Tiny以便于与YOLOv4-Tiny对比。考虑到端侧设备,我们采用深度卷积构建YOLOX-nano模型,它仅有0.91M参数量+1.08GFLOPs计算量。性能对比见下表,可以看到:YOLOX在非常小的模型尺寸方面表现仍然非常优异。
Model size and data augmentation 在所有实验中,我们让所有模型保持几乎相同的学习率机制和优化参数。然而,我们发现:合适的增广策略会随模型大小而变化。从下表可以看到:MixUp可以帮助YOLOX-L取得0.9%AP指标提升,但会弱化YOLOX-Nano的性能。基于上述对比,当训练小模型时,我们移除MixUp,并弱化Mosaic增广,模型性能可以从24.0%提升到25.3%。而对于大模型则采用默认配置。