专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
字体设计  ·  Spotify 推出的他们的新字体 ·  2 天前  
优秀网页设计  ·  今天元宵节!网友用汤圆为哪吒重塑肉身! ·  昨天  
优秀网页设计  ·  哪吒2导演饺子手绘80张破亿海报!网友:后面 ... ·  3 天前  
ZaomeDesign  ·  Aedas新作 | ... ·  2 天前  
庞门正道  ·  来,用创意重构一下世界! ·  4 天前  
51好读  ›  专栏  ›  极市平台

华为诺亚开源GhostNetV3:传统小模型的新型优化策略

极市平台  · 公众号  ·  · 2024-04-21 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨王云鹤@知乎
来源丨https://zhuanlan.zhihu.com/p/693250473
编辑丨极市平台

极市导读

ImageNet-1K数据集上的实验结果显示,GhostNetV3 1.3×模型在仅使用269M FLOPs和14.46ms的移动设备延迟下,达到了79.1%的top-1准确率,大幅度超越了现有模型。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

论文地址: https://arxiv.org/abs/2404.11202

代码地址: https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch

在移动设备和物联网设备日益普及的今天,对高效、轻量化的神经网络模型的需求日益迫切。华为诺亚方舟实验室最新发布的GhostNetV3,通过创新的训练策略,实现了在保持模型大小和推理速度的同时,显著提升了模型性能。

GhostNetV3是华为诺亚方舟实验室继GhostNet和GhostNetV2之后的又一力作。它不仅继承了前代模型在保持低参数量和推理速度方面的优势,更通过创新的训练策略,实现了性能的显著提升。在ImageNet-1K数据集上的实验结果显示,GhostNetV3 1.3×模型在仅使用269M FLOPs和14.46ms的移动设备延迟下,达到了79.1%的top-1准确率,大幅度超越了现有模型。

不同模型在ImageNet数据集上的性能比较

方法

为了充分发挥轻量化模型的潜力,研究团队系统地研究了多种训练策略,包括重新参数化、知识蒸馏、学习计划和数据增强等。

重新参数化设计:

如图1所示,GhostNetV3采用了训练时重参数化方法,通过使用深度可分离卷积和点群卷积提升模型的学习能力,同时不引入额外的推理阶段参数数量和计算复杂度。具体的,作者们对3×3深度卷积和1×1卷积模块使用重参数化操作,并且发现直连(identity)分支对提升模型性能具有正面作用。

图1 GhostNetV2与GhostNetV3结构对比

知识蒸馏:

为进一步提升模型性能,GhostNetV3采用了知识蒸馏技术,通过模仿教师模型的输出分布,鼓励小型模型学习到更丰富的特征表示,提升了模型的性能。

训练策略:

针对轻量化模型的特点,研究团队探索了适用于小模型的训练策略。一方面,通过比较不同的学习率及学习率衰减策略的组合,找到最优配置;另一方面,重新考量数据增强技术,探索对轻量化模型更有效的数据增强方法。

实验

图像分类任务:

表1展示了GhostNetV3在ImageNet-1K数据集上的实验结果。结果表明该模型在保持轻量化的同时,达到了与一些大型模型相当的性能。具体来说,GhostNetV3 1.3×模型在该数据集上达到了79.1%的top-1准确率,同时保持了269M FLOPs和14.46ms的移动设备延迟。此外,研究团队还将GhostNetV3的训练策略应用于其他一些流行的轻量化模型架构,如MobileNetV2和ShuffleNetV2。实验结果表明,这些模型在使用GhostNetV3的训练策略后,top-1准确率均有显著提升,证明了该训练策略的通用性和有效性。

表1 ImageNet-1K数据集上的实验结果

下图分别展示了上述模型的推理所需计算量及在Huawei Mate40 Pro手机上的实测推理时延。从结果中可以看出,GhostNetV3能够在比现有模型更低计算量及时延的情况下实现更高的推理精度。

图2 不同轻量化模型的推理所需计算量及时延

目标检测任务:

表2展示了GhostNetV3在COCO数据集上的实验结果。使用GhostNetV3作为骨干网络的检测模型,在COCO数据集上达到了与一些大型骨干网络相当的性能,同时保持了更快的推理速度,展现了GhostNetV3在目标检测任务上的优势。

表2 COCO数据集上的实验结果

消融实验:

为了验证各个训练策略对模型性能的影响,研究团队进行了一系列的消融实验,结论如下:

1)在3×3深度卷积的重参数化中加入1×1深度卷积分支对提升性能至关重要;

2)使用大型预训练模型作为教师模型使用知识蒸馏方法,对于提升轻量化模型的性能非常有效;

3)适当的学习率和调度策略(如余弦退火)对轻量化模型的性能有显著影响;

4)某些数据增强技术,如Mixup和CutMix,对于常规模型是有益的,但对轻量化模型则可能是有害的;5)指数移动平均(EMA)在适当的衰减值下,可以提高轻量化模型的性能。更详细的消融实验结果及结论请参阅原论文。

结论

GhostNetV3通过一系列创新的训练策略,在保持模型轻量化的同时,显著提升了模型的性能。这些策略不仅适用于GhostNetV3本身,还可以推广到其他轻量化模型的训练中。通过在多个数据集和任务上的广泛测试,研究团队验证了GhostNetV3的通用性和有效性,为移动设备上的神经网络设计和训练提供了新的思路。

公众号后台回复“ 数据集 ”获取100+深度学习各方向资源整理

极市干货







请到「今天看啥」查看全文