专栏名称: 飞桨PaddlePaddle
源于产业实践的开源深度学习平台
目录
相关文章推荐
人生研究所  ·  用过这款「AI」耳机之后,我发现自己低估了它…… ·  15 小时前  
笔吧评测室  ·  聊一台极为纤薄的笔记本 ·  昨天  
笔吧评测室  ·  小米马志宇:REDMI Book Pro ... ·  3 天前  
笔吧评测室  ·  方正极光 14 轻薄本上架:可选酷睿 ... ·  3 天前  
51好读  ›  专栏  ›  飞桨PaddlePaddle

PaddleClas 2.6 发布,新增细粒度商品识别、特色多标签分类等前沿算法和检索能力!

飞桨PaddlePaddle  · 公众号  ·  · 2024-11-14 20:10

正文

PaddleClas 是飞桨图像分类套件,提供了实用的图像分类和检索任务解决方案和算法。近期,PaddleClas 发布最新 2.6 版本!此次发布带来了更丰富的图像分类和检索能力,提供更简单的低代码全流程开发方式, 新增能力具体如下
  • 新增 前沿图像分类算法模型

    MobileNetV4、StarNet、FasterNet;

  • 新增 特色多标签分类算法模型

    CLIP_vit_base_patch16_448_ML、PP-HGNetV2-B0_ML、PP-HGNetV2-B4_ML、PP-HGNetV2-B6_ML、PP-LCNet_x1_0_ML、ResNet50_ML;

  • 强大的 PP-ShiTuV2系统,新增服务端 图像特征模型
    PP-ShiTuV2_rec_CLIP_vit_base、PP-ShiTuV2_rec_CLIP_vit_large;
  • 新增人脸识别能力,支持端到端人脸识别。

  • 更简单的开发方式,更多样的部署方式,更丰富的硬件支持
PaddleClas代码库地址:
 https://github.com/PaddlePaddle/PaddleClas


新增图像分类和检索能力介绍


图像分类和检索是计算机视觉领域中的一项基础任务,旨在让计算机系统能够识别图像中的特定目标或类别,如识别出一张图片中的猫、狗、车辆等。这项技术已被广泛应用于多个行业,涵盖了单标签分类、多标签分类以及人脸识别等场景。
通用图像识别能力
PP-ShiTuV2,作为PaddleClas推出的全新通用图像识别系统,通过创新性地整合主体检测模型、图像特征模型以及向量检索模块,为开放域目标检测任务提供了一种创新解决方案。在最新版本中,我们推出了两款服务端图像特征模型: PP-ShiTuV2_rec_CLIP_vit_base 和 PP-ShiTuV2_rec_CLIP_vit_large 。这两款模型采用CLIP_vit作为骨干网络,显著提升了特征提取的性能。在AliProducts数据集上,其recall@1指标最高可达91.03%,在内部私有开放域评测集上相较于PP-ShiTuV2_rec模型提升了超过20个百分点。
图像特征模块在计算机视觉领域扮演着至关重要的角色,它通过深度学习方法自动从图像数据中提取关键特征,这些特征以向量形式表示,能够高效捕捉图像的核心信息,为后续的检索任务提供支持。PP-ShiTuV2的强大特征提取能力使其能够应对更为复杂的识别任务,尤其是在处理商品等细粒度开放域场景时,PP-ShiTuV2相较于单一的开放域目标检测模型展现出了明显的优势。

Grounding DINO模型识别白酒品牌

Grounding DINO模型识别饮料品牌

PP-ShiTuV2识别白酒品牌

PP-ShiTuV2识别饮料品牌

单标签图像分类


单标签图像分类作为最常见的识别任务,PaddleClas一直关注前沿发展,此次发布支持了最新的算法模型:
  • MobileNetV4 :新一代专为移动设备设计的卷积神经网络,集成了多种前沿网络设计架构,并引入了新的NAS方案,,实现了在ImageNet数据集上87%的高精度。

  • StarNet :引入元素乘法操作的超轻量级视觉骨干网络,简洁的网络结构设计带来了更低的延迟,并且在ImageNet数据集上达到了78.8%的精度。

  • FasterNet :采用“部分卷积(PConv)”技术,有效减少了冗余计算和内存访问,提升了模型的推理速度,并在ImageNet数据集上取得了高达83.5%的精度。


PaddleX 提供了模型在公开数据集的精度及不同设备的推理耗时
多标签图像分类

与单标签分类仅能获得图像的一个预测类别不同,多标签分类需要获得图像在多个维度上的识别结果,因此多标签分类能够获得更丰富的信息,通常适用于更为复杂的场景,例如获取图像上所有动物的类别,或是获得人的性别、年龄、肤色等属性信息。PaddleClas 此次发布带来了 6 个多标签分类模型,涵盖高精度到高速度等不同尺度的模型,并且上述模型均使用了ML-Decoder分类头进一步提高了模型性能,在COCO2017多标签分类数据集上最高取得91.25的mAP精度。

多标签分类模型预测可视化效果图

人体属性识别端到端预测可视化效果图

人脸识别
由于人脸图像具有丰富的信息,能够实现对个人身份的自动识别,因此人脸识别一直都是视觉领域最为重要的任务之一,广泛应用于安全认证、社交媒体和智能设备等场景。 人脸识别任务需要定位图像中人脸的位置,然后提取人脸图像的特征,最后进行匹配获得相应的身份信息。 PaddleClas 本次发布了 MobileFaceNet 和 ResNet50_face 人脸特征提取模型,均基于 MS1Mv3 数据集进行训练,并评估了公开数据集的AP指标:


人脸识别产线端到端预测可视化效果图


图像分类和检索领域低代码全流程开发

飞桨低代码开发工具 PaddleX,依托于PaddleClas的先进技术,支持了图像分类和检索领域的低代码全流程开发能力。通过 低代码全流程开发 ,可实现简单且高效的模型使用、组合与定制。这将显著 减少模型开发的时间消耗,降低其开发难度 ,大大加快模型在行业中的应用和推广速度。详细特色如下:
  • 模型丰富一键调用 :将通用图像分类、图像多标签分类、通用图像识别、人脸识别涉及的 98个模型 整合为6条模型产线,通过极简的 Python API一键调用 ,可以快速体验模型效果。此外,同一套API,也支持目标检测、图像分割、文本图像智能分析、通用OCR、时序预测等共计 200+模型 ,形成20+单功能模块,方便开发者进行 模型组合使用

  • 提高效率降低门槛 :提供基于 统一命令 图形界面 两种方式,实现模型简洁高效的使用、组合与定制。 支持高性能推理、服务化部署和端侧部署等多种部署方式 。此外,对于各种主流硬件如 英伟达GPU、昆仑芯、昇腾、寒武纪和海光 等,进行模型开发时,都可以 无缝切换

以通用图像识别系统 PP-ShiTuV2为例 具体使用方法如下

  • 安装

根据设备选择安装 PaddlePaddle
# cpupython -m pip install paddlepaddle==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/# gpu,该命令仅适用于 CUDA 版本为 11.8 的机器环境python -m pip install paddlepaddle-gpu==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/# gpu,该命令仅适用于 CUDA 版本为 12.3 的机器环境python -m pip install paddlepaddle-gpu==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cu123/


安装 PaddleX

pip install https://paddle-model-ecology.bj.bcebos.com/paddlex/whl/paddlex-3.0.0b2-py3-none-any.whl

  • 快速体验

PaddleX 提供了简单易用的 Python API,只需几行代码即可体验端到端预测效果:

from paddlex import create_pipeline
pipeline = create_pipeline(pipeline="PP-ShiTuV2")index_data = pipeline.build_index("drink_dataset_v2.0/", "drink_dataset_v2.0/gallery.txt")output = pipeline.predict("./drink_dataset_v2.0/test_images/", index=index_data)for res in output: res.print() res.save_to_img("./output/")

上述代码中,首先使用产线名称调用 create_pipeline() 方法实例化产线对象,然后调用 build_index() 方法构建特征向量库,最后即可使用 predict() 方法进行预测,对于预测结果支持 print() 方法进行打印,以及 save_to_img() 方法进行可视化并保存为图片。







请到「今天看啥」查看全文