专栏名称: DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
目录
相关文章推荐
企业专利观察  ·  说明书修改超范围,专利局认定专利继续维持有效 ·  2 天前  
企业专利观察  ·  说明书修改超范围,专利局认定专利继续维持有效 ·  2 天前  
中国国家地理  ·  夕阳,白鹤,和鹳雀楼 ·  2 天前  
知识产权那点事  ·  字节跳动低调入局音乐授权,又一个千亿市场? ·  4 天前  
连云港市场监管  ·  连云港在全省率先出台《数据知识产权保护指南》 ... ·  3 天前  
连云港市场监管  ·  连云港在全省率先出台《数据知识产权保护指南》 ... ·  3 天前  
51好读  ›  专栏  ›  DataFunSummit

多新类场景下的小样本学习

DataFunSummit  · 公众号  ·  · 2025-01-28 18:00

正文

导读 小样本学习旨在解决解决现实世界中普遍存在的、由于缺乏足够训练数据而导致预测误差大的问题。在学术研究领域,学者们大多讨论少新类场景下的小样本学习,而鲜有关注多新类问题场景下的小样本学习。对此,本期分享旨在通过一种新颖的小样本学习算法,激发大家对这一科学问题的研究热情。

具体从以下四方面展开:

1. 背景介绍

2. 问题介绍与可行思路

3. 实验

4. 总结与展望

分享嘉宾| 林志鹏 国防科大 博士生

编辑整理| 宋禺

内容校对|李瑶

出品社区| DataFun


01

背景介绍

首先简要阐述小样本学习问题的产生背景,以及什么是多新类场景下的小样本学习。

1. 小样本学习产生背景

图像识别是计算机算法研究领域的重要分支,2012 年之后,学者们开始广泛使用深度学习相关算法开展改进研究。得益于深度学习算法的运算能力 计算性能高 基于神经网络结构的算法设计自由度高 ,预测准确率得到了显著提升,在部分识别场景中,算法的图像识别能力甚至远远超出人类水平。

通常,深度学习算法对预训练数据集规模具有较高要求,而现实世界中诸多预测问题却往往面临着数据稀缺的挑战。一般来说,数据稀缺问题具有如下特点:

  • 数据收集与标注代价⾼(诸如在医疗图像领域, 获取高质量的医疗影像(如 MRI、CT、X 光片等)需要专业设备和设备维护,需要由经验丰富的放射科医生或医学专家进行标注,耗时且费用高昂。此外,某些疾病或病灶的样本数量本身稀少,进一步增加了标注难度。)

  • 特殊领域数据稀缺

  • 隐私数据保护

为解决此类问题,受人类能够基于先验知识,根据少量标注样本,学会识别未见类的启发,学者们提出了小样本学习这一重要概念并在诸多领域(如计算机视觉、自然语言处理、强化学习等)开展了一系列探索,其核心赋予是模型“学会学习”的能力。

2. 多新类场景下的小样本学习

多新类场景(与少新类场景相对)下的数据稀缺现象普遍存在于人们的日常生活中,诸如在电商平台每天上线的新商品种类很多,但每个商品实际上只有少量样品,这就要求平台内嵌的某些算法模型具备有效识别大量新出现商品的能力。但在学术研究领域,如何提升相关算法在多新类场景下的小样本学习能力仍面临着巨大挑战,主要是因为:

  • 问题定义和分析不明确;

  • 多新类场景评估较少;

  • 多新类场景现存方法较少。

02

问题介绍与可行思路

接下来重点介绍多新类场景下小样本学习的问题描述方式和可行解决思路。

1. 小样本学习的定义

形式化地,我们可以将小样本学习任务定义成一个 N-way K-shot Q-query 的多分类学习任务。其中 N 表示训练样本的类别数目,K 表示各类别的训练样本数目,Q 代表每个类别的测试样本数目。请参考下图中所示例的动物识别任务,以加深理解。

2. 小样本学习的描述

如下图所示,小样本学习通常包含两个阶段:一是 预训练与元训练阶段 ,基于大量的基类训练数据得到一个小样本学习模型;二是 小样本学习阶段 ,在小样本模型的基础上得到适用于当下问题场景的预测模型。

3. 多新类场景下的小样本学习

(1)多新类场景的定义

多新类场景,需同时满足以下两个条件:

  • 下游任务新类数(即测试集类别)目需大于基类数目(即训练集类别);

  • 数据集新颖率大于 10,其中新颖率=新类标签集合/已见类标签集合;

(2)多新类场景下小样本学习的挑战

从算法建模角度,目前多新类场景下小样本学习所面临的挑战主要有:

  • 挑战 1:传统 benchmark 数据集都是针对少新类场景的;

  • 挑战 2:大量的小样本学习方法在多新类场景下所需计算开销是不可接受的;

  • 挑战 3:多新类场景面临着“迁移崩溃”问题。

4. 多新类场景下小样本学习任务的解决思路

针对上述挑战,我们提出如下解决思路:

  • 制作新的数据集,进⾏多新类场景下的⼩样本学习的评估(挑战 1)

  • 提出⼀个提⾼⼩样本学习的计算效率的并⾏框架(挑战 2)

  • 针对多新类场景,提取类别语义层级结构进⾏微调(挑战 3)

(1)ImageNet-MNC 数据集制作

首先,我们构造了一个全新的数据集,并基于前述条件判断所构建数据集是否符合多新类场景小样本学习的定义。训练集和测试集类别情况如下:

  • 训练集:ImageNet-1k 数据集,包含 1000 个类别;

  • 测试集:ImageNet-21k 数据集,去除与 ImageNet-1k 重叠的 1000 个类别后,还保留着 15000 个类别。

(2)并行运算框架

其次,为提高运算效率,减少资源开销,我们还提出一种并行运算框架,即将多新类小样本学习任务进行分割,并发送到不同的 GPU 进行训练和测试。

(3)结合类别语义层级结构的简单微调⽅法

针对第三个 挑战(即多新类场景中的“迁移崩溃”问题),我们提出了一种结合类别语义层级结构的简单微调⽅法(SHA-Pipeline ),主要包含特征正则化、层次聚类和结构表征学习三个步骤。具体展开如下:

特征正则化

这里,我们主要采用了基于 Z-score 的特征正则化方式,因为该方法能够避免通讯,降低运算开销。从下图中也能够看出,原始数据杂乱的分布在通过正则化后变成了高维空间中的一个圆。

层次聚类

这里,我们采用了无参层次聚类的方法,基本实现逻辑如下图所示。

表征学习

其核心逻辑如下:

  • 基于所设计 层次距离 的距离度量方式计算样本点之间的距离;

  • 基于皮尔森相关系数计算样本点之间 欧式距离 层次距离 的相关性;

  • 基于所设计 损失函数 进行模型拟合。

(详细内容请参考相应文献)

03

实验

1. 实验设置

本节主要介绍实验设置和对比结果。在算法有效性验证方面,主要验证所提出 SHA-Pipeline 方法的计算开销、所提出方法在多新类场景下的预测优越性、在标准小样本学习问题上的预测能力、方法中各模块(即第 2.4 节介绍的三种策略)对提升整体预测能力的特有贡献。同时还补充了可视化实验,以直观体现算法优势。

对比方法包括 ProtoNet、ProtoNet-Fix、SimpleShot 和 P>M>F,各算法训练细节的具体设置见下图。

2. 实验结果

(1)SHA-Pipeline 计算开销分析实验结果

图示结果基于所提出 SHA-Pipeline 方法得到,从中可以看出新类数量越多,计算开销越大;各类样本越多,计算开销也越大。同时,值得强调的是,如果不使用所设计的并行运算框架,计算内存会溢出,无法正常完成待预测任务。

(2)多新类场景下的⼩样本学习实验

由图,可以看出,我们所提出的 SHA-Pipeline 方法在两组实验中均始终表现出最优的预测能力。但同时也可以发现,测试类别增加会极大提升预测任务的难度,这也是我们希望在后期工作中进一步解决的。

(3)标准的⼩样本学习数据集实验

为检验所提出方法的泛化能力,我们还在标准小样本数据集上进行预测效果测试。由下图左侧实验结果可以看出,所提出 SHA-Pipeline 方法在 CIFAR-FS和 m iniImageNet 数据集上均展示出最佳的预测能力。但客观而言,所提出方法在跨域数据集上(如 Omglot 是自然语言数据集)的预测优势并不十分突出(结果如下图右侧所示)。我们猜测是因为在算法框架设计阶段对跨域情景考虑不足导致的。

(4)消融实验

由图可以看出,如果在模型训练过程中,去掉 Z-hub 和正则化过程,会导致模型分类准确性出现不同程度的下降。

(5)可视化实验

下图更直观展示了所提出 SHA-Pipeline 算法框架的优点。从中可以看出 MINIST 和 CIFAR-100 数据集经处理后,所提炼特征体现出非常明显的聚集性。

04

总结与展望

1. 总结

本此分享的主要内容为:

  • 提出⾯向多新类数⽬的⼩样本学习,将传统的⼩样本学习推⼴到开放世界;

  • 为了提⾼计算效率,提出新的分布式训练算法,并且提出固定元训练类别数⽬的训练策略;

  • 为了提⾼分类性能,提出利⽤下游任务的类别语义层级结构进⾏微调。

2. 展望

未来的工作将聚焦于:

  • 优化算法计算效率和泛化能⼒;

  • 提升实时学习和在线适应能力;

  • 提升解释性,并探索可解释AI实现路径;

  • 考虑如何解决多模态和多任务学习问题。

以上就是本次分享的内容,谢谢大家。








请到「今天看啥」查看全文