作者简介
李赛,中国人民大学统计与大数据研究院副教授。研究方向包括高维复杂数据的统计推断问题,机器学习和遗传学驱动的统计方法和理论,基于工具变量的因果推断等。
一、背景介绍
近年来,迁移学习方法与理论在统计学、机器学习、生物医学等领域被广泛研究与应用。在想法层面,迁移学习放弃了"从零开始"的路线,而是选择"站在巨人的肩膀上",即通过整合大量已有数据和信息,提升目标新任务的学习效率。
具体而言,迁移学习考虑存在多个数据集,包括
个源数据集和一个目标数据集,源数据集往往总样本量较大,目标数据集因为成本或道德的限制往往样本量较小。我们的目标是结合
个源数据集的信息,对目标数据集进行精准预测/估计/推断。注意我们允许收集的
个数据集是异质的,这里放宽了传统机器学习中的假设——训练数据和测试数据必须服从独立同分布。
二、方法框架
单任务、多任务与迁移学习
单任务学习
多任务学习
迁移学习
常见统计学习框架比较:
-
单任务学习分别对每个数据源构建模型,不考虑模型间可能存在的相似性;
-
多任务学习同时对多个数据源建模,目标是同时学习多个模型,往往要求各数据源样本量差不多;
-
迁移学习同时利用多个数据源,聚焦目标任务的学习,通常源数据和目标数据样本量差异较大。
基于参数模型的迁移学习方法
已有的一大类方法是基于参数模型的迁移学习方法[1-3],这类方法需要定义不同模型参数的相似性(距离)度量,常用度量包括
和
范数等。
基于参数模型的迁移学习主要想法是将目标任务的未知参数分成两部分:
目标参数=(所有任务)共享参数+(目标任务)特异性参数
|
在此分解中,
共享参数
可以通过源任务来学习,由于源任务样本量大,该部分可以被有效估计;
特异性参数
是目标任务所特有的,只能通过目标任务来学习,但是特异性参数相对于原始的目标参数而言,复杂度(维度)降低,因此相比于直接学习目标参数会有降维的效果,从而也会达到更有效的估计。
粗略地说,一个目标参数的分解中,共享参数占的比例越大,特异性参数比例越小,也就是目标任务与源任务的相似度越高,则迁移学习的效率越高。那么上述分解怎么进行呢?
基于参数模型的迁移学习算法的主要步骤:
-
有效数据源选择:提取对目标任务“有帮助”的数据源,扔掉无关甚至是恶意数据源;
-
已有信息提取:针对筛选后的数据源提取主要信息,如回归系数、线性空间、主成分等。
-
步骤0可以被看作是一个单独的任务,没有广泛适用的方法,往往需要对“坏”数据源有一些要求才能进行识别;步骤1可以看做是提取共享信息的步骤;步骤2是提取特异性信息的步骤。
收敛速度
以上方法的收敛速度可以粗略的写成:
|