近年来,机器学习在各个领域展现出了惊人的性能表现,然而,获取高质量的大规模标注数据在实际应用中往往困难重重。本文介绍了一个应对这一挑战的通用框架——从弱监督中学习的通用框架(GLWS)。本文由来自卡耐基梅隆大学、微软研究院、新加坡科技设计大学等机构的研究人员共同完成,展示了一种通过期望最大化(EM)算法学习来自各种弱监督源的通用方法,在十几个弱监督问题中显著提升了模型的可扩展性和性能。
论文链接:
https://arxiv.org/abs/2402.01922
论文代码:
https://github.com/Hhhhhhao/General-Framework-Weak-Supervision
背景介绍:弱监督学习的挑战
弱监督标签在机器学习应用时广泛存在,比如噪音标签(noisy label), 单个数据对应多个标签(partial label/crowdsourcing), 多个数据对应单个标签(multiple-instance learning/label proportion)。在每个不同标签的场景下都有很多方法被提出。然而弱监督学习仍然面临着两个主要挑战:
-
处理多种弱监督配置的普适性: 过去的传统方法通常需要针对特定形式的弱监督设计特定的解决方案,难以在多种弱监督形式下普遍适用。然而实际应用中非常可能多种弱监督标签共同存在。
-
现有算法的复杂性导致的可扩展性问题: 过去的方法通常通过过于简单的假设或者过于复杂的模块设计来解决多种弱监督的问题,导致这些方法没办法很好的被大规模的实际应用。
本文提出GLWS,一种基于最大期望算法(Expectation-Maximization, EM)的弱监督学习框架,通过将各种弱监督形式建模为非确定性有限自动机(Non-determinstic Finite Automata, NFA),并结合前向后向(Forward-Backward Algorithm)算法,高效的解决所提出的EM框架。GLWS使得EM计算的时间复杂度从传统方法的二次或阶乘级别降低到了线性级别,并且可以广泛的应用于不同的弱监督场景(14+)。
弱监督分类学习的通用EM框架
我们用
表示一对有准确标签的训练数据;
表示可学习的分类器,用来预测
.
全监督学习
对于所有标签完整且准确的全监督学习,我们有学习目标:
以及对应的损失函数:
弱监督学习
在实际应用中, 我们往往接触不到完整且准确的标签(Y unkown), 能接触到的只有弱监督标签。这里我们把弱监督标签抽象的表示为
, 用来代表不同形式的弱监督信息, 比如:
-
Partial label learning中的多个标签
-
Multiple instance learning中的标签统计
-
Label proportion learning中的标签数量统计
对于不同的弱监督标签/信息, 我们的优化目标为:
因为
未知以及对
的marginalization需要已知
,以上优化目标通常只能通过迭代 -- EM算法 -- 来解决:
为了进一步推到基于EM的通用弱监督学习的损失函数, 我们把训练数据重新表示为
和
。不同种类的弱监督标签可以理解为在
上的已知信息。基于条件概率独立假设
,我们可以推导基于EM的通用弱监督学习的损失函数为:
注:以上假设对于non-sequential network来说是完全准确的。
GLWS: 高效解决EM弱监督学习
尽管有了通用的弱监督学习的损失函数, 可以发现这个损失函数仍然是难以解决的, 计算
需要找到
所有当前弱监督信息
满足的可能的标签组合
。对于一些弱监督场景, 计算
的复杂度可以高达
或
.
为了解决计算复杂度的问题,我们提出了一个新颖且有趣的角度 -- 非确定性有限自动机(NFA).
非确定性有限自动机(NFA)
基于我们的建模, 我们可以把“找到
所有当前弱监督信息
满足的可能的标签组合
”这个问题表示为一个NFA (详情可见维基百科)。
对于不同的弱监督标签,我们可以用不同的NFA来表示
动态规划算法
有了不同弱监督场景的NFA之后,我们可以进一步基于模型预测的output的线性图和弱监督的NFA来把所有满足弱监督信息