专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
研之成理  ·  上海交大/浙大/物理所/武大合作,Science! ·  2 天前  
弗雷赛斯  ·  DeepSeek:全球51本期刊已支持“一稿多投” ·  4 天前  
科研圈  ·  手机上也能刷论文,还自带解读? ·  2 天前  
51好读  ›  专栏  ›  PaperWeekly

AAAI 2025 | 武大团队提出SEAM框架:「强赋能弱监管」的弱到强泛化

PaperWeekly  · 公众号  · 科研  · 2025-03-16 21:33

正文

©PaperWeekly 原创 · 作者 | 李永奇

单位 | 武汉大学

研究方向 | 自然语言处理



Background

在开始介绍我们的论文前,先简要介绍一下: 1 )什么是 super-alignment 2 )什么是 weak-to-strong generalization W2SG )?基于此,我们再详细介绍我们的 motivation method experiments


1 super-alignment :人类如何对齐(可能出现的)能力超过人类的 superhuman AI


2 weak-to-strong generalization W2SG ): super-alignment 的类比实验。实验中,利用 weak model 来提供用于训练 strong model supervision signals (也即 weak labels )。其中, weak model 通常采用一个 aligned model (类比于 aligned humans ), strong model 采用一个 unaligned model (类比于尚未与人类对齐的 superhuman AI )。


论文标题

Strong Empowered and Aligned Weak Mastered Annotation for Weak-to-Strong Generalization

论文链接

https://liyongqi2002.github.io/resources/arxiv_aaai25_W2SG.pdf

代码链接

https://github.com/liyongqi2002/SEAM



Motivation

这一节将系统性地从 idea 起源介绍,相较于论文中的 motivation 介绍会略微冗杂,如果觉得太长可以看原论文,当然还是更希望大家看完下面的琐碎话,里面有一些我对于 W2SG 的一些朴素认知,如果有误请指正,感谢


笔者对于 super-alignment W2SG 的理解主要在两个方面: data quality generalization


data quality 角度,关键问题在于如何改进 weak supervision 的质量。


generalization 角度,关键问题在于如何找到适应于 W2SG 场景下的算法,来使得其适应 weak supervision 分布的特点(与半监督学习或噪音学习类似都存在 noisy signals 的问题,但又有不同,不同点在于 noisy signals 是来自于一个特定模型的,可能有其独特的特点能启发减缓噪音的设计)。


如果熟悉 scalable oversight scalable oversight 关注于如何借助 AI 来提升 human supervision 的质量) [4-7] 的朋友,应该不难发现, scalable oversight W2SG 中的 “data quality 角度 几乎是一样的问题。事实上,在 Jan Leike 的博客中,也指出了 scalable oversight W2SG 的相辅相成 [1]


这自然地启发了我们借鉴 scalable oversight 的相关思想来改进 W2SG 的表现,即如何借助 strong unaligned model 来帮助 weak aligned model 做出更好的 weak supervision


那么问题来了: strong 怎么帮助 weak 呢? 22 年末 Open AI Burns 等人的工作( W2SG 开篇之作) [2] 提出了一个 auxiliary loss ,其利用 strong model 的置信度来纠正 weak labels 。具体来说,当 strong model 对某个标签 confidence 超过一个阈值,则据此纠正 weak labels


此后,沿着这个思想,也出现了一批基于 confidence loss 设计或 data selection 设计 [3] 。这属于 第一类 ,我们称之为 基于 strong model confidence 来辅助 weak labels 纠正


但是我们认为上述第一类思路在真实的 super-alignment 场景中有一个极具风险的危害,我们称之为 risky correction (备注: super-alignment 的目标包括两方面,一方面是通过 noisy weak supervision 来迈向更强的 AI ,即 capability super-alignment ,另一方面则是监管 super-human AI 使得其价值观与人类保持一致,即 safety super-alignment 。这两方面我们认为同样重要)。


具体来说,在一些涉及到 harmless 目标的样本上, strong unaligned model 的置信度可能反而是有害的,因为它的 confidence 有可能会偏向于 helpful but harmful


这样一来,即使 strong model confidence 在仅涉及 safe and helpful 目标的样本上会帮助提升 weak labels 的质量,但是上述 risky correction 风险似乎也让该类思路的合理性受到质疑(当然,如果仅将 W2SG 作为 capability super-alignment 的类比实验,这类思路也是可以接受的。


本文基于同时考虑 capability super-alignment safety super-alignment 的设置下做讨论)。


既然 risky correction 的问题是存在的,那下一个问题来了: 如何在避免 risky correction 的同时又做到 strong 帮助 weak


思路也很自然: strong unaligned model 仅提供一些样本相关的辅助信息,来传给 weak aligned model







请到「今天看啥」查看全文