©PaperWeekly
原创
·
作者
|
李永奇
单位
|
武汉大学
研究方向
|
自然语言处理
Background
在开始介绍我们的论文前,先简要介绍一下:
1
)什么是
super-alignment
?
2
)什么是
weak-to-strong generalization
(
W2SG
)?基于此,我们再详细介绍我们的
motivation
、
method
、
experiments
。
1
)
super-alignment
:人类如何对齐(可能出现的)能力超过人类的
superhuman AI
?
2
)
weak-to-strong generalization
(
W2SG
):
super-alignment
的类比实验。实验中,利用
weak model
来提供用于训练
strong model
的
supervision signals
(也即
weak labels
)。其中,
weak model
通常采用一个
aligned model
(类比于
aligned humans
),
strong model
采用一个
unaligned model
(类比于尚未与人类对齐的
superhuman AI
)。
论文标题
:
Strong Empowered and Aligned Weak Mastered Annotation for Weak-to-Strong Generalization
论文链接
:
https://liyongqi2002.github.io/resources/arxiv_aaai25_W2SG.pdf
代码链接
:
https://github.com/liyongqi2002/SEAM
Motivation
这一节将系统性地从 idea 起源介绍,相较于论文中的 motivation 介绍会略微冗杂,如果觉得太长可以看原论文,当然还是更希望大家看完下面的琐碎话,里面有一些我对于 W2SG 的一些朴素认知,如果有误请指正,感谢
笔者对于
super-alignment
或
W2SG
的理解主要在两个方面:
data quality
和
generalization
。
从
data quality
角度,关键问题在于如何改进
weak supervision
的质量。
从
generalization
角度,关键问题在于如何找到适应于
W2SG
场景下的算法,来使得其适应
weak supervision
分布的特点(与半监督学习或噪音学习类似都存在
noisy signals
的问题,但又有不同,不同点在于
noisy signals
是来自于一个特定模型的,可能有其独特的特点能启发减缓噪音的设计)。
如果熟悉
scalable oversight
(
scalable oversight
关注于如何借助
AI
来提升
human supervision
的质量)
[4-7]
的朋友,应该不难发现,
scalable oversight
和
W2SG
中的
“data quality
角度
”
几乎是一样的问题。事实上,在
Jan Leike
的博客中,也指出了
scalable oversight
和
W2SG
的相辅相成
[1]
。
这自然地启发了我们借鉴
scalable oversight
的相关思想来改进
W2SG
的表现,即如何借助
strong unaligned model
来帮助
weak aligned model
做出更好的
weak supervision
。
那么问题来了:
strong
怎么帮助
weak
呢?
22
年末
Open AI Burns
等人的工作(
W2SG
开篇之作)
[2]
提出了一个
auxiliary loss
,其利用
strong model
的置信度来纠正
weak labels
。具体来说,当
strong model
对某个标签
confidence
超过一个阈值,则据此纠正
weak labels
。
此后,沿着这个思想,也出现了一批基于
confidence
的
loss
设计或
data selection
设计
[3]
。这属于
第一类
,我们称之为
“
基于
strong model
的
confidence
来辅助
weak labels
纠正
”
。
但是我们认为上述第一类思路在真实的
super-alignment
场景中有一个极具风险的危害,我们称之为
risky correction
(备注:
super-alignment
的目标包括两方面,一方面是通过
noisy weak supervision
来迈向更强的
AI
,即
capability super-alignment
,另一方面则是监管
super-human AI
使得其价值观与人类保持一致,即
safety super-alignment
。这两方面我们认为同样重要)。
具体来说,在一些涉及到
harmless
目标的样本上,
strong unaligned model
的置信度可能反而是有害的,因为它的
confidence
有可能会偏向于
helpful but harmful
。
这样一来,即使
strong model
的
confidence
在仅涉及
safe and helpful
目标的样本上会帮助提升
weak labels
的质量,但是上述
risky correction
风险似乎也让该类思路的合理性受到质疑(当然,如果仅将
W2SG
作为
capability super-alignment
的类比实验,这类思路也是可以接受的。
本文基于同时考虑
capability super-alignment
和
safety super-alignment
的设置下做讨论)。
既然
risky correction
的问题是存在的,那下一个问题来了:
如何在避免
risky correction
的同时又做到
strong
帮助
weak
?
思路也很自然:
strong unaligned model
仅提供一些样本相关的辅助信息,来传给
weak aligned model