PSL: Rethinking and Improving Softmax Loss from Pairwise Perspective for Recommendation收录会议:
论文链接:
https://arxiv.org/abs/2411.00163代码链接:
https://github.com/Tiny-Snow/IR-Benchmark作者主页:
https://tiny-snow.github.io/
引言
推荐系统的目标是准确预测用户对物品的偏好,从而精准地给你推送用户感兴趣的商品、视频、文章等(就像你刷到这篇文章一样!)。为了更好地学习用户偏好,数十年来推荐领域的研究者们推出了很多推荐损失函数。总的来说,推荐损失函数可以大致分为三类:
- Pointwise Loss(BCE、MSE):这类损失函数将推荐任务看作是一个二分类或回归问题,即根据单个偏好分数 的高低来判断用户 是否对物品 感兴趣。
- Pairwise Loss(BPR):这类损失函数考虑了用户对物品的相对偏好,目标是让用户对正样本的偏好分数高于负样本,因此形式上损失函数是负例-正例分数差 相关的。
- Softmax Loss(SL):这类损失函数借用了对比学习范式,采用了类似于 InfoNCE 的 Softmax 形式,通过采样负样本来提高训练效率。
实践中的效果通常有 BCE/MSE < BPR < SL。BPR 比 BCE/MSE 更好是可以预料的,因为 BPR 考虑了 ranking 在推荐任务中的独特重要性,即更高排名的命中正样本对 DCG、MRR 等推荐指标的贡献更大。这一重要性符合推荐的直觉,因为感兴趣的内容应该排名越高越好,而偏好分数值本身实际上不太重要。
SL 同样采用了 ranking 的思想,其对 BPR 的优势通常被认为源于负采样。但是,实验结果表明,单纯增大 BPR 的负采样数量对性能提升微乎其微,这代表 SL 可能有适合学习 ranking 的内在特性。此外,SL 是不是真的已经最好了?我们能不能对 SL “扬长避短”,设计出更好的推荐损失函数?本文旨在回答上述问题。本文重新审视了推荐损失函数 Softmax Loss(SL),揭示了 SL 也是一种成对损失(Pairwise Loss),并证明了 SL 是 DCG、MRR 等推荐指标的平滑上界。
从成对损失的角度,我们进一步发现 SL 的“两短”:1)DCG 等推荐指标的 bound 还不够紧;2)对假阴性噪声敏感。“两短”都来源于 SL 使用的 exp 激活函数。
基于上述发现,我们将 SL 扩展为更一般的成对损失函数族 Pairwise Softmax Loss(PSL),唯一不同的地方在于将 SL 的 exp 函数替换为其他任意的激活函数。通过合理选择激活函数,PSL 有“三长”:
- 鲁棒性:PSL 等价于应用分布鲁棒优化的成对损失 BPR,对分布漂移更鲁棒
如果你对上述发现有兴趣,欢迎继续往下读,配合我们的论文(https://arxiv.org/abs/2411.00163)食用更佳(本文还藏了一些论文中没有的 insights)!
其中, 是用户 对物品 的偏好分数, 是用户 的正例物品集合, 是物品集合, 是温度参数。熟悉对比学习的读者很容易发现,SL 和对比损失 InfoNCE 非常类似。从对比学习的角度来说,SL 能够拉近正样本之间的距离,同时拉远负样本之间的距离,这和协同过滤这一典型推荐任务的假设是一致的。
此外,从极大似然估计(MLE)的角度看,最小化 SL 等价于最大化当前正负样本分类的似然。这些简单的理解都可以从一定程度上解释 SL 的有效性。
但是,上述解释并不能解释 SL 为什么对学习 ranking 有独特的优势,这是因为到目前为止我们都在把 SL 解释为 Pointwise Loss。但是,实际上 SL 的确是 Pairwise Loss,即 SL 可以被表示为负例-正例分数差 的形式,如下:我们很快将看到,SL 是 Pairwise Loss 并不是一种巧合,而是高效学习 ranking 的必要条件。
怎么判断一个推荐损失函数能不能高效学习 ranking?最直接的标准是看这个损失能否优化 DCG(折损累计收益)、MRR(平均倒数排名)等推荐指标。这类推荐指标的特点是命中项 对指标的贡献随着排序位置 的增大而衰减,因而更强调 ranking 带来的影响,从下面的定义中容易看出:为了优化这类指标,设计损失函数的一个方向是:构造指标的平滑近似(例如,用一个平滑上界 bound 住指标)。我们也来对 DCG 指标尝试一下,难点主要有三个:
难点一:对排序 的估计。一个实用的方式是将 表示为如下的求和形式:其中, 是 Heaviside 阶跃函数。因此,我们可以采样负例 来利用上式近似估计 。难点二: 出现在分母上。直接对对分母进行采样估计会造成方差过大。因此,我们可以给 DCG 加个 ,并进行一些放缩:其中,第一个不等式是因为 ,第二个不等式是因为 Jensen 不等式。特别地,不等式中间实际上就是 。忽略常数,由(2),(3)式可得下述上界关系:难点三: 阶跃函数不可微。最后一个要解决的问题就是把(4)式右侧中的阶跃函数 替换为一个可微函数,从而可以用梯度下降进行优化。细心的小伙伴肯定发现了,(4)式的右侧把 换成 ,正好是(1)式的 SL 损失函数!特别地,由于 恒成立,我们还能保持上界关系,也即有:
(5)式表明,SL 是 DCG(MRR)的平滑近似,由上界关系,最小化 SL 能够减小 ,也即增大 DCG。这一视角从理论上解释了 SL 在推荐系统中优化 ranking 的有效性。SL 并不是一个为推荐系统量身定制的损失函数,因此肯定有不适合推荐的缺点:
缺点一:SL 是一个有点松的 DCG 代理损失。SL 用 来近似 ,太松了!这可能在优化 DCG 上引入显著的 gap。缺点二:SL 对假阴性噪声非常敏感。假阴性噪声(false negative noise)在推荐系统中是广泛存在的,特别是基于 implicit feedback 的协同过滤场景。假阴性样本的特点是:有较高的偏好分数 (同时有较高的 ),但被标注为负例 。梯度分析指出,SL 关于 的梯度正比于 ,是指数相关的!这意味着 SL 会显著放大假阴性噪声对梯度的影响。
PSL: Pairwise Softmax Loss可以看出,SL 的上述两个缺点都是因为选用了 这个激活函数来近似 。那么,有没有可能在保留 SL 的优点的基础上,缓解 SL 的两个缺点呢?这就是我们的工作:Pairwise Softmax Loss(PSL)。我们首先给出设计PSL的两个基本原则:
【基本原则一】PSL 必须是 Pairwise Loss。我们在优化 DCG 时,实际上优化的是其近似(4)式 ,而(4)式是 -相关的。因此,任何一个 DCG 平滑近似损失,都必须是 Pairwise Loss。在设计损失时,我们将 平滑为某个激活函数 。【基本原则二】PSL 的温度系数应该放在指数位。温度系数 对 SL 的效果影响很大。 的实际作用究竟是 (调节自变量)还是 (调节因变量)呢?从梯度的角度看应该是后者,因为:其中 是任意激活函数。一个好的推荐损失应该满足梯度和 正相关,即越没学好的样本(负例-正例分数差 越大)应该有更大的梯度。为了满足这一点,如果 用于调节自变量, 就必须是递增的,即 是凸函数;如果 用于调节因变量,由于 较小时梯度渐进正比于 ,只要 恒正且递增即可。因此,把温度系数 放在指数位能够适用于更一般的激活函数,利于我们设计损失函数。其中 是一个合理的激活函数。因此,PSL 实际上是一个更一般的损失函数族。特别地,取 ,PSL 就退化为 SL。
取不同于 的激活函数 ,是为了解决 SL 的两个缺点(放缩太松、假阴性敏感)。为此,我们再提出两个设计激活函数 的原则(同时也是 PSL 的优点):【优点一:准确性】PSL 是更紧的 DCG 代理损失。由于 和 都是为了近似 ,只要满足由(4)式,PSL 就是比 SL 更紧的 DCG 平滑近似——更紧意味着更精确的梯度,理论上应该有更高的准确性。
【优点二:抗噪性】PSL 对假阴性噪声更鲁棒。所取的 应当满足比 SL 更温和的梯度分布,从而对抗假阴性噪声。基于上述两个原则,我们选择了三种常见的激活函数,分别是:激活函数和梯度分布可视化如下,可见准确性原则和抗噪性原则都被满足(其中 , 取为余弦相似度的 ):
我们发现,基于 KL 散度下的分布鲁棒优化(Distributionally Robust Optimization, DRO)理论,PSL 可以和 BPR 这一 Pairwise Loss 联系起来。DRO 考虑的是在一定分布扰动范围内的最坏情况,因此能够对抗分布漂移(distribution shift)。
分布漂移在推荐系统中是广泛存在的,典型的例子是流行度偏差(popularity shift),表现在训练分布和真实分布的 item popularity 不一样,对抗这一分布漂移能够提升推荐系统的鲁棒性和公平性。这样,我们得到了 PSL 的又一个优点:
【优点三:鲁棒性】PSL 等价于对 BPR 在负样本分布上应用 DRO,拥有对抗分布漂移的鲁棒性。Tips:注意力惊人的同学可能发现,Theorem 4.2 指出温度系数 受鲁棒半径控制,必须放在指数位置,从 DRO 的角度再次验证了 PSL 的【基本原则二】。
为了验证 PSL 的三个优点,我们在 6 个数据集、3 个 backbones、3 种 settings 下进行实验,报告指标 NDCG@20 和 Recall@20。
- 【准确性】(IID,Table 1):绝大多数情况下超越 SL( ~ ),相比于其他baselines()提升显著。
- 【抗噪性】(Noise,Figure 2):引入 ~ 的随机假阴性噪声,随着噪声比例增大,PSL 体现出比 SL 更强的抗噪性,尤其是当噪声比例达到 时,PSL 性能提升均超过 。
- 【鲁棒性】(OOD,Table 2):引入流行度偏差,训练集保留长尾分布,测试集采用均匀分布,由于DRO带来的鲁棒性,PSL 表现出相比于 IID setting 下更多的提升( ~ )。
实验结果表明 PSL-relu 总是获得最好的结果。这是巧合吗?
答:不是巧合。观察 Figure 1(b) 的梯度分布,可以发现 PSL-relu 满足梯度和 严格正相关,但梯度分布明显比 SL 更温和,在抗噪和加速收敛之间取了一个权衡。BPR 和 AdvInfoNCE 总是比 PSL 差,可以从理论上解释吗?
答:可以证明,PSL 是比 BPR 和 AdvInfoNCE 更紧的 DCG 代理损失,见原文附录 A.3。本文试图从成对损失的角度来分析 SL 的优点和缺点。作为一个“舶来品”,SL 在设计之初并没有考虑到推荐中存在的独特问题(例如,假阴性噪声),但其拥有的一些性质(例如,作为 DCG 平滑近似能够优化 ranking、等价于 DRO 能够抗分布漂移)的确非常适合推荐系统。
作为 SL 的推广,本文提出的损失函数族 PSL 保留了 SL 的优点,并提供了缓解 SL 缺点的可行路径。最重要的是,PSL 的有效性指出,我们对 SL 的理论分析走在正确的道路上。我们还能在这条道路上走多远?请继续关注我们后续的工作![1] ARXIV | https://arxiv.org/abs/2411.00163[2] CODE | https://github.com/Tiny-Snow/IR-Benchmark[3] POSTER | https://nips.cc/media/PosterPDFs/NeurIPS%202024/95290.png[4] SLIDERS | https://nips.cc/media/neurips-2024/Slides/95290_vYfmp80.pdf[5] FIRST AUTHOR | https://tiny-snow.github.io/[6] CORRESPONDING AUTHOR | https://jiawei-chen.github.io/
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧