专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

更换激活函数就能大幅提升推荐性能和鲁棒性？从成对视角重新审视推荐系统中的Softmax损失函数

PaperWeekly · 公众号 · 科研 · 2024-12-30 19:18

正文

论文标题：

PSL: Rethinking and Improving Softmax Loss from Pairwise Perspective for Recommendation

收录会议：

NeurIPS 2024

论文链接：

https://arxiv.org/abs/2411.00163

代码链接：

https://github.com/Tiny-Snow/IR-Benchmark

作者主页：

https://tiny-snow.github.io/

引言

推荐系统的目标是准确预测用户对物品的偏好，从而精准地给你推送用户感兴趣的商品、视频、文章等（就像你刷到这篇文章一样！）。为了更好地学习用户偏好，数十年来推荐领域的研究者们推出了很多推荐损失函数。总的来说，推荐损失函数可以大致分为三类：

Pointwise Loss（BCE、MSE）：这类损失函数将推荐任务看作是一个二分类或回归问题，即根据单个偏好分数的高低来判断用户是否对物品感兴趣。
Pairwise Loss（BPR）：这类损失函数考虑了用户对物品的相对偏好，目标是让用户对正样本的偏好分数高于负样本，因此形式上损失函数是负例-正例分数差相关的。
Softmax Loss（SL）：这类损失函数借用了对比学习范式，采用了类似于 InfoNCE 的 Softmax 形式，通过采样负样本来提高训练效率。

实践中的效果通常有 BCE/MSE < BPR < SL。BPR 比 BCE/MSE 更好是可以预料的，因为 BPR 考虑了 ranking 在推荐任务中的独特重要性，即更高排名的命中正样本对 DCG、MRR 等推荐指标的贡献更大。这一重要性符合推荐的直觉，因为感兴趣的内容应该排名越高越好，而偏好分数值本身实际上不太重要。

SL 同样采用了 ranking 的思想，其对 BPR 的优势通常被认为源于负采样。但是，实验结果表明，单纯增大 BPR 的负采样数量对性能提升微乎其微，这代表 SL 可能有适合学习 ranking 的内在特性。此外，SL 是不是真的已经最好了？我们能不能对 SL “扬长避短”，设计出更好的推荐损失函数？本文旨在回答上述问题。

主要内容（太长不看版）

本文重新审视了推荐损失函数 Softmax Loss（SL），揭示了 SL 也是一种成对损失（Pairwise Loss），并证明了 SL 是 DCG、MRR 等推荐指标的平滑上界。

从成对损失的角度，我们进一步发现 SL 的“两短”：1）DCG 等推荐指标的 bound 还不够紧；2）对假阴性噪声敏感。“两短”都来源于 SL 使用的 exp 激活函数。

基于上述发现，我们将 SL 扩展为更一般的成对损失函数族 Pairwise Softmax Loss（PSL），唯一不同的地方在于将 SL 的 exp 函数替换为其他任意的激活函数。通过合理选择激活函数，PSL 有“三长”：

准确性：PSL 和 DCG 的 bound 更紧
抗噪性：PSL 对假阴性噪声更鲁棒
鲁棒性：PSL 等价于应用分布鲁棒优化的成对损失 BPR，对分布漂移更鲁棒

如果你对上述发现有兴趣，欢迎继续往下读，配合我们的论文（https://arxiv.org/abs/2411.00163）食用更佳（本文还藏了一些论文中没有的 insights）！

Softmax Loss在推荐中为什么好：初探

Softmax Loss（SL）定义如下：

其中，是用户对物品的偏好分数，是用户的正例物品集合，是物品集合，是温度参数。

熟悉对比学习的读者很容易发现，SL 和对比损失 InfoNCE 非常类似。从对比学习的角度来说，SL 能够拉近正样本之间的距离，同时拉远负样本之间的距离，这和协同过滤这一典型推荐任务的假设是一致的。

此外，从极大似然估计（MLE）的角度看，最小化 SL 等价于最大化当前正负样本分类的似然。这些简单的理解都可以从一定程度上解释 SL 的有效性。

但是，上述解释并不能解释 SL 为什么对学习 ranking 有独特的优势，这是因为到目前为止我们都在把 SL 解释为 Pointwise Loss。但是，实际上 SL 的确是 Pairwise Loss，即 SL 可以被表示为负例-正例分数差的形式，如下：

我们很快将看到，SL 是 Pairwise Loss 并不是一种巧合，而是高效学习 ranking 的必要条件。

Softmax Loss在推荐中为什么好：深究

怎么判断一个推荐损失函数能不能高效学习 ranking？最直接的标准是看这个损失能否优化 DCG（折损累计收益）、MRR（平均倒数排名）等推荐指标。这类推荐指标的特点是命中项 对指标的贡献随着排序位置 的增大而衰减，因而更强调 ranking 带来的影响，从下面的定义中容易看出：

为了优化这类指标，设计损失函数的一个方向是：构造指标的平滑近似（例如，用一个平滑上界 bound 住指标）。我们也来对 DCG 指标尝试一下，难点主要有三个：

难点一：对排序 的估计。一个实用的方式是将表示为如下的求和形式：

其中，是 Heaviside 阶跃函数。因此，我们可以采样负例来利用上式近似估计。

难点二： 出现在分母上。直接对对分母进行采样估计会造成方差过大。因此，我们可以给 DCG 加个，并进行一些放缩：

其中，第一个不等式是因为，第二个不等式是因为 Jensen 不等式。特别地，不等式中间实际上就是。忽略常数，由（2），（3）式可得下述上界关系：

难点三： 阶跃函数不可微。最后一个要解决的问题就是把（4）式右侧中的阶跃函数替换为一个可微函数，从而可以用梯度下降进行优化。细心的小伙伴肯定发现了，（4）式的右侧把换成，正好是（1）式的 SL 损失函数！特别地，由于恒成立，我们还能保持上界关系，也即有：

（5）式表明，SL 是 DCG（MRR）的平滑近似，由上界关系，最小化 SL 能够减小，也即增大 DCG。这一视角从理论上解释了 SL 在推荐系统中优化 ranking 的有效性。

从来如此，便对吗？SL的不足之处

SL 并不是一个为推荐系统量身定制的损失函数，因此肯定有不适合推荐的缺点：

缺点一：SL 是一个有点松的 DCG 代理损失。SL 用来近似，太松了！这可能在优化 DCG 上引入显著的 gap。

缺点二：SL 对假阴性噪声非常敏感。假阴性噪声（false negative noise）在推荐系统中是广泛存在的，特别是基于 implicit feedback 的协同过滤场景。假阴性样本的特点是：有较高的偏好分数（同时有较高的），但被标注为负例。梯度分析指出，SL 关于的梯度正比于，是指数相关的！这意味着 SL 会显著放大假阴性噪声对梯度的影响。

PSL: Pairwise Softmax Loss

可以看出，SL 的上述两个缺点都是因为选用了这个激活函数来近似。那么，有没有可能在保留 SL 的优点的基础上，缓解 SL 的两个缺点呢？这就是我们的工作：Pairwise Softmax Loss（PSL）。

我们首先给出设计PSL的两个基本原则：

【基本原则一】PSL 必须是 Pairwise Loss。我们在优化 DCG 时，实际上优化的是其近似（4）式，而（4）式是 -相关的。因此，任何一个 DCG 平滑近似损失，都必须是 Pairwise Loss。在设计损失时，我们将平滑为某个激活函数 。

【基本原则二】PSL 的温度系数应该放在指数位。温度系数对 SL 的效果影响很大。的实际作用究竟是（调节自变量）还是（调节因变量）呢？从梯度的角度看应该是后者，因为：

其中是任意激活函数。一个好的推荐损失应该满足梯度和 正相关，即越没学好的样本（负例-正例分数差越大）应该有更大的梯度。

为了满足这一点，如果用于调节自变量，就必须是递增的，即是凸函数；如果用于调节因变量，由于较小时梯度渐进正比于，只要恒正且递增即可。因此，把温度系数 放在指数位能够适用于更一般的激活函数，利于我们设计损失函数。

综合上述两个原则，PSL 的形式就呼之欲出了：

其中是一个合理的激活函数。因此，PSL 实际上是一个更一般的损失函数族。特别地，取，PSL 就退化为 SL。

激活函数怎么取？

取不同于的激活函数，是为了解决 SL 的两个缺点（放缩太松、假阴性敏感）。为此，我们再提出两个设计激活函数的原则（同时也是 PSL 的优点）：

【优点一：准确性】PSL 是更紧的 DCG 代理损失。由于和都是为了近似，只要满足

由（4）式，PSL 就是比 SL 更紧的 DCG 平滑近似——更紧意味着更精确的梯度，理论上应该有更高的准确性。

【优点二：抗噪性】PSL 对假阴性噪声更鲁棒。所取的应当满足比 SL 更温和的梯度分布，从而对抗假阴性噪声。

基于上述两个原则，我们选择了三种常见的激活函数，分别是：

激活函数和梯度分布可视化如下，可见准确性原则和抗噪性原则都被满足（其中，取为余弦相似度的）：

PSL=BPR+DRO

我们发现，基于 KL 散度下的分布鲁棒优化（Distributionally Robust Optimization, DRO）理论，PSL 可以和 BPR 这一 Pairwise Loss 联系起来。DRO 考虑的是在一定分布扰动范围内的最坏情况，因此能够对抗分布漂移（distribution shift）。

分布漂移在推荐系统中是广泛存在的，典型的例子是流行度偏差（popularity shift），表现在训练分布和真实分布的 item popularity 不一样，对抗这一分布漂移能够提升推荐系统的鲁棒性和公平性。这样，我们得到了 PSL 的又一个优点：

【优点三：鲁棒性】PSL 等价于对 BPR 在负样本分布上应用 DRO，拥有对抗分布漂移的鲁棒性。

Tips：注意力惊人的同学可能发现，Theorem 4.2 指出温度系数受鲁棒半径控制，必须放在指数位置，从 DRO 的角度再次验证了 PSL 的【基本原则二】。

实验

为了验证 PSL 的三个优点，我们在 6 个数据集、3 个 backbones、3 种 settings 下进行实验，报告指标 NDCG@20 和 Recall@20。

【准确性】（IID，Table 1）：绝大多数情况下超越 SL（ ~ ），相比于其他baselines（）提升显著。
【抗噪性】（Noise，Figure 2）：引入 ~ 的随机假阴性噪声，随着噪声比例增大，PSL 体现出比 SL 更强的抗噪性，尤其是当噪声比例达到时，PSL 性能提升均超过。
【鲁棒性】（OOD，Table 2）：引入流行度偏差，训练集保留长尾分布，测试集采用均匀分布，由于DRO带来的鲁棒性，PSL 表现出相比于 IID setting 下更多的提升（ ~ ）。