专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
目录
相关文章推荐
厦门日报  ·  呼和浩特:生育三孩补贴10万 ·  昨天  
厦门日报  ·  福建首个!第10000种:“千面女王”! ·  昨天  
厦门日报  ·  中国印钞造币集团严正声明 ·  昨天  
51好读  ›  专栏  ›  AI TIME 论道

S-DPO: 基于直接偏好优化(DPO)进行推荐大模型微调的探索

AI TIME 论道  · 公众号  ·  · 2024-07-02 18:00

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近日,来自新加坡国立大学等机构的研究者探索了直接偏好优化在推荐大模型场景下的应用,并提出Softmax-DPO (S-DPO),对Softmax采样策略与DPO的结合进行了深入探究。

代码:https://github.com/chenyuxin1999/S-DPO

论文地址:https://arxiv.org/abs/2406.09215

AITIME

01

研究背景

现阶段,推荐大模型进行微调往往沿用语言模型的目标函数,也即下一分词预测任务。然而,推荐的本质并不是语言建模(language modeling),而更多是根据用户偏好数据,进行用户行为模拟(user behavior modeling),也即用户偏好排序任务。故而,探索真正适合推荐大模型的优化目标,成为了突破现阶段推荐性能的核心。



研究者认为,当前训练大模型推荐系统的目标函数遵从传统语言模型的训练范式,没有直接针对用户偏好排序进行优化,忽视了负样本在推荐中的作用,从而使大模型推荐系统的性能受限。


受到使用标注偏好数据对齐人类偏好,以及直接偏好优化(DPO)的启发,研究者在监督微调阶段之后加入了偏好对齐阶段,旨在将用户对于物品偏好程度的偏序关系注入大模型。参照softmax 采样策略在推荐任务中的成功,在偏好对齐阶段中,作者针对多负例的用户偏好数据,将DPO拓展到多负例的场景,提出Softmax-DPO,简称 S-DPO。

AITIME

02

背景知识





AITIME

03

S-DPO技术路线







AITIME

04

试验评估

为了验证 S-DPO 在序列推荐任务上的有效性,研究者在三个推荐数据集上开展实验,数据集的统计数据如下:



序列推荐性能

研究者让大模型根据交互序列,从候选物品集中选择推荐物品,并统计大模型选中偏好物品的比例(HR@1)。实验结果显示,S-DPO在序列推荐任务上,相较于传统推荐模型和已有的大模型推荐系统,都有着更好的表现。



探索多负例的作用

为了探索 S-DPO 中引入多负例进行偏好学习的作用,研究者做了进一步的实验分析。


1)实验表明,S-DPO相比于DPO能让大模型推荐系统取得更好的推荐性能(见图 2a)。同时得益于更强的负样本挖掘的能力,多负例的损失函数S-DPO相比于DPO带来更大,更有效的梯度。



2)许多工作表明DPO有偏好数据似然值下降的问题,通过引入多负例,S-DPO可以有效缓解偏好数据似然值的下降(见图 2c)。



3)随着负例个数的增加,大模型推荐系统的性能也进一步提升(见图3a),这个结果说明了softmax负采样对于推荐任务的重要性。

AITIME

05

展望

S-DPO 作为 DPO 的一种推广,为未来的大模型推荐系统提供了启发,并有惠及推荐系统以外领域的潜力。未来,我们将继续探索 S-DPO 在其他场景下的应用,并进一步探索 softmax 采样策略在大模型推荐系统中的应用。









请到「今天看啥」查看全文