专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

S-DPO: 基于直接偏好优化（DPO）进行推荐大模型微调的探索

AI TIME 论道 · 公众号 · · 2024-07-02 18:00

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

近日，来自新加坡国立大学等机构的研究者探索了直接偏好优化在推荐大模型场景下的应用，并提出Softmax-DPO （S-DPO），对Softmax采样策略与DPO的结合进行了深入探究。

代码：https://github.com/chenyuxin1999/S-DPO

论文地址：https://arxiv.org/abs/2406.09215

AITIME

研究背景

现阶段，推荐大模型进行微调往往沿用语言模型的目标函数，也即下一分词预测任务。然而，推荐的本质并不是语言建模（language modeling），而更多是根据用户偏好数据，进行用户行为模拟（user behavior modeling），也即用户偏好排序任务。故而，探索真正适合推荐大模型的优化目标，成为了突破现阶段推荐性能的核心。

研究者认为，当前训练大模型推荐系统的目标函数遵从传统语言模型的训练范式，没有直接针对用户偏好排序进行优化，忽视了负样本在推荐中的作用，从而使大模型推荐系统的性能受限。

受到使用标注偏好数据对齐人类偏好，以及直接偏好优化（DPO）的启发，研究者在监督微调阶段之后加入了偏好对齐阶段，旨在将用户对于物品偏好程度的偏序关系注入大模型。参照softmax 采样策略在推荐任务中的成功，在偏好对齐阶段中，作者针对多负例的用户偏好数据，将DPO拓展到多负例的场景，提出Softmax-DPO，简称 S-DPO。

AITIME

背景知识