专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

CIKM 2024 | 大语言模型推荐中的协同过滤信号和语义信息的深度融合

PaperWeekly · 公众号 · 科研 · 2024-10-18 12:36

正文

©PaperWeekly 原创 · 作者 | 刘中舟

单位 | 新加坡管理大学博士生

TL;DR

本文关注了大语言模型推荐（LLM4Rec）的一个重要挑战，即如何将协同过滤信号嵌入到大语言模型。具体而言，本文将语义特征和协同过滤信号混合编解码，并使用基于注意力的多模态融合策略将两种信息对应的特征向量进行融合，让大模型获得更优的个性化推荐能力。

前言

自从大语言模型被应用在多个领域以来，推荐算法社区的研究者们就对其产生了强烈的兴趣，许多 LLM4Rec 的工作相继出现。起初，人们试图将用户的历史商品序列转化成自然语言文本，输入到大语言模型，让它直接预测下一个商品，但效果欠佳。这说明仅仅依赖商品的语义信息是不足以让大语言模型进行精准的个性化商品推荐。

在传统推荐系统领域里，主流算法是基于协同过滤的，其重要性无需多言。协同过滤信号和语义信息的联系和区别可以参考下图。正是因为模型训练的侧重点不同，大语言模型难以建模协同过滤。一个经典的例子就是“啤酒和尿布”，两个语义上毫无关联的商品却可以被一同购买。

▲ 大语言模型的语义信号和传统推荐算法的协同过滤信号对比

为了将协同过滤信号引入到大语言模型，先前的工作做了各种尝试。我们把以往工作概括为两类。一类是将协同过滤信号转化为自然语言，即用文本形式描述商品的共现关系，再对语言模型进行训练或者微调，属于一种 prompt 工程。然而，在传统推荐算法中，协同过滤信号存在于高维的特征向量中，简单的文本难以准确描述这种非结构化的信息。

另一类是将协同过滤的特征向量和大语言模型的语义向量结合，属于一种特征增强。本文提出的 CCF-LLM 框架属于第二类工作。具体来说，我们试图解决以下两个挑战：（1）如何将协同过滤信号和语义信号在模型输入层面进行混合编解码？以及（2）针对以往工作融合不充分问题，如何将两类异质的信号对齐并充分融合？

方法框架

本文提出的 CCF-LLM 框架包含两块：一方面，我们使用了一种语义特征和协同过滤信号混合编解码方式，让大语言模型接受协同过滤信号成为可能；另一方面，我们提出了一种基于注意力的多模态融合策略，让两类信号得以充分融合，从而让大语言模型更好的理解协同过滤信号。

3.1 混合编解码方式

token 是大语言模型输入层面的基础对象。本文定义两类 token，一种是仅包含语义信息的自然语言（即普通文本），一种是既包含了语义信息，也包含了协同过滤信号的特殊占位符（记作 {[Item_u]} 和 [User_u]，其中 {[Item_u]} 是用户商品序列的集合，即 [Item_1], [Item_2],...）。在编码大语言模型的 prompt 时，本文将两类 token 混合输入，格式如下。

#Question: A user has given high ratings to the following items:
{[Item_u]}. Additionally, we have information about the user’s
preferences encoded in the feature [User_u]. Using all available
information, make a prediction about whether the user would enjoy
the item [Item_i]. Answer with 'Yes' or 'No'. #Answer:

在解码过程中，我们基于以下规则进行向量映射：

1）对于普通文本（如上文中的 “A user has...”），我们映射这些相应的 token 到大语言模型的嵌入层（Embedding layer）特征向量；

2）对于用户占位符 [User_u]，我们从一个预训练的协同过滤模型中提取对应用户的特征向量，记作；

3）对于商品 {[Item_u]}（即 [Item_1],[Item_2],...）我们首先对每个 [Item_i] 提取对应商品的文本属性（如商品名），将此文本通过规则（1）映射到的大语言模型嵌入层，记作，再将橦规则（2）中提取出的协同过滤特征向量记作。

注意到我们仅解码了商品的语义特征，而略过了用户的语义特征映射。这是因为用户的属性相对多样化，且不同的数据集中提供的用户文本有所差异，难以评估。对用户侧的语义特征研究将在未来开展。

3.2 多模态融合策略

虽然可以直接将包含协同过滤信号的特征向量和输入到大语言模型，但是协同过滤信号对于大语言模型来说属于另一种异质模态，难以直接用于生成。为了解决这个困难，我们提出了一种基于 cross-gate 机制 [1] 的多模态融合策略。

具体来说，对于商品文本属性里的每一个 token ，我们通过一个加权函数将和映射后的融合：

其中，是经过一个神经网络映射后的协同过滤信号，映射的目的是保证维度相同。是权重向量，经由一个基于注意力的 GATE 网络生成：

3.3 大语言模型推荐

将之前步骤中得到的不同模态的特征向量，依照 prompt 顺序组装完毕后，即可输入到大语言模型进行生成。

本文关注的是 CTR 预测任务，所以仅需要大语言模型输出 “Yes” 或 “No” 两种回答。我们将大语言模型输出这两个回答的概率分别定义为和，那么损失函数可以表示为

。

其中和分别为交叉熵函数和 BPR 函数。由于大多数大语言模型参数量较大，为了提高效率，我们使用 LoRA 模块 [2] 对大模型微调。我们采用和 CoLLM [3] 相同的训练机制，将 LoRA 和多模态融合策略模块分开训练。

本文整体框架可以参考下图。

实验结果

我们在 MovieLens 1M 和 Amazon Review 数据集中的 “Books” 目录下分别进行了模型的评估。

实验结果（见下图）表明，CCF-LLM 框架不仅相比传统的协同过滤模型有所提升，也超过了其他 LLM4Rec 方法。相比同样采用了特征增强的基线模型，本文得益于更加充分的多模态融合策略，可以让大语言模型更好的理解和利用特征向量里的协同过滤信号，提高推荐的个性化程度。

▲ 主要实验结果

为了更好的直观表现出本文的特点，我们还将不同模态的特征向量进行了可视化处理（见下图）。从图中可以看出，相比协同过滤模型中未经融合的特征向量，本文提出的 CCF-LLM 可以更好的将两种异质的信号对齐和融合，从而让大语言模型更好的理解和利用协同过滤信号。更多实验结果可以参考原文。

结语

本文提出了一种将语义特征和协同过滤信号混合编解码，并使用基于注意力的多模态融合策略将两种信息对应的特征向量进行融合的 LLM4Rec 框架，CCF-LLM. 通过这种框架，我们初步探究了如何将协同过滤信号这种异质的模态嵌入到大语言模型，与语义信息相结合，提供更加个性化的推荐。

参考文献

[1] Rupesh Kumar Srivastava, Klaus Greff, and Jürgen Schmidhuber. 2015. Highway networks. arXiv:1505.00387

[2] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2022. Lora: Low-rank adaptation of large language models. In ICLR.

[3] Yang Zhang, Fuli Feng, Jizhi Zhang, Keqin Bao, Qifan Wang, and Xiangnan He. 2023. Collm: Integrating collaborative embeddings into large language models for recommendation. arXiv:2310.19488

更多阅读