小红书为何让歪果仁上头？推荐算法超牛，2篇核心论文揭秘

Dots机构投资者社区 · 公众号 · · 2025-01-20 08:15

正文

本文转自微信公众号“新智元”，作者：新智元。

编辑：泽正英智

最近歪果朋友疯狂涌入「Xiaohongshu」，网友直呼，一夜之间与国际接轨。

这场史称「美洲大迁徙」的互联网奇象，也离不开小红书本身过硬的内容推荐算法技术。而歪果网友也毫不吝啬对于「Xiaohongshu」推荐算法的赞美。

小红书如何「投你所好」

接下来让我们看看，小红书的推荐算法是怎么不断地成功「投你所好」。

一般来讲，为了构建出用户所喜欢的推荐内容列表，经典的推荐系统构成为：

推荐系统的典型结构

目前能够检索到的小红书官方发表的推荐算法相关的技术论文共有两篇，接下来就让我们一起揭开小红书内容推荐机制的「神秘面纱」。

发现你的兴趣：NoteLLM

推荐契合用户兴趣的笔记是一项关键任务。NoteLLM是一种用于解决内容到内容（ I2I ）笔记推荐问题的创新统一框架，旨在为用户提供更精准的笔记推荐服务。

研究者在小红书开展了为期一周的在线I2I推荐实验。

与先前使用SentenceBERT的方法相比，NoteLLM的点击率提升了16.20%，召回性能的增强使评论数增加1.10%，平均每周发布者数量增加0.41%。

这些结果显示，将LLM用于I2I笔记推荐任务能显著提升推荐性能和用户体验。同时，新笔记一天内评论数显著增加3.58%，表明LLM的泛化能力对冷启动笔记有积极作用。

目前，NoteLLM已部署在小红书的I2I笔记推荐任务中。

具体来说，通过「笔记压缩提示词」将笔记浓缩成特殊的单一token，再借助对比学习方法，进一步学习潜在相关笔记的嵌入关系。同时，NoteLLM还能对笔记进行总结，通过指令调优自动生成标签或类别。

经大量实际场景验证，NoteLLM在小红书推荐系统里效果显著。

论文链接：https://arxiv.org/pdf/2403.01744

基于BERT模型的在线I2I笔记推荐方法存在局限性，它们仅把标签/类别当作笔记内容的普通部分，未深挖其潜在价值。标签/类别蕴含着笔记的核心要点，对判断笔记间内容相关性至关重要。

生成标签/类别与生成笔记嵌入具有相似性，二者都能将笔记关键信息凝练为有限内容。学习生成标签/类别，有助于提升嵌入质量。

NoteLLM框架由三个关键部分组成：笔记压缩提示构建、生成对比学习（GCL）和协作监督微调（CSFT）。

研究者采用统一的笔记压缩提示，旨在将笔记内容压缩成一个特殊的单一token，来助力I2I推荐和生成任务。

利用这个压缩后的特殊token，通过生成对比学习（GCL）挖掘其中的协作知识。之后，借助协作监督微调（CSFT），运用这些知识生成标签和类别。

研究者用以下提示模板，实现了对笔记的通用压缩以及标签和类别的生成：

在这个模板里，[BOS]、[EMB] 和 [EOS] 是特殊的 token 。而（指令）、（输入笔记）、（输出引导）和（输出结果）是占位符，后续会被具体内容替换。

类别生成的具体内容定义如下：

标签生成的模板如下：

完成提示构建后，对其进行标记化处理并输入LLM，LLM会将协作信号与关键语义信息提炼到压缩词中，依据笔记核心思想生成标签或类别。

研究者提出生成式对比学习（GCL），目的是增强LLM捕获更强协作信号的能力。GCL不同于从特定答案或奖励模型中学习，它采用对比学习，从整体视角考量笔记之间关系的紧密程度。

为了将协作信号融入LLM，采用基于用户行为的共现机制来构建相关笔记对。这一机制基于这样的假设：若两篇笔记常被用户一起阅读，那么它们很可能存在关联。

在构建相关笔记对之后，训练NoteLLM基于文本语义和协作信号判断笔记的相关性。