随着人工智能技术的发展,大型语言模型(LLMs)在处理自然语言任务方面取得了显著进展。然而,为了更好地服务于个体用户,这些模型需要能够适应每个用户的特定需求和偏好。本文通过调查和分类不同的个性化技术,为如何使LLMs更加个性化提供了指导,这对于提升用户体验和模型的实际应用至关重要。
我们翻译解读最新论文:大型语言模型的个性化综述
,文末有论文信息。
作者:
张长旺,图源:
旺知识
大型语言模型(LLMs)的个性化最近变得越来越重要,并且应用范围广泛。尽管个性化LLMs的重要性日益增加,并且最近取得了进展,但大多数现有的个性化LLMs研究完全集中在(a)个性化文本生成或(b)利用LLMs进行个性化相关下游应用,例如推荐系统。在这项工作中,我们首次弥合了这两个主要方向之间的差距,通过引入个性化LLMs使用的分类法,并总结了关键差异和挑战。我们提供了个性化LLMs基础的正式化,整合并扩展了个性化LLMs的概念,定义并讨论了个性化的新方面、使用情况和期望。然后我们通过提出个性化粒度、个性化技术、数据集、评估方法和个性化LLMs应用的系统分类法,统一了这些不同领域和使用场景的文献。最后,我们强调了需要解决的挑战和重要的开放问题。通过使用提出的分类法统一和调查最近的研究,我们的目标是提供现有文献的清晰指南和LLMs中个性化的不同方面的指南,赋予研究人员和实践者权力。
1. 引言
大型语言模型(LLMs)已经作为强大的工具出现,能够以显著的熟练度执行广泛的自然语言处理(NLP)任务(例如,Radford等人,2018;Devlin等人,2019;Lewis等人,2019;Radford等人,2019;Brown等人,2020;Raffel等人,2020;Achiam等人,2023;Touvron等人,2023;Groeneveld等人,2024)。实证上,这些模型已经展示了它们作为通用模型的能力,允许它们执行诸如文本生成、翻译、摘要和问答等任务,并具有相当的准确性。值得注意的是,LLMs可以在零样本或少样本设置中有效工作,这意味着它们可以遵循人类指令并执行复杂的任务,而不需要特定任务的训练数据(Bommasani等人,2021;Liu等人,2023c)。这种能力消除了对它们参数的广泛微调的需要,从而显著简化了通过直接输入提示与机器的人机交互。例如,用户可以以对话格式与LLMs互动,使交互更直观、更易于访问。LLMs的这些强大和多功能的能力已经导致了包括通用AI助手(AutoGPT,2024)、副驾驶(Microsoft,2024)和基于个人LLM的代理(Li等人,2024f)在内的众多应用程序的创建。这些应用程序协助用户执行各种活动,如撰写电子邮件、生成代码、起草报告等。
最近,人们越来越有兴趣将LLMs适应用户特定的上下文,超越了它们作为NLP任务解决者或通用聊天机器人的自然使用(Tseng等人,2024)。为此,LLMs的个性化通过适应模型生成响应来满足每个用户或用户组的独特需求和偏好(Salemi等人,2023)。这种个性化对于人-AI互动和以用户为中心的应用程序至关重要。预计通过提供更相关和有意义的互动,将增强用户满意度,确保用户获得更符合他们的需求和期望的响应。这使得LLMs能够为各种应用程序提供更有效的协助,例如客户服务(Amazon,2024),其中个性化响应可以显著改善用户体验;教育(Wang等人,2022;2024b),其中定制内容可以更好地满足个人学习需求(Woźniak等人,2024);以及医疗保健,其中个性化建议可以增强患者护理(Tang等人,2023;Yuan等人,2023)。
LLMs的个性化最近受到了很多关注(Salemi等人,2023;Tseng等人,2024)。然而,现有的个性化LLMs研究通常分为两个类别:(a)个性化文本生成,专注于在个性化上下文中产生单个或多轮文本,以及(b)LLMs在下游个性化任务中的应用,例如推荐系统。这两个领域的大量研究已经独立发展,通常没有统一或整体的观点。此外,现有的调查(Chen,2023;Chen等人,2024b;c)倾向于专门关注这些方面中的一个,缺乏一个全面、统一的观点,系统地定义个性化LLMs的关键组成部分,并在个性化LLMs的两个维度之间综合见解。尽管这两个领域在特征和目标上有所不同,但对个性化LLMs的统一观点至关重要,因为它可以弥合这两个研究社区之间的差距,促进合作和知识共享,从而导致更具通用性和多功能性的系统。例如,用户特定文本生成的进步可以通过使对话互动更加个性化和可解释的建议来改善推荐系统。通过整合这两个领域的见解,研究人员可以开发LLMs,不仅能够生成符合个人偏好的文本,还能够提高各种应用程序中用户满意度。这种跨学科的方法促进了更全面的解决方案,以互补的方式解决个性化和性能问题。在这项工作中,我们通过提出个性化粒度、技术、评估、数据集和个性化LLMs使用场景的直观分类法,统一了这些不同领域的文献。
本工作的关键贡献如下:
-
个性化LLMs使用的统一视角和分类法(第2节)
。
我们提供了一个基于它们是否专注于直接评估生成的文本,或者文本是否被间接用于另一个下游应用的个性化LLMs使用的统一视角和分类法。这为理解并统一专注于LLMs个性化的两个独立领域提供了基础。此外,我们分析了每个的局限性,包括特征、评估和数据集等因素。
-
个性化LLMs的形式化(第3节)。
我们通过建立巩固现有个性化概念的基础概念,定义和讨论个性化的新方面,并为它们在多样化使用场景中的应用概述期望,来提供个性化LLMs的形式化。
-
LLMs个性化的粒度分析和分类法(第4节)。
我们提出了LLMs的三种不同个性化粒度级别,包括(i)用户级个性化,(ii)人物级个性化,以及(iii)全局偏好个性化。我们形式化了这些级别,然后讨论并描述了LLMs个性化不同粒度之间的权衡。值得注意的是,用户级个性化是最细粒度;然而,它需要足够的用户级数据。相比之下,人物级个性化将用户分组到人物中,并根据人物分配来定制体验。虽然它没有提供与用户级个性化相同的粒度,但它对于个性化有限数据的用户体验是有效的。最后,全局偏好对齐迎合了公众的总体偏好,并不提供用户特定的个性化。
-
LLMs个性化的技术和分类法调查(第5节)。
我们根据用户信息的使用方式对当前个性化LLMs的技术进行了分类,并提供了全面概述。我们的分类法涵盖了各种类别的方法,如检索增强生成(RAG)、提示工程、有监督的微调、嵌入学习和来自人类反馈的强化学习(RLHF)。对于每种方法,我们讨论了它们的独特特征、应用和涉及的权衡。我们的详细分析有助于理解不同个性化技术的优势和局限性,以及它们对各种任务的适用性。
-
个性化LLMs的度量和评估调查和分类法(第6节)。
我们对用于评估个性化LLMs的现有度量进行了分类和分析,提出了一个新颖的分类法,区分了直接和间接评估方法。我们强调了定性和定量度量的重要性,涉及用户满意度、生成文本的相关性和连贯性等多个方面。此外,我们讨论了评估个性化LLMs的挑战,并提出了改善评估过程的健壮性和可靠性的潜在解决方案。
-
个性化LLMs的数据集调查和分类法(第7节)。
我们为训练和评估个性化LLMs所使用的数据集提供了一个全面的分类法,根据它们在直接或间接评估个性化文本生成中的使用进行分类。我们的调查涵盖了广泛的数据集,包括为短文本和长文本生成、推荐系统、分类任务和对话生成专门设计的数据集。我们讨论了每个数据集的优势和局限性,它们与不同个性化技术的相关性,以及需要更多多样化和代表性数据集以推进该领域的需求。
-
个性化LLMs的应用调查(第8节)。
我们调查了个性化LLMs应用的关键领域,包括教育和医疗保健、金融、法律和编码环境中的AI助手。我们还探索了它们在推荐系统和搜索引擎中的使用,强调了个性化LLMs提供定制用户体验、增强参与度和改善多样化领域中特定任务结果的能力。
-
对未来工作的重要开放问题和挑战的概述(第9节)。
我们概述了需要解决的个性化LLMs中的关键挑战和开放研究问题,以推进该领域。关键问题包括需要改进的基准和度量来有效评估个性化,解决适应稀疏用户数据的冷启动问题,以及解决个性化输出中可能出现的刻板印象和偏见。还探讨了围绕用户特定数据的隐私问题,特别是在平衡个性化与隐私保护方面。此外,我们讨论了将个性化扩展到多模态系统的独特复杂性,在这些系统中,跨多样化输入类型整合用户偏好仍然是一个开放的挑战。
在文章的其余部分,我们首先提出了个性化LLMs使用的统一视角和分类法(第2节),然后深入研究了个性化LLMs的理论基础(第3节)。接下来,我们探讨了LLMs中的个性化粒度(第4节),并提供了个性化LLMs技术和分类法的全面调查(第5节)。然后我们对个性化LLMs的度量和评估方法进行分类(第6节),并提供了个性化LLMs数据集的详细分类法(第7节)。我们讨论了个性化LLMs的各种应用(第8节),最后,确定了关键挑战并提出了未来研究方向(第9节)。
2. 统一的个性化LLMs
为了弥合文献中两个不同工作方向之间的差距,我们提出了一个直观的分类法(见图1),将个性化LLMs的努力分为两个主要类别:个性化文本生成和下游任务个性化。在第一个类别中,个性化文本生成的目标是生成直接符合个人或群体偏好的文本(Salemi等人,2023;Kumar等人,2024)。例如,个性化的心理健康聊天机器人应该根据用户之前的对话生成富有同情心的回应,调整语气和语言以反映他们的情绪状态。重点是产生个性化的内容,通过评估生成文本本身的质量来评估,使用人类评估或可能需要用户编写文本的评估指标,因为生成的文本应该匹配或近似用户会产生的风格或内容。在第二个类别中,下游任务个性化,个性化LLMs被用来增强特定任务的性能,如推荐(Lyu等人,2023;Bao等人,2023)。例如,一个LLM增强的电影推荐系统可能通过分析用户的观看历史、偏好和与之前推荐的互动来建议新电影。在这种情况下,LLM可能生成增强系统在特定下游任务上性能的中间标记或嵌入。尽管这些中间标记没有直接评估,但它们是提高特定任务系统整体有效性的重要步骤。性能通过任务特定的指标如推荐准确性或任务成功率来评估。与第一类别不同,这条工作线侧重于改善任务结果,而不是文本生成过程本身。
直接个性化文本生成:尽管有许多类别技术用于从LLMs生成个性化文本,我们在定义中使用了一个简单的RAG(检索增强生成)框架。对于用户i,我们通常有一组用户文档(用户编写的文本)、可能静态的用户属性和用户互动,如图1所示。用户提供了文本输入x,通过查询生成函数ϕq获得用于检索用户数据的顶级元素的查询。检索模型R采用变换后的输入ϕq(x)、用户数据Di和参数k,指示返回的顶级条目数量。更正式地,
其中
Di(k)
是来自Di的用户i的顶级k个最相似数据集。注意,ϕq代表查询生成函数,例如这里引入的查询扩展;它也可以简单地是恒等函数,给出
D
i
(
k
)
=
R
(
x
,
D
i
,
k
)
。我们还注意到两个其他方面。首先,尽管图1中显示的检索模型R仅针对用户i的数据,但一般来说,它可以针对任何有用的数据集,以改善为该用户生成的个性化文本。其次,检索模型R也可以分别用于每种数据类型(用户文档/书面文本、用户属性、用户互动等),然后以某种方式组合。也可能根据需要为每种数据类型使用不同的检索模型。
给定用户i的检索数据
D
i
(
k
)
以及他们的输入文本x,我们使用个性化提示生成函数ϕp生成用户i和输入x的个性化提示,该函数结合了x与
D
i
(
k
)
和Top K用户特定检索数据。更正式地,
其中
x
ˉ
是基于初始用户输入x和检索到的用户数据
D
i
(
k
)
为用户i个性化的新输入。
现在,给定用户i的个性化输入
x
ˉ
来自方程2,我们可以利用任意LLM M来获得用户i的个性化文本生成
y
^。
因此,生成的个性化文本是:
一些现有工作完全专注于生成这种个性化用户特定文本
y
^,
然后使用用户y编写的实际文本来评估其质量(Salemi等人,2023)。这种方法直接使用生成的个性化文本
y
^。
因此,生成的个性化文本
y
^
直接与特定用户i编写的具体文本y进行评估,我们在图1中将其表示为
E(y, y ˆ )
。其中E是评估指标,如ROUGE-1、ROUGE-L、METEOR或任何其他专门为手头的个性化文本生成任务设计的未来指标。一般来说,E的目标是量化为用户i的输入x生成的个性化文本
y
^
在多大程度上被捕捉,其中y是该用户实际编写的文本。
尽管评估生成的个性化文本
y
^
如何匹配已知的地面真实文本 y 至关重要,但由于高质量用户编写标签的数据集稀缺,这仍然是一个特别具有挑战性的任务。这可能有助于解释为什么文献中对个性化文本生成的基础任务的关注有限。相反,许多工作更关注于利用生成的个性化文本
y
^
间接地改进下游任务,如推荐或一般预测。值得注意的是,在这些间接方法中,重点是改进下游任务时,通常不会评估生成的个性化文本输出
y
^,
并且被认为不那么关键。关键的考虑是,当应用于下游任务时,生成的中间文本或其嵌入可以增强整体系统的性能。尽管这些间接方法缺乏对LLMs生成的中间信息的可解释性,但已经证明,通过这种信息增强系统通常可以提高下游个性化相关应用的性能。有关个性化LLMs评估的具体讨论,请参见第6节。
间接下游任务:许多工作不是研究如何直接为用户i生成文本
y
^,
而是利用
y
^
或其个性化嵌入 z 来改进下游任务,如推荐。图1提供了这些方法的基本步骤的直观概述。通常,这些方法利用嵌入 z 或
y
^
作为附加信息,并将其与下游任务相关的其他信息结合起来。在图1中,用户特定的嵌入 z 或中间文本
y
^
与另一个嵌入或任务特定文本 v(例如,连接或使用函数组合)结合起来,形成一个统一的表示,然后传递给下游任务模型F,它可以代表任何特定应用的模型,如推荐系统。尽管图1显示了一个嵌入或文本 v 与 z 或
y
^
结合,但在实践中,可以应用多个或分层的组合。然后下游模型F产生预测
r
^,
可能包括推断的评分或分数等输出。
尽管直接个性化文本生成和下游任务个性化可能看起来不同,但它们共享许多底层组件和机制。这两种设置通常都涉及检索和利用用户特定数据,构建个性化提示或嵌入,并利用这些来增强模型输出。关键区别在于它们使用的数据集和评估方法:直接文本生成侧重于使生成的文本与用户编写的地面真实文本对齐,而下游任务个性化评估特定任务的改进。尽管这些差异存在,但两种方法可以互补。例如,直接个性化文本生成的进步可以提供更丰富、更细致的中间文本或嵌入,这可能会增强下游任务。反之,下游任务个性化模型的改进可以通知更好的方法来检索和利用直接生成任务中的用户特定数据。通过将这两种方法视为同一枚硬币的两面,这两个社区的研究人员可以从交叉授粉中受益。这种统一提供了一个机会,可以在这两方面的工作中分享最佳实践、数据集和技术,推动两个领域的进步。在下一节中,我们将深入探讨这些共享的基础,为个性化在LLMs中的有效实施和分析奠定基础。通过在全面的理论背景下框架化个性化,我们的目标是为这两个社区之间的跨学科合作建立一个共享的词汇和方法论,促进新的见解和个性化LLMs中的创新。
3. LLMs个性化的基础
尽管以前的研究(Yang & Flek,2021;Chen等人,2024c;b)已经探索了个性化LLMs的定义并分析了各个方面,但缺乏一个全面的理论框架来理解和形式化这些模型中的个性化。在这一节中,我们的目标是填补这一空白,通过建立基础原则、定义和形式结构来形式化LLMs中个性化的问题。我们系统地开发了必要的符号和概念框架来形式化问题和评估,为更深入地理解如何在LLMs中有效实施和分析个性化奠定了基础。
3.1 预备知识
设M是一个由参数θ参数化的大型语言模型(LLM),它接受一个文本序列
X=
(
x
1
,
…
,
x
m
)
∈
X
作为输入,并产生一个输出
Y
^
∈
Y
^
其中
Y
^
=
M
(
X
;
θ
)
。
Y
^
的形式取决于特定任务,
Y
^
表示可能生成的输出空间。
输入可以来自标记数据集
D
=
(
X
(
1
)
,
Y
(
1
)
)
,
…
,
,或者来自用于句子续写或完成的未标记提示数据集
D
=
X
(
1
)
,
…
,
X
(
N
)
。
对于此和其他符号,请参见表2。
定义1(大型语言模型)
。一个大型语言模型(LLM)M,由参数θ参数化,是一个具有数千亿(或更多)参数的多层Transformer模型。它可以具有仅编码器、仅解码器或编码器-解码器结构,并在包含大量自然语言标记的广泛语料库上进行训练(Zhao等人,2023;Gallegos等人,2024)。
定义2(下游任务)
。下游任务
F
是特定应用或任务,它们利用模型(如LLM)的输出来执行实际的现实世界功能。这些任务可以包括但不限于分类、翻译、推荐和信息检索。给定输入X和模型生成的输出
y^
下游任务
F
评估或利用
y^
产生最终预测
r^:
目前,LLMs主要基于多层Transformer(Vaswani等人,2017),它在深度结构化神经网络内使用堆叠的多头注意力层(Zhao等人,2023)。
基于原始Transformer架构的不同组件,LLMs可以分为以下三类:
(1)仅解码器模型(例如,GPT系列(Radford等人,2018;
2019;
Brown等人,2020;
Achiam等人,2023))(2)仅编码器模型(例如,基于BERT的模型(Devlin等人,2018;
Liu等人,2019)),(3)编码器-解码器模型(例如,T5(Raffel等人,2020))。
在这些类别中,仅解码器LLMs成为最受欢迎的类型,它针对下一个标记生成进行了优化。
在使用大规模未标记语料库进行无监督预训练后,得到的上下文感知词表示非常有效,可以作为广泛NLP任务的通用语义特征。通过指令调整(Ouyang等人,2022;Zhang等人,2023c;Longpre等人,2023;Zhou等人,2024a)和RLHF(Christiano等人,2017;Stiennon等人,2020b;Rafailov等人,2024)等技术的扩展,它们展示了许多新兴能力(Wei等人,2022a)。这使得LLMs即使在零样本方式下,也可以通过文本提示解决复杂任务并与人类进行自然对话,以执行广泛下游任务,如序列分类、文本生成和推荐(Qin等人,2023)。为了进一步增强LLMs在特定下游任务上的性能,通常会使用相对较少的任务特定数据进行微调,遵循“预训练,然后微调”的范式,这通常使LLMs适应特定任务并取得更好的结果(Bommasani等人,2021;Min等人,2023;Liu等人,2023b)。
定义3(提示)
。
提示
H
是提供给语言模型的特定输入或一组指令,它指导其文本生成
M
θ
(
H
)
。
提示可以从简单的单词或短语补全到详细的、结构化的上下文或问题,旨在引出特定类型的响应或执行某些任务。
提示可以是多模态的,包括文本、图像、音频或视频输入。
定义4(推荐系统)
。
推荐系统
RecSys
是一个信息过滤系统,它通过根据用户对项目的偏好、兴趣或观察到的行为来过滤大量动态生成的信息,解决了信息过载问题。
对于特定用户i,给定用户-项目交互历史
I
i
,用户的个人资料属性
a
i
,以及用户编写的文本
t
i
,推荐系统旨在预测用户对新项目的偏好(Bobadilla等人,2013)。
3.2 个性化在LLMs中的定义
定义5(个性化)
。个性化是指调整系统输出以满足个别用户或一组用户的个人偏好、需求和特征的过程。在LLMs的背景下,个性化涉及根据用户特定数据、历史互动和上下文信息调整模型的响应,以增强用户满意度和系统生成内容的相关性。
定义6(用户偏好)
。用户偏好指的是个别用户或一组用户的特定喜好、厌恶、兴趣和优先事项。这些偏好通过指导个性化过程来通知系统关于输出的期望特征和属性。在LLMs的背景下,用户偏好可以从明确反馈、历史互动和上下文信号中派生出来,以量身定制响应并提高生成内容的相关性和满意度。
定义7(个性化大型语言模型)
。个性化大型语言模型(Personalized LLM)
M
p
是一个已经适应以符合特定用户或用户组的个人偏好、需求和特征的LLM。这种适应涉及利用用户特定数据、历史互动和上下文信息来修改模型的响应,使它们对用户更加相关和令人满意。个性化LLMs旨在通过提供满足用户独特期望和要求的定制内容来增强用户体验。
定义8(用户文档)
。用户文档
D
u
指的是由用户u生成的文本和写作的集合。这包括评论、评论、社交媒体帖子和其他形式的书面内容,这些内容提供了对用户的偏好、意见和情感的洞察。
定义9(用户属性)
。用户属性
A
u
=
{
a
1
,
a
2
,
…
,
a
k
}
是与用户
u
∈
U
相关联的静态特征和人口统计信息。这些属性包括年龄、性别、位置、职业和其他随时间相对恒定的元数据。
定义10(用户互动)
。用户互动
I
u
=
{
i
1
,
i
2
,
…
,
i
m
}
捕获了用户
u
∈
U
在系统内的动态行为和活动。这包括点击、查看、购买和其他参与数据等动作,反映了用户的偏好和兴趣。
个性化是弥合人类和机器之间差距的关键实践(Rossi等人,1996;Montgomery等人,2004;Chen等人,2024c)。这些体验可以包括与特定用户或用户组的偏好对齐,调整生成内容的风格或语气,以及基于用户与项目的互动历史提供推荐项目。用户可以是具有互动历史的实际个人,也可以是通过特定特征(如人口统计信息)描述的个人,使人类和机器都能更好地理解和满足他们的需求。在这项工作中,我们不仅仅关注单个个体用户的个性化,而是通过根据目标群体的大小对个性化目标进行分类,来形式化和澄清“个性化”一词。我们将个性化分为三个类别,基于它们的关注点:与个别用户的偏好对齐,与用户组的偏好对齐,或与一般公众的偏好对齐(第4节)。此外,这三个级别的个性化使不同类型的输入数据得以纳入,每种数据都独特地贡献于个性化过程。值得注意的是,并非所有微调都等同于个性化。例如,大多数有监督的微调实践是一个过程,其中模型在特定数据集上进行训练,以在下游任务上表现更好。然而,只有调整模型以迎合特定用户或用户组偏好的微调——例如,适应用户的写作风格或内容偏好——才算是个性化。相比之下,对一般语料库进行微调以提高整体任务性能并不是个性化的,因为它没有解决个体或群体的独特偏好。这种区别对于理解个性化LLMs在不同粒度级别的目标至关重要。
3.3 个性化数据
在这一部分中,我们提供了通常用于下游个性化任务的用户特定信息的各种格式的概述。理解此类数据对于利用用户信息并设计有针对性的个性化技术以增强LLMs在多样化应用中的性能至关重要。图2用具体示例说明了这一点。
3.3.1 静态属性
静态属性指的是关于用户和项目的信息,这些信息随时间相对恒定。这些属性形成了许多个性化策略的基础,通常用于对用户和项目进行细分,以实现更有针对性的推荐。除了分配给每个用户和项目的唯一标识符,如用户ID和项目ID外,常见的静态属性包括:
静态属性为长期个性化策略提供了可靠的基础。通常在用户注册或配置文件设置期间收集,以及在项目编目过程中收集此数据,这需要最少的人类努力进行注释。然而,静态属性并不能捕捉用户偏好或项目相关性随时间的变化,这限制了它们在下游个性化任务中的有效性。此外,收集和存储人口统计信息可能会引发隐私问题,需要谨慎处理并遵守数据保护法规。匿名化数据的技术(Samarati & Sweeney,1998)对于解决这些问题至关重要。
3.3.2 互动历史
互动历史捕获了基于用户与系统的互动的动态方面的用户行为和偏好。此数据对于理解用户偏好并实现实时个性化推荐至关重要。互动历史包括有关过去活动的信息,如观看的电影、听过的歌曲、购买的物品或阅读的文章。它还包括用户点击或查看的项目的互动,包括参与持续时间,这有助于推断兴趣和参与水平。此外,在与LLMs的互动中,此历史包括之前提示的内容、响应以及用户与生成输出的互动模式,所有这些都有助于定制未来的互动。
互动历史的优势在于其动态和最新的性质,提供了对用户偏好的实时洞察,并实现了及时和相关的推荐。详细的互动数据提供了丰富的上下文,有助于更深入地理解用户行为。然而,互动历史可能是庞大和复杂的,需要复杂的处理技术。此外,过去的互动可能并不总是准确反映当前偏好,需要仔细分析以保持相关性。
3.3.3 用户编写文本
用户编写文本包括用户生成的任何形式的书面内容,如评论、评论、对话或社交媒体帖子。这种类型的数据丰富了用户情感,并可以提供对用户偏好和意见的深入洞察。用户文本数据通常包括:
-
评论:对产品或服务的书面评估,通常包括评分和详细评论。例如,亚马逊评论数据(Ni等人,2019)包含2.331亿条评论,通过详细的文本反馈和评分提供对用户体验和偏好的洞察。
-
对话和交谈:用户与对话系统或其他用户的文本交流。ConvAI2数据集(Dinan等人,2020)包括参与者被分配人物并进行自然交谈的对话,这有助于理解用户互动模式并改进对话代理。
-
社交媒体帖子:在Reddit、Twitter或Facebook等平台上发布的短消息或评论,可以分析以了解用户情感和趋势。
在LLMs的背景下,这还包括通常用于少样本学习的人类编写的示例,反映了用户偏好或意图,以指导模型的响应。用户文本数据的潜在用途广泛。例如,可以执行情感分析(Medhat等人,2014;Wankhade等人,2022),以了解用户意见并改进产品供应或客户服务。可以通过分析用户对话来增强对话代理,使互动更自然、更具吸引力。用户文本数据的优势在于其深入的洞察力,提供了关于用户偏好、意见和情感的详细信息。它具有多功能性,适用于各种领域,从产品评论到社交媒体分析。然而,文本数据本质上是非结构化的,需要有效的NLP技术进行有效分析。此外,全面评估这种微妙的数据,特别是用于个性化,现有度量标准存在挑战。此外,用户生成的内容可能是嘈杂的,质量参差不齐,使得准确分析复杂。注释新的高质量数据点成本高昂,进一步增加了复杂性。
3.3.4 成对人类偏好
成对人类偏好指的是明确的用户反馈,表明他们从一组候选输出中首选的响应。这种数据格式通常涉及人类注释选择最期望的选项,使其成为训练模型以紧密符合个别用户需求和偏好的重要工具。与静态属性或互动历史不同,成对偏好提供了高度具体和直接的反馈,作为明确的指示,说明用户期望模型在给定场景中如何表现或响应。例如,用户可能指定他们希望响应易于被外行人理解,还是为专家量身定制。通过这种方式,用户可以明确说明他们的需求,减少歧义和隐含性,这可能导致更高的用户满意度和更有效的个性化。然而,设计适当的对齐策略仍然是个性化应用的重大挑战。大多数当前工作侧重于使模型与一般、聚合的人类偏好对齐,而不是多样化的、个体的观点(Jang等人,2023)。开发有效捕获和使用这些个体直接偏好的方法对于推进个性化系统至关重要。
定义11(对齐)
。对齐
G
是AI系统的目标
G
A
与人类价值观和意图
G
H
一致的过程或状态。数学上,对齐可以定义为确保AI系统的行为策略
π
A
最大化代表人类价值观的效用函数 (U
_H )。正式地,
其中
π
A
是AI系统的行为策略,
E
π
[
U
H
]
是在策略
π
π
下的预期效用,
arg
max
π
表示最大化预期人类效用
U
H
的策略集。
3.4 个性化生成的空间
在这一部分中,我们简要形式化并分析个性化LLMs的问题及其解决方案空间。这有两个目的:提供问题难度的直觉,并描述与其他已研究问题相关的属性和独特优势。
首先,让我们建立个性化LLM问题的形式化。考虑一个通用输入示例
x
∈
X
。我们用
g
:
Z
×
X
→
Y
表示生成模型,其中
Z
表示潜在空间,
Y
表示所有可能生成的空间。
给定
x
∈
X
,所有可能生成的空间定义为:
为了全面理解个性化,我们区分以下集合:
-
所有可能生成的空间
Y
。
-
给定输入
x
x
的高概率生成空间,表示为:
其中
P
(
y
∣
x
)
是给定输入
x
时生成
y
的概率,
δ
是代表高质量内容的阈值。
其中
f
(
P
u
i
,
y
)
是一个量化生成
y
与用户偏好
P
u
i
对齐程度的函数,
ϵ
是用户特定相关性的阈值。
值得注意的是,用户特定生成空间
S
i
(
x
)
与所有可能生成的空间
S
(
x
)
相比,显著更小且更有针对性。图3提供了特定用户个性化生成空间的直观概述。
3.5 个性化标准分类法
在评估LLMs中生成文本的个性化时,考虑几个关键方面以确保内容有效地针对个别用户是至关重要的。这些方面构成了个性化内容生成标准的全面分类法,包括个性化内容生成的各种维度。
语气和风格是个性化文本生成的基础方面之一,包括:
相关性:个性化还需要生成的内容高度相关于用户的兴趣、偏好和当前需求。这种相关性在两个层面上评估:
-
内容相关性:此标准评估内容是否与用户的兴趣和偏好对齐。它确保生成的文本对用户相关且有价值,从而增强参与度和满意度。例如,如果用户最近对可持续性主题表现出兴趣,LLM应优先生成与绿色技术或环保实践相关的内容,用于相关上下文,如撰写博客文章或社交媒体更新。
-
上下文相关性:除了普遍兴趣外,确保内容适合用户将遇到它的特定上下文或情况也至关重要。例如,如果用户正在准备商务演示,LLM应专注于生成正式的、数据驱动的、与特定行业对齐的内容,而不是随意或不相关的话题。
准确性:准确性是个性化文本生成的另一个关键维度,确保提供的信息可靠和精确。这包括:
-
事实准确性:生成的内容应基于可靠信息,事实正确。这确保了内容的可信度并保持了用户的信任。例如,如果LLM正在生成有关最近市场趋势的报告,它应使用最新数据并引用可靠来源,避免过时或错误的信息。
-
用户数据准确性:个性化高度依赖于用于定制内容的用户数据的准确性。个性化内容必须基于最新和正确的用户数据,包括用户的偏好、过去的行为和互动。例如,如果用户最近将他们的职位从“经理”更改为“董事”,LLM应生成反映这一新角色及其相关责任的电子邮件或文件,而不是使用过时的信息。
这些个性化方面——语气和风格、相关性和准确性——形成了评估个性化LLMs的坚实分类法基础。每个标准在确保生成的内容有效定制方面发挥着关键作用,为用户提供独特且令人满意的体验。这个分类法不仅有助于系统地评估个性化LLMs,还突出了个性化的多面性。通过解决这些标准,研究人员和实践者可以开发更复杂、以用户为中心的语言模型,更好地服务于用户的多样化需求和偏好。
表1提供了这些标准的说明性分解,以及它们各自的描述和示例。
3.6 分类法概述
在这一部分中,我们提出了后续部分中提出的每个分类法的高级总结。
3.6.1 LLMs个性化粒度的分类法
我们提出了LLMs的三种不同个性化粒度级别,每个级别解决不同的个性化范围。这些级别有助于理解可以用LLMs实现的个性化深度和广度。三个级别是:
§4.1 用户级个性化:关注单个用户的独特偏好和行为。此级别的个性化利用有关用户的详细信息,包括他们的历史互动、偏好和行为,通常通过用户ID识别。
§4.2 人物级个性化:针对具有相似特征或偏好的用户组,称为人物。此级别的个性化基于这些组的集体属性,例如专业知识、信息性和风格偏好。
§4.3 全局偏好个性化:包括被公众广泛接受的一般偏好和规范,如文化标准和社会规范。
3.6.2 LLMs个性化技术的分类法
我们根据用户信息的使用方式对LLMs的个性化技术进行分类。这些技术提供了各种方法,将用户特定数据纳入LLMs以实现个性化。主要类别是:
§5.1 通过检索增强生成进行个性化:将用户信息作为外部知识库纳入,通过向量编码,并使用嵌入空间相似性搜索检索相关信息,用于下游个性化任务。
§5.2 通过提示进行个性化:将用户信息作为LLMs提示的上下文纳入,允许下游个性化任务。
§5.3 通过表示学习进行个性化:将用户信息编码到神经网络模块的嵌入空间中,可以通过模型参数或每个用户特定的显式嵌入向量表示。
§5.4 通过来自人类反馈的强化学习进行个性化:使用用户信息作为奖励信号,通过强化学习使LLMs与个性化偏好对齐。
3.6.3 个性化LLMs的评估方法分类法
个性化LLMs的评估指标可以根据它们如何衡量个性化的效果进行分类。这些指标确保个性化输出满足相关性和质量的期望标准。主要类别是:
定义12(内在评估)。内在评估
E
i
是指基于预定义的指标
ψ
(
⋅
)
∈
Ψ
评估LLM
M
p
生成的个性化文本,这些指标衡量生成内容
y
^
∈
Y
^
与地面真实数据
Y
的质量、相关性和准确性。此评估直接在模型的输出上执行:
定义13(外在评估)。间接评估
E
e
涉及通过其对下游应用
F
F
的影响来评估LLM
M
p
生成的个性化文本的效用。评估通过比较预测
r
^
r
^
与地面真实标签
r
r
使用应用特定指标来衡量生成内容的有效性:
其中
ψ
a
(
⋅
)
∈
Ψ
a
代表应用特定指标。
§6.1 内在评估:直接评估生成的个性化文本,关注个性化内容、写作风格等。
§6.2 外在评估:依赖于下游应用,如推荐系统,来展示从个性化LLM生成的文本的效用。
3.6.4 个性化LLMs的数据集分类法
我们提出了一个分类法,根据它们是否包含用户编写的具体文本,对个性化LLM数据集进行分类。这有助于理解数据在直接或间接评估个性化文本生成中的作用。主要类别是:
§7.1 包含地面真实文本的个性化数据集:包含用户编写的实际地面真实文本,允许直接评估个性化文本生成方法,而不是依赖于下游任务的性能。
§7.2 不包含地面真实文本的个性化数据集:适用于通过下游应用间接评估的常见数据集,因为它们不需要用户编写的具体地面真实文本。这些数据集通常用于通过任务如推荐、分类、对话和问答来评估个性化LLM技术。
4 LLMs的个性化粒度
定义14(个性化粒度)
。个性化粒度指的是定义和实施个性化目标的详细程度。它决定了系统响应针对特定标准(如个别用户、具有某些共享人物的用户组或一般公众)的定制程度,影响个性化应用的精细程度或广泛程度。
在这一部分中,我们提出了基于个性化目标的LLMs的分类法。具体来说,可以根据其关注点将个性化LLMs分为针对个别用户的偏好、用户组的偏好或一般公众的偏好的类别。在本调查中,我们正式定义了以下个性化的区别:
-
用户级个性化(第4.1节)
:这一级别关注单个用户的独特偏好和行为。此级别的个性化利用有关用户的详细信息,包括他们的历史互动、偏好和行为,通常通过用户ID识别。正式地,设
U
表示用户集合,
P
u
=
{
p
1
u
,
p
2
u
,
…
,
p
n
u
}
表示用户
u
∈
U
的个性化偏好集合。下游任务的目标函数为
L
task
。此级别个性化的目的是最小化该函数:
其中
θ
可以是LLM系统
f
中的参数或提示。
4.1 用户级个性化
在本节中,我们讨论用户级个性化,它关注个体层面的数据。如图6(a)所示,这种类型的个性化专注于为每个由用户ID唯一标识的用户优化偏好。例如,在MovieLens-1M推荐数据集中,每个用户都有人口统计信息,如UserID、性别、年龄、职业和邮政编码,以及相应的电影互动(MovieID、评分、时间戳)。目标是基于每个用户的个人资料和观看历史推荐新电影。这种个性化级别的优势在于它提供了最细粒度的方法,最小化了其他用户的噪声。这在在线购物、工作推荐(Wu等人,2024)和医疗保健(Abbasian等人,2023;2024;Zhang等人,2024a;Jin等人,2024b)等领域特别有益,因为个别用户行为可能有很大差异,这种详细的个性化至关重要。这种个性化级别面临的一个主要挑战是“冷启动问题”,它指的是互动历史很少的用户,通常在推荐系统中被称为“潜伏者”(Sun等人,2024)。然而,许多研究(Salemi等人,2023;Rajput等人,2023;Xi等人,2023)选择在预处理阶段删除此类数据。这种排除可能削弱了系统的鲁棒性,因为它忽视了这些代表性不足的用户互动的细微差别和潜在见解。
4.2 人物级个性化
在本节中,我们形式化并讨论人物级个性化,其中输入包括由组或人物分类的用户偏好。如图6(b)所示,这种方法针对优化共享共同特征的用户组的偏好。一个自然语言描述封装了这些共享特征,代表提示或相关组件中的整个组。例如,Jang等人(2023)设计了三个不同的偏好维度:专业知识、信息性和风格,每个维度都有两个冲突的人物或偏好。例如,在专业知识维度中,一个人物偏好内容易于小学生理解,而另一个人物偏好内容只有特定领域的博士生才能理解。从这个例子中,我们可以观察到,与本地化用户特定个性化(第4.1节)相比,每个人物代表了一组用户的更广泛肖像,关注更一般的特征,而不是详细的用户特定信息。人物级个性化的优势在于其在共享特征显著且对下游任务至关重要的场景中的有效性,而用户特定属性的显著性较小。此外,一旦提取出这些代表性特征,这种数据格式更容易处理,无论是直接包含在提示中还是通过RLHF利用,都比冗长的用户特定配置文件更有效。然而,挑战在于使用自然语言描述提取这些代表性特征在实践中可能很困难。大多数当前工作仍然依赖于人类的领域知识来实现这一点。
4.3 全局偏好对齐个性化
在许多应用中,可能只有代表整个人口偏好的全局用户偏好数据可用,而不是个别用户。虽然这超出了本调查个性化的主要范围,但为了完整性,我们包括了对它的讨论。这些偏好通常包括预期被一般公众接受的人类价值观,如社会规范、事实正确性和遵循指令(Taylor等人,2016;Gabriel,2020;Liu,2021)。这种数据的常见格式包括给定指令、多个选项和由人类注释者标注的标签,指示哪个选项更受欢迎(Ethayarajh等人,2022;Stiennon等人,2020a;Nakano等人,2021;Bai等人,2022;Ganguli等人,2022)。这些数据集通常通过RLHF用于对齐LLMs。全局偏好对齐的优势在于其在安全性(Gehman等人,2020;Ge等人,2023;Anwar等人,2024;Ji等人,2024a)、社会规范(Ryan等人,2024)和道德问题(Liu等人,2021;Rao等人,2023)方面增强LLMs的潜力,确保它们与人类价值观一致。然而,缺点是它可能引入噪声,因为个人偏好可能有所不同,并不一定准确代表一般公众。此外,这种级别的对齐不捕获细粒度的用户特定个性化。
4.4 讨论
LLMs中的个性化粒度涉及精确度、可扩展性和个性化体验丰富度之间的权衡。用户级个性化提供高精确度和参与度,但面临数据稀疏性和可扩展性挑战。人物级个性化高效且具有代表性,但粒度较粗,并且需要定义人物的领域知识。全局偏好个性化提供广泛的适用性和简单性,但缺乏特异性,并可能引入聚合数据的噪声。未来,混合方法可能利用每种方法的优势,同时减轻它们的弱点。例如,分层个性化框架可以结合频繁用户的用户级个性化、偶尔用户的个性化以及新用户的全局偏好。这通过根据用户互动水平平衡精确度和可扩展性,定制体验。另一个想法是上下文感知个性化,它从人物级个性化开始,并随着更多数据的可用性过渡到用户级,解决冷启动问题。这种方法允许系统最初提供相关的个性化,并随着详细的用户特定数据的可用性逐渐细化它。这种自适应系统可以动态调整个性化粒度,根据用户参与度、上下文和数据可用性,提供平衡且有效的用户体验。这些系统可以在个性化级别之间切换,通过使用最适合每种情况的最适当的粒度,为用户提供平衡且有效的体验。整合不同粒度的信息可能进一步增强个性化。用户级数据可以细化人物定义,使其更准确、更具代表性。反之,人物级见解可以通知用户级个性化,通过提供共享特征的上下文。全局偏好可以作为基线,确保个体和人物级个性化与广泛接受的规范和价值观一致。目前,这三个级别的数据集通常是正交的且不相关的。开发涵盖用户级、人物级和全局偏好的数据集至关重要。这样的数据集将使不同个性化级别的更无缝集成和过渡成为可能,增强LLMs满足多样化
用户需求的健壮性和有效性。总之,选择个性化粒度应由特定应用要求指导,平衡精确度、可扩展性和提供丰富个性化体验的能力。混合方法和集成数据集是实现最佳个性化结果的关键。
5 LLMs个性化技术的分类法
在这一部分中,我们提出了一个基于用户信息使用方式的LLMs个性化技术的分类法。具体来说,个性化LLMs的技术可以分为以下几个类别: