专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
CDA数据分析师  ·  Deepseek爆火,CDA持证人如何确保不 ... ·  2 天前  
软件定义世界(SDX)  ·  数字化转型成熟度标准化研究与应用 ·  2 天前  
大数据文摘  ·  马斯克大力出奇迹,Grok3 把 o3 干翻了 ·  3 天前  
51好读  ›  专栏  ›  数据派THU

【ICLR2025】LLMS能否识别您的偏好?评估LLMS中的个性化偏好遵循能力

数据派THU  · 公众号  · 大数据  · 2025-02-20 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

我们提出了PREFEVAL,这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。


图片

大语言模型(LLMs)越来越多地被用作聊天机器人,但其在根据用户偏好个性化响应方面的能力仍然有限。我们提出了 PREFEVAL ,这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。PREFEVAL包含3,000对人工整理的用户偏好和查询对,涵盖20个主题。PREFEVAL以显式和隐式形式包含用户个性化或偏好信息,并通过生成任务和分类任务评估LLM的表现。
利用PREFEVAL,我们在多轮对话中评估了10个开源和专有LLMs的上述偏好遵循能力,上下文长度从短到长(最高达100k标记)。我们通过多种提示方法、迭代反馈和检索增强生成方法进行了基准测试。我们的基准测试表明,最先进的LLMs在主动遵循用户偏好的对话中面临显著挑战。特别是在零样本设置中,大多数评估模型的偏好遵循准确率在仅10轮对话(约3k标记)后降至10%以下。即使使用高级提示和检索方法,偏好遵循能力在长上下文对话中仍然会下降。
此外,我们展示了在PREFEVAL上进行微调可以显著提高性能。我们相信,PREFEVAL将成为衡量、理解和增强LLMs偏好遵循能力的重要资源,为个性化对话代理的发展铺平道路。我们的代码和数据集可在 https://prefeval.github.io/ 获取。

图片



关于我们







请到「今天看啥」查看全文