24年4月复旦大学的论文“From Persona to Personalization: A Survey on Role-Playing Language Agents”。
大语言模型 (LLM) 的最新进展极大地促进角色扮演语言智体(RPLA) 的兴起,即旨在模拟指定角色的专门AI系统。通过利用LLM的多种高级能力,包括情境学习、指令遵循和社交智能,RPLA 实现了卓越的人类相似感和生动的角色扮演性能。RPLA 可以模仿各种角色,从历史人物、虚构人物到现实生活中的个人。因此,它们催生了许多AI应用,例如情感伴侣、互动视频游戏、个性化助理和copilot以及数字克隆。
本综述对该领域进行了全面的调查,阐述了 RPLA 与前沿LLM技术相结合的演变和最新进展。将角色分为三种类型:1)人口统计角色,利用统计刻板印象;2)人物角色,重点关注知名人物;3) 个性化角色,通过持续的用户交互进行定制以提供个性化服务。全文首先全面概述当前 RPLA 的方法,然后详细介绍每种角色类型,涵盖相应的数据源、智体构建和评估。然后,讨论 RPLA 的基本风险、现有局限性和未来前景。此外,还对AI应用中的 RPLA 进行了简要回顾,这反映了塑造和推动 RPLA 研究的实际用户需求。
如图所示RPLA 的各种角色类型概述。角色的三种类型:1)人口统计角色,2)人物角色,3)个性化角色。图中展示它们的定义、数据源、示例、用例和相应的应用程序。
AI界长期以来一直追求“智体”的概念,接近人类的智能和自主性。传统的符号智体(Bernstein,2001;Küngas,2004)和强化学习智体(Fachantidis,2017;Florensa,2018)主要根据规则或预先定义的奖励来优化其行为。语言智体的研究主要集中在知识有限的受限环境中训练,这与人类学习过程的复杂性和多样性不同。然而,此类智体很难模仿复杂的类人行为,特别是在开放域环境中(Mnih,2015;Lillicrap,2015;Schulman,2017;Haarnoja,2017)。最近,LLM在实现人类水平的智能方面表现出了非凡的能力和巨大的潜力,这引发了针对基于LLM的语言智体研究兴起(Sclar,2023;Chalamalasetti,2023;Liu,2023d;Xie,2024a)。该领域的研究主要涉及为LLM配备必要的类人能力,例如规划、工具使用和记忆(Weng,2023),这对于开发具有拟人认知和能力的高级 RPLA 至关重要。
规划模块
。在许多现实场景中,智体需要制定长期规划来解决复杂的任务(Rana et al., 2023; Yuan et al., 2023)。当面对这些任务时,LLM驱动的智体可以将复杂的任务分解为子任务,并采用各种规划策略,例如CoT(Wei,2022b)和ReAct(Yao,2023b),自适应地规划下一个任务环境反馈的行动(Wang et al., 2023a;Gotts et al., 2003;Wang et al., 2023j;Song et al., 2023;Zhang et al., 2024b)。对于 RPLA,这些自适应规划策略使它们能够模拟复杂环境中的现实和动态交互,例如游戏(Wang,2023a)和社交模拟(Park,2023)。
工具使用模块
。尽管LLM在各种任务中表现出色,但可能在需要广泛专业知识和经历幻觉问题的领域遇到困难(Gou,2023;Chen,2023e;Wang,2023f)。为了应对这些挑战,智体可以应用外部工具来执行行动(Shen et al., 2023b; Lu et al., 2023; Schick et al., 2023; Parisi et al., 2022; Yang et al., 2023b; Yuan,2024a)。这些工具包括现实世界的 API(Patil,2023;Li,2023g;Qin,2023;Xu,2023b;Shen,2023c)、知识库(Zhuang,2024; Hsieh et al., 2023)、外部模型 (Bran et al., 2023; Ruan et al., 2023) 以及针对特定应用的定制操作 (Wang et al., 2023a; Zhu et al., 2023b) )。对于 RPLA,这些工具通常使它们能够与环境交互,例如游戏或软件应用程序。外部工具的集成增强了角色扮演和生成智体,使它们能够执行超出其固有能力的操作和访问信息。这有利于更准确、更适合上下文的交互,特别是在专门或复杂的场景中,从而显着提高用户参与中响应的质量和有效性。
记忆机制
。记忆机制存储智体的配置文件以及环境信息,帮助智体将来采取行动。个人资料通常包括基本信息(年龄、性别、职业)、心理特征(反映个性)和社会关系(Wang et al., 2023c; Park et al., 2023;Qian et al., 2023),可以是手动创建(Caron & Srivastava, 2022;Zhang et al., 2023a;Pan & Zeng, 2023;Huang et al., 2023b;Karra et al., 2022;Safdari et al., 2023)或从模型生成(Wang et al., 2023c)。该模块使智体能够积累经验、发展并一致有效地采取行动(Park et al., 2023)。语言智体借鉴了人类记忆的认知科学研究,人类记忆从感觉记忆发展到短期记忆,然后发展到长期记忆(Atkinson & Shiffrin,1968;Craik & Jennings,1992)。短期记忆被视为 Transformer 架构约束窗口内的信息输入(Fischer,2023;Rana,2023;Wang,2023j;Zhu,2023a)。相比之下,长期记忆通常保留在外部向量库中(Qian et al., 2023;Zhong et al., 2023;Zhu et al., 2023b;Lin et al., 2023;Xie et al., 2023; Wu et al., 2024b) 或自然语言数据库 (Shinn et al., 2023; Modarressi et al., 2023),智体可以根据需要做快速查询和检索信息。与普通的LLM相比,语言智体需要在不断变化的环境中学习和执行任务。对于 RPLA,记忆机制发挥着关键作用,使这些智体能够随着时间的推移保持交互的连续性和上下文。通过存储和检索用户特定的数据和环境背景,智体可以提供更加个性化和相关的响应,从而增强用户在不同场景中的体验和参与度。
如图所示是RPLA研究方法的分类:
分配有人口统计角色的 RPLA 预计会显示特定人群的独特特征。在此背景下,人口统计数据捕获了与具有共同特征的群体相关的典型特征,例如职业角色(例如数学家)、爱好或兴趣(例如棒球爱好者)和性格类型(例如Myers-Briggs- RPLA 中的这些表示融合了代表人口原型的语言风格、专业知识和行为细微差别。
这些 RPLA 旨在模仿特定人群如何处理并参与信息和沟通渠道,反映其独特的语言偏好、特定领域的词汇和独特的观点。这种转变旨在将 RPLA 广泛而灵活的功能转化为复杂的虚拟表示,反映人口的智力微妙性、个人倾向和社会复杂性。通过体现特定群体,人口统计RPLA可以增强其在某些领域的能力,也可以利用代表不同人口统计的多种RPLA进行社会实验、完成更复杂的任务等。
人物主要是故事被公众广泛认可的知名人物,包括名人、历史人物和虚构人物(例如Monkey D. Luffy 和 Hermione Granger)。有时,它们还包括个人创建的原创角色(Zhou et al., 2023a)。人物 RPLA 最近已成为LLM应用的一个蓬勃发展的领域(例如,Character.ai),因此也引起了广泛的研究兴趣(Shao,2023;Wang,2023g;2024c)。
对于人物 RPLA 来说,有效角色扮演的基本要求是LLM理解角色的能力。早期研究研究了语言模型的字符理解,涉及将概述字符特征的描述与其角色(即字符预测)和个性(即个性理解)联系起来:1)字符预测主要侧重于从提供的文本中识别字符。这包括共参解析(Li et al., 2023c)、关系理解(Zhao et al., 2024)和字符识别(Brahman et al., 2021;Yu et al., 2022;Li et al., 2023c;Zhao,2024)。此外,一些研究调查语言模型是否可以预测角色的未来行为,基于以下因素:2)个性理解旨在从对话和行为中解码角色特征,包括预测所描述的特征(Yu et al., 2023)和生成角色描述(Brahman,2021)。
近年来,LLM在语言理解和生成方面表现出了强大的能力,极大地推动了RPLA的发展。因此,这个方向的研究重点转向应用和推广LLM来忠实地再现人物,包括它们的语言风格(Wang et al., 2023g; Zhou et al., 2023a; Li et al., 2023a; Wang et al. 2023g)、知识(Li et al., 2023a;Shao et al., 2023;Zhou et al., 2023a;Chen et al., 2023c;Zhao et al., 2023a;Wang et al., 2023g)、人格 (Shao et al.,2023;Wang et al.,2024c),甚至决策(Zhao et al.,2023a;Xu et al.,2024b)。
个性化定制LLM以满足个人的独特需求、经验和偏好,这在现代AI应用中变得越来越重要(Salemi,2024)。该领域的研究旨在提供个性化服务,适应个人用户的偏好甚至反映他们的行为(Chen et al., 2023b)。当这样的个性化系统试图封装这些条目时,它本质上是在进行角色扮演,模仿个人。这一过程塑造了 RPLA 的个性化角色(Salemi,2024),通常体现为个人的数字克隆或个人助理。
个性化 RPLA 的应用分为三层,从对话(Gao,2023b;Ahn,2023)到推荐(Chen,2023b;Yang, 2023a),到自主智体来解决更复杂的任务(Li et al., 2024d)。
1. 对话:个性化 RPLA 的早期研究主要集中在通过学习和整合用户角色来实现个性化对话(Cho,2022;Zhou,2023c;Ng,2024),将风格特征与用户角色相结合。用户偏好以提高参与度(Zheng,2021;Wang)。随着法学硕士的出现和发展,个性化的RPLA变得能够处理日益复杂和全面的任务,获得复杂任务规划和工具学习的能力,以自动完成个性化服务。
2. 推荐:基于LLM的会话推荐系统(Chen et al., 2023b; Yang et al., 2023a; Wu et al., 2023)已被广泛认为是下一代推荐系统(Lian et al., 2024),通过多轮对话支持用户实现推荐相关目标(Jannach et al., 2021)。与传统的推荐相比,这些方法以其坚实的基础模型、自然语言交互以及简单、典型的非参数进化而脱颖而出(Sallam,2023;Abbasian,2023)。