23年8月Rochester大学论文“SAPIEN: Affective Virtual Agents Powered by Large Language Models”。
该演示论文介绍了SAPIEN,一个由大语言模型驱动的高保真虚拟智体平台,可以用13种不同的语言与用户进行开放域对话,并通过面部表情和语音显示情绪。该平台允许用户自定义虚拟智体的个性、背景和对话前提,从而提供丰富的沉浸式互动体验。此外,在虚拟会议之后,用户可以选择对对话进行分析,并接收关于他们的沟通技能的可操作反馈。另外讨论了该技术的各个应用领域,从娱乐到心理健康、沟通培训、语言学习、教育、医疗保健等。此外,还考虑了这种现实的虚拟智体表示的道德含义,以及确保负责任使用的潜在挑战。
SAPIEN是Synthetic Anthropomorphic Personal Interaction ENgine的缩写,意思是合成拟人的个人交互引擎。
如图所示SAPIEN的虚拟智体完成面对面视频电话交互:
SAPIEN的一个显著特点是其广泛的定制选项,允许用户进行身临其境和有意义的互动。
用户可以从反映不同年龄、性别和种族的各种虚拟智体avatar中进行选择。
更进一步,用户可以选择虚拟智体所需的个性、背景和会话上下文,从而创建适合其特定需求或偏好的体验。
一旦选择了虚拟智体并定义了其特征,用户就可以开始与之进行实时视频通话交互。在大语言模型的帮助下,虚拟智体可以动态调整他们的情绪状态、声音和面部表情,展示七种基本情绪。
SAPIEN利用了语音到文本[5]、[6]、文本到语音[7]-[9]和大语言建模[2][4][10]-[14]中最先进的模型。虚拟智体能流利地说13种不同的语言,而且还在不断增加,使其能够在全球用户群中访问。
在完成与虚拟智体的视频通话后,用户可以选择对他们的对话进行分析,获得个性化反馈。该系统根据用户的目标向用户提供AI生成的反馈。用户可以根据自己的学习目标决定反馈的主题,并重复对话,直到达到学习目标。虚拟智体角色和反馈的固有灵活性可能使其适用于无数应用程序,包括沟通培训、语言学习以及医疗保健、销售和领导力培训等专业应用程序。
随着LLM技术能力的提高,预计未来几年劳动力市场将发生剧烈变化[15]。根据最近的研究[15],就业市场的重要性将从硬技术技能转向软“人”技能。在这种不断变化的环境中,SAPIEN可以帮助人们在AI的帮助下培养人类技能,从而帮助他们适应和应对。
SAPIEN虚拟智体的总体工作,为简单起见称为“Bot”,如图所示是SAPIEN中的单回合对话流。用户话语被转录并发送到LLM。LLM响应由虚拟智体发出。当用户的语音话语被捕获并传输到后端服务器进行处理时,SAPIEN系统就会被初始化。该话语由高精度的语音到文本(STT)模型[5]、[6]、[16]、[17]转录成文本,随后由自回归大语言模型(LLM)进行处理,该模型针对[3]、[4]、[10]-[14]、[18]的指令进行了微调。
LLM以用户定义的参数为条件,如个性特征、会话前提、用户信息和以前的会话历史。
为了防止不当或冒犯行为,LLM还遵守系统护栏。