SAPIEN：由大语言模型支持的情感虚拟智体

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-02 22:54

正文

23年8月Rochester大学论文“SAPIEN: Affective Virtual Agents Powered by Large Language Models”。

该演示论文介绍了SAPIEN，一个由大语言模型驱动的高保真虚拟智体平台，可以用13种不同的语言与用户进行开放域对话，并通过面部表情和语音显示情绪。该平台允许用户自定义虚拟智体的个性、背景和对话前提，从而提供丰富的沉浸式互动体验。此外，在虚拟会议之后，用户可以选择对对话进行分析，并接收关于他们的沟通技能的可操作反馈。另外讨论了该技术的各个应用领域，从娱乐到心理健康、沟通培训、语言学习、教育、医疗保健等。此外，还考虑了这种现实的虚拟智体表示的道德含义，以及确保负责任使用的潜在挑战。

SAPIEN是Synthetic Anthropomorphic Personal Interaction ENgine的缩写，意思是合成拟人的个人交互引擎。

如图所示SAPIEN的虚拟智体完成面对面视频电话交互：

一旦选择了虚拟智体并定义了其特征，用户就可以开始与之进行实时视频通话交互。在大语言模型的帮助下，虚拟智体可以动态调整他们的情绪状态、声音和面部表情，展示七种基本情绪。

SAPIEN利用了语音到文本[5]、[6]、文本到语音[7]-[9]和大语言建模[2][4][10]-[14]中最先进的模型。虚拟智体能流利地说13种不同的语言，而且还在不断增加，使其能够在全球用户群中访问。

在完成与虚拟智体的视频通话后，用户可以选择对他们的对话进行分析，获得个性化反馈。该系统根据用户的目标向用户提供AI生成的反馈。用户可以根据自己的学习目标决定反馈的主题，并重复对话，直到达到学习目标。虚拟智体角色和反馈的固有灵活性可能使其适用于无数应用程序，包括沟通培训、语言学习以及医疗保健、销售和领导力培训等专业应用程序。

随着LLM技术能力的提高，预计未来几年劳动力市场将发生剧烈变化[15]。根据最近的研究[15]，就业市场的重要性将从硬技术技能转向软“人”技能。在这种不断变化的环境中，SAPIEN可以帮助人们在AI的帮助下培养人类技能，从而帮助他们适应和应对。

SAPIEN虚拟智体的总体工作，为简单起见称为“Bot”，如图所示是SAPIEN中的单回合对话流。用户话语被转录并发送到LLM。LLM响应由虚拟智体发出。当用户的语音话语被捕获并传输到后端服务器进行处理时，SAPIEN系统就会被初始化。该话语由高精度的语音到文本（STT）模型[5]、[6]、[16]、[17]转录成文本，随后由自回归大语言模型（LLM）进行处理，该模型针对[3]、[4]、[10]-[14]、[18]的指令进行了微调。

SAPIEN：由大语言模型支持的情感虚拟智体

正文

请到「今天看啥」查看全文