ACL 2024
计算语言学协会(Association for Computational Linguistics,简称 ACL)是研究涉及人类语言的计算问题(通常称为计算语言学或自然语言处理(NLP))的首要国际科学和专业协会。计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics)为该组织的旗舰会议,是自然语言处理与计算语言学领域
最高级别
的学术会议之一,是
CCF A
类推荐会议。第62届计算语言学协会年会(ACL 2024)将于2024年8月11日至16日在泰国曼谷举行。
题目: STICKERCONV: Generating Multimodal Empathetic Responses from Scratch
作者:
张逸群
1*
,孔繁恒
1*
,王培东
1*
,孙爽
1
,王凌帅
1
,冯时
1@
,王大玲
1
,张一飞
1
,宋凯嵩
2
类型:
Long Paper, Main Conference
论文链接:https://arxiv.org/abs/2402.01679
项目仓库:https://github.com/ZhangYiqun018/StickerConv
项目主页:https://neu-datamining.github.io/StickerConv/
数据集:https://huggingface.co/datasets/NEUDM/StickerConv
摘要
表情包虽然被广泛认为可以增强在线互动中的共情交流,但在当前的共情对话研究中仍未得到充分探索,这主要是由于缺乏全面的数据集。在本文中,我们介绍了
STICKERCONV 智能体
(
Agent4SC
),它使用协作智能体交互来真实模拟人类使用表情包的行为,从而增强多模态共情交流。在此基础上,我们开发了多模态共情对话数据集
STICKERCONV
,其中包括 12.9K 段对话、5.8K 个不重复的表情包和 2K 个不同的对话场景,其中一段对话示例如图1所示。该数据集是多模态共情生成的基准。进一步,我们提出了
PE
rceive and
G
enerate
S
tickers(
PEGS
), 一种多模态共情回复生成框架,并辅以一套基于 大语言模型(LLM) 的综合共情评价指标。我们的实验证明,
PEGS
能够有效生成与语境相关并能引起情感共鸣的多模态共情回复,从而有助于开发更细致入微、更引人入胜的共情对话系统。
图1 STICKERCONV中的多模态对话的例子, 人工智能助手与用户进行共情对话
主要工作
1. Agent for STICKERCONV
为了解决现有问题,我们引入了 Agent for STICKERCONV (
Agent4SC
),这是一个基于 LLM 的多智能体系统,旨在模仿人类的对话模式。
Agent4SC
的框架如图2所示 ,通过整合多个模块和表情包的策略性使用,
Agent4SC
旨在产生情感和多样化的共情回复,从而克服 LLM 在共情能力方面的固有缺陷。
图2 Agent4SC整体框架
2. PEGS
我们设计了一个多模态共情响应生成框架
PEGS
,具有
PE
rceive 和
G
enerate
S
tickers 的能力。图3说明了我们框架的架构。根据不同的图像生成策略,我们基于该框架推导出了三个模型:PEGS-Ret/Gen/RAG,分别表示通过检索、生成和检索增强生成方法来得到图像回复。
图3 PEGS整体框架
3.多模态共情回复评价
LLM 能够像人类一样进行评分,为文本和表情包输出提供分数,从而实现全面的多模态评估系统。我们引入了三个基于 LLM 的指标:(1) 共情:我们通过模型的文本(Empathy-text,
EMP-txt
)和多模态(Empathy-multimodal,
EMP-mm
)回复来评估共情。(2)一致性:根据上下文,为文本和表情包回复分配一致性分数,简称
CON
。(3)排名:我们将不同模型的响应与同一上下文进行比较,根据质量、共情能力和一致性进行评估。
实验结果
表 1 报告了文本指标的结果,这些发现证实了PEGS框架在生成高质量和准确性的文本响应方面的有效性。
Model
BLEU-1/2/3/4
Dist-1/2/3
ROU_L.
MET.
CIDEr
BERTS.
Vicuna-text
0.44/0.30/0.22/0.17
0.879/0.994/0.999
0.31
0.37
0.39
0.878
Vicuna-tool
0.43/0.29/0.22/0.17
0.870/0.989/0.994
0.30
0.36
0.38
0.900
ChatGLM3-text
0.42/0.28/0.21/0.16
0.806/0.981/0.996
0.31
0.40
0.40
0.886
ChatGLM3-tool
0.36/0.22/0.16/0.11
0.859/0.992/0.998
0.26
0.34
0.20
0.899
PEGS-Ret
0.46/0.32/0.25/0.20
0.839/0.989/0.997
0.34
0.42
0.47
0.906
PEGS-RAG
0.46/0.32/0.25/0.20
0.839/0.989/0.997
0.34
0.42
0.47
0.906
PEGS-Gen
0.47/0.33/0.26/0.21
0.848/0.990/0.997
0.35
0.44
0.57
0.911
表1 PEGS和基线模型 生成文本质量结果
表 2 显示了多模态指标的结果,PEGS 在 f-MMr 方面表现出色,展示了其集成文本和贴纸的端到端结构,在多模态回复生成方面实现了高度一致性。
Model
Freq.
MMr.
f-MMr.
Vicuna-tool
0.141
0.725
0.602
ChatGLM3-tool
0.905
0.659
0.647
PEGS-Ret
0.850
0.674
0.653
PEGS-RAG
0.847
0.680
0.659
PEGS-Gen
0.811
0.672
0.647