专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
目录
51好读  ›  专栏  ›  AI TIME 论道

ACL 2024 | STICKERCONV:从零开始生成多模态共情反应

AI TIME 论道  · 公众号  ·  · 2024-07-25 18:20

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

ACL 2024

计算语言学协会(Association for Computational Linguistics,简称 ACL)是研究涉及人类语言的计算问题(通常称为计算语言学或自然语言处理(NLP))的首要国际科学和专业协会。计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics)为该组织的旗舰会议,是自然语言处理与计算语言学领域 最高级别 的学术会议之一,是 CCF A 类推荐会议。第62届计算语言学协会年会(ACL 2024)将于2024年8月11日至16日在泰国曼谷举行。

题目: STICKERCONV: Generating Multimodal Empathetic Responses from Scratch

  • 作者: 张逸群 1* ,孔繁恒 1* ,王培东 1* ,孙爽 1 ,王凌帅 1 ,冯时 1@ ,王大玲 1 ,张一飞 1 ,宋凯嵩 2
  • 类型: Long Paper, Main Conference
  • 单位: 1 东北大学, 2 阿里巴巴集团
  • 说明: * 同等贡献, @ 通信作者
  • 论文链接:https://arxiv.org/abs/2402.01679
  • 项目仓库:https://github.com/ZhangYiqun018/StickerConv
  • 项目主页:https://neu-datamining.github.io/StickerConv/
  • 数据集:https://huggingface.co/datasets/NEUDM/StickerConv

摘要

表情包虽然被广泛认为可以增强在线互动中的共情交流,但在当前的共情对话研究中仍未得到充分探索,这主要是由于缺乏全面的数据集。在本文中,我们介绍了 STICKERCONV 智能体 Agent4SC ),它使用协作智能体交互来真实模拟人类使用表情包的行为,从而增强多模态共情交流。在此基础上,我们开发了多模态共情对话数据集 STICKERCONV ,其中包括 12.9K 段对话、5.8K 个不重复的表情包和 2K 个不同的对话场景,其中一段对话示例如图1所示。该数据集是多模态共情生成的基准。进一步,我们提出了 PE rceive and G enerate S tickers( PEGS ), 一种多模态共情回复生成框架,并辅以一套基于 大语言模型(LLM) 的综合共情评价指标。我们的实验证明, PEGS 能够有效生成与语境相关并能引起情感共鸣的多模态共情回复,从而有助于开发更细致入微、更引人入胜的共情对话系统。

图1 STICKERCONV中的多模态对话的例子, 人工智能助手与用户进行共情对话

主要工作

1. Agent for STICKERCONV

为了解决现有问题,我们引入了 Agent for STICKERCONV ( Agent4SC ),这是一个基于 LLM 的多智能体系统,旨在模仿人类的对话模式。 Agent4SC 的框架如图2所示 ,通过整合多个模块和表情包的策略性使用, Agent4SC 旨在产生情感和多样化的共情回复,从而克服 LLM 在共情能力方面的固有缺陷。

图2 Agent4SC整体框架

2. PEGS

我们设计了一个多模态共情响应生成框架 PEGS ,具有 PE rceive 和 G enerate S tickers 的能力。图3说明了我们框架的架构。根据不同的图像生成策略,我们基于该框架推导出了三个模型:PEGS-Ret/Gen/RAG,分别表示通过检索、生成和检索增强生成方法来得到图像回复。

图3 PEGS整体框架

3.多模态共情回复评价

LLM 能够像人类一样进行评分,为文本和表情包输出提供分数,从而实现全面的多模态评估系统。我们引入了三个基于 LLM 的指标:(1) 共情:我们通过模型的文本(Empathy-text, EMP-txt )和多模态(Empathy-multimodal, EMP-mm )回复来评估共情。(2)一致性:根据上下文,为文本和表情包回复分配一致性分数,简称 CON 。(3)排名:我们将不同模型的响应与同一上下文进行比较,根据质量、共情能力和一致性进行评估。

实验结果

表 1 报告了文本指标的结果,这些发现证实了PEGS框架在生成高质量和准确性的文本响应方面的有效性。

Model BLEU-1/2/3/4 Dist-1/2/3 ROU_L. MET. CIDEr BERTS.
Vicuna-text 0.44/0.30/0.22/0.17 0.879/0.994/0.999 0.31 0.37 0.39 0.878
Vicuna-tool 0.43/0.29/0.22/0.17 0.870/0.989/0.994 0.30 0.36 0.38 0.900
ChatGLM3-text 0.42/0.28/0.21/0.16 0.806/0.981/0.996 0.31 0.40 0.40 0.886
ChatGLM3-tool 0.36/0.22/0.16/0.11 0.859/0.992/0.998 0.26 0.34 0.20 0.899
PEGS-Ret 0.46/0.32/0.25/0.20 0.839/0.989/0.997 0.34 0.42 0.47 0.906
PEGS-RAG 0.46/0.32/0.25/0.20 0.839/0.989/0.997 0.34 0.42 0.47 0.906
PEGS-Gen 0.47/0.33/0.26/0.21 0.848/0.990/0.997 0.35 0.44 0.57 0.911
表1 PEGS和基线模型 生成文本质量结果

表 2 显示了多模态指标的结果,PEGS 在 f-MMr 方面表现出色,展示了其集成文本和贴纸的端到端结构,在多模态回复生成方面实现了高度一致性。
Model Freq. MMr. f-MMr.
Vicuna-tool 0.141 0.725 0.602
ChatGLM3-tool 0.905 0.659 0.647
PEGS-Ret 0.850 0.674 0.653
PEGS-RAG 0.847 0.680 0.659
PEGS-Gen 0.811 0.672 0.647






请到「今天看啥」查看全文