专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

大模型时代的对话分析：阿里最新综述全面解析对话分析的必要性

PaperWeekly · 公众号 · 科研 · 2024-10-22 12:36

正文

背景

随着大语言模型的发展，下一代系统交互朝着基于自然语言对话交互（LanguageUI）高速发展，这将会产生大量的自然语言交互日志，对这些对话日志进行提取、总结、分析、推理，将会带来如等系统优化、客户运营、需求洞察等大量的新应用。

对话分析（Conversation Analysis, CA）旨在从对话（如人人、人机、机器与机器以及多方会话）中识别关键信息，挖掘潜在原因，并制定解决方案以持续推动相关能力的提升，高效促进商业目标（例如提升客户体验、降低投诉率）的达成，简化人工流程、辅助商业洞察与决策过程。

小模型时代 vs. 大模型时代

小模型只能做到扁平、浅显的分析，如情感、意图分类；大模型由于其丰富的世界知识，其分析可以是多方面的、深层次的，使从 What 到 Why 再到 How 的全方位分析过程成为可能，更接近真实业务需求。但目前对话分析仍然面临严峻挑战：

定义：学术上没有系统的对话分析技术定义，导致对话分析的目标以及技术点相对分散。
数据：缺少包含完整对话要素的对话分析数据，导致难以精准建模、评测。
建模：区别于扁平的文本/文档，对话固有的多轮、语境依赖、隐含模糊性、口语化等性质，导致其需要更深层次的建模。
应用：大部分研究仍停留在浅层扁平的分析结果，如情感、立场、摘要等，与真实业务需求具有较大差距。

然而，目前并没有对话分析相关的技术性 survey 去整合归纳这些独立的研究，以及讨论大模型时代背景下的对话分析研究重点，从而难以真正形成技术合力来赋能商业应用。

论文标题：

The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends

论文作者：

张兴华，余海洋，李永彬，王民政，陈龙泽，黄非

论文链接：

https://arxiv.org/abs/2409.14195

任务定义

对话分析旨在从对话（如人人、人机、机器与机器以及多方对话）中挖掘关键信息，找出潜在原因，并制定解决方案以持续推动相关能力提升，从而更有效地实现商业目标，例如提升客户体验、降低投诉率。本文围绕对话分析的目标，将对话分析过程分为四个步骤：

1. 场景重建：任务旨在从对话内容中获取其中的场景要素，如对话的参与者、情景（如情感、意图、环境等），该过程以对话作为输入，重建其客观存在的要素。

2. 因果分析：任务寻求深入探究对话场景要素背后的线索，如对话参与者态度转变的原因，并从多通对话中进行归纳总结，该过程以对话和场景要素为输入，更精准地提炼出影响场景要素的因素。

3. 技能提升：任务力求根据归因结果朝着实现目标的方向优化整个系统；如果对话的参与者是人（例如客服），相关部门可以基于归因反馈进行针对性的培训；如果对话的参与者是 AI，算法专家基于归因结果进行模型基础能力的专项调优。该过程基于对话内容、场景要素以及归因结果进行建模，得到初步调优后的 insights（如场景要素设定、模型的长上下文遵循、情感支撑能力）。

4. 对话生成：任务旨在收集人在能力提升后产生的真实对话数据，或者 AI 基于调优的设定生成对话，如角色扮演技术，以为对话分析提供数据并检验目标的达成情况。

综合来看，场景重建是基础、因果分析是核心、技能提升是关键、对话生成是直观表现。同时，整个对话分析过程可以形式化为 Multi-Action RL 问题，State 为对话数据，Action 和 Policy 网络为场景重建、因果分析、技能提升一系列子 Action 及建模方法，对话生成为 Transition，Reward 围绕对话分析的整体目标计算（如提升用户满意度）。

对话分析分类体系

场景重建：现有工作大都从对话中挖掘人物、情景（话题、情感、摘要等）、策略。
因果分析：深入挖掘对话要素潜在的诱发因素/原因，包括对话中的归因建模，如对话常识推理中的解释生成、诱发言论识别、因果情感蕴含。
技能提升：基于归因结果，进行人员培训或 AI Prompt 自动优化以及对话一致性、情感支撑等模型能力的专项调优。
对话生成：主要分为设定遵循（如角色扮演），以及对话的引导生成。
目标导向的优化：开放域对话、任务型对话以及对话推荐中均有目标导向的建模研究，然而现有研究中的目标相对浅显、缺乏普适性，只关注某通对话中的特定目标，而对话分析中目标导向的优化旨在分析具有代表性、建设性的信息，以提高整体系统目标的达成，而这些目标通常是抽象、宏大的。

基准及评估

尽管具有许多相关的 benchmark，但往往只包含对话内容，缺乏详细的对话场景要素，如参与者属性、情景、策略和目标，影响全方位深入的对话建模分析。

讨论

5.1 研究趋势

从任务形式来看，从人工拆解严格定义任务形式到指令式的语言交互，任务形式更加灵活，需要模型拥有更强的指令遵循能力。
从任务深度来看，从浅层的字符重构到深层次的隐式语义重构，需要模型更能读懂言外之意。
从建模方式来看，从旁观学习的第三视角到交互式模拟建模的第一视角，需要模型泛化迁移性、演绎推理能力更强。

5.2 未来方向

LLM Conversation Simulator：模拟过程使模型置身于对话场景中，从而增强其沉浸度，促进深入分析。因此，如何模拟真实的对话场景值得探索。
Fine-Grained Conversation Benchmark：构建包含全面、细粒度的对话场景要素的对话分析数据，促进对话分析的评估和建模。因此，学界和业界迫切需要高质量、全面的对话分析基准。
Long-Context Conversation Modeling：对话中上下文回复的依赖性和不一致性等，使对话中的长文本研究与长文档具有不同的特性。
In-Depth Conversation Reasoning & Attribution：小模型时代进行深入的归因探索极具挑战性，而大模型因其有效的指令追随能力和丰富的世界知识为深入分析带来曙光。
Goal-Directed Conversation Optimization & Evaluation：真实的业务目标往往非常复杂和抽象，例如改善客户体验和提高用户利用率，这对模型的归纳和演绎能力提出了更高的要求。
Cross-Session Conversation KV Cache：不同用户的对话内容并不是完全孤立的，有许多类似的话题，高效重用跨对话 KV Cache 并有效存储不同类型用户的对话历史缓存将是提高对话系统效率和降低成本的关键。
Conversation Security：对抗场景下的对话分析符合真实的应用场景，系统违规信息的发现与抵制监管行为的进化，为对话分析带来挑战。