哈工大SCIR 8篇长文被 COLING 2025录用

赛尔实验室 · 公众号 · 程序员 · 2024-12-09 15:07

主要观点总结

COLING 2025会议由国际计算语言学委员会（ICCL）组织，计划于2025年1月19日至1月24日在阿联酋阿布扎比的国家展览中心举行。哈尔滨工业大学社会计算与信息检索研究中心有8篇长文被COLING 2025录用。下面是论文列表及介绍。

关键观点总结

关键观点1: COLING 2025会议信息

该会议是国际计算语言学委员会（ICCL）组织的CCF B类国际会议，涉及文本推理、语言模型、视觉、高效NLP方法、语义解析等研究领域。

关键观点2: 录用的论文概览

哈尔滨工业大学社会计算与信息检索研究中心有8篇长文被COLING 2025录用，涵盖了大型语言模型的性能提升、细粒度归因推理数据集的制作、多步推理中的关系巩固等方面。

关键观点3: 具体论文介绍

包括关于text-to-SQL任务的多跳检索方法、MBTI人格检测数据集的制作与优化、大型语言模型在多项选择问题上的表现、细粒度归因推理的提炼方法、持续语义解析的适应性参数效率专家元学习等问题的研究。

正文

请到「今天看啥」查看全文

COLING 2025 是由国际计算语言学委员会（ICCL）组织的 CCF B类 国际会议。此次会议计划于2025年1月19日至1月24日在阿联酋阿布扎比的国家展览中心举行。该会议涉及领域包括但不限于文本推理、语言模型、视觉、高效NLP方法、语义解析等研究方向。

哈尔滨工业大学社会计算与信息检索研究中心有 8 篇长文被 COLING 2025 录用 。下面是论文列表及介绍：

题目： MURRE: Multi-Hop Table Retrieval with Removal for Open-Domain Text-to-SQL

作者： 张玄靓，王丁子睿，窦隆绪，朱庆福，车万翔

录用类别： COLING 2025

简介： 开放域text-to-SQL的任务旨在从海量数据库中检索与问题相关的表格并生成SQL语句。然而，当前方法的性能受到单跳检索的限制，并且现有的开放域问题回答中的多跳检索并不直接适用，因为其倾向于检索到与已检索到的表格相似但与问题无关的表格。由于text-to-SQL的问题通常包含所有必需的信息，而先前的多跳检索则通过检索到的文档来补充问题。鉴于此，我们提出了带移除机制的多跳表格检索方法（MURRE），该方法将之前检索到的信息从问题中移除，以引导检索器指向未被检索过的相关表格。我们在两个开放域text-to-SQL的数据集上的实验表明，与之前的最先进结果相比，该方法平均提升了5.7%。

题目： Can Large Language Models Understand You Better? An MBTI Personality Detection Dataset Aligned with Population Traits

作者： 李博涵，管健男，窦隆绪，冯云龙，王丁子睿，徐阳，王恩博，陈麒光，王毕陈，徐啸，章倚萌，覃立波，赵妍妍，朱庆福，车万翔

录用类别： COLING 2025

简介： 迈尔斯-布里格斯类型指标（MBTI）是反映个体在思考、感受和行为上差异最有影响力的个性理论之一。MBTI人格检测已经引起了相当大的研究兴趣，并在过去几年中有了显著的发展。然而，这项任务往往过于乐观，因为它目前与人口个性特征的自然分布并不十分吻合。具体来说，（1）现有数据集中的自我报告标签导致了错误的标签问题，以及（2）硬标签无法捕捉到人口个性分布的全部范围。在本文中，我们通过构建我们的数据集，即第一个在心理学家指导下手动标注的高质量软标签MBTI人格检测数据集，来优化这项任务。对于第一个挑战，我们的数据集有效地解决了错误标签问题，这些问题占数据的29.58%。对于第二个挑战，我们通过推导样本的极性倾向来估计软标签。标注的软标签证实，有更多的人拥有非极端的个性特征。实验结果不仅突出了LLMs（大型语言模型）中两极化的预测和偏见作为未来研究的关键方向，而且还证实了软标签相比硬标签可以为其他心理任务提供更多的益处。

题目： LLMs May Perform MCQA by Selecting the Least Incorrect Option

作者： 王昊淳，赵森栋，强泽文，席奴瓦，秦兵，刘挺

录用类别： COLING 2025

简介： 大语言模型尽管已在多项评测中表现十分亮眼，对其能力的综合评估仍然是一个不小的挑战。近来，大模型评价大多基于多项选择问答题，但这种评估方法的鲁棒性仍然十分令人担忧。在前人关于大模型在多项选择问题选择一致性的研究基础上，我们揭示了其中可能隐含的另一问题，即大模型在做多项问答题时，可能仅仅是选择了“最正确”的选项而非是唯一正确的选项，换言之，大模型可能在做对选择题的同时，认为其未选择的选项也是正确的，因此尽管大模型可在多项问答形式的评测中表现出很高的性能与很强的选择一致性，但并不能保证其在其他语境下的泛化。

题目： Towards Faithful Multi-step Reasoning through Fine-Grained Causal-aware Attribution Reasoning Distillation

作者： 初征，陈靖昌，王钟杰，唐果，陈强龙，刘铭，秦兵

录用类别： COLING 2025

简介： 尽管大型语言模型展示了显著的推理能力，但其巨大的计算开销限制了实际应用。为此，一些研究通过思维链将多步推理能力提炼到更小的模型中。然而，思维链推理中的推理步骤间的依赖关系不总是清晰，可能导致推理不一致。本文提出细粒度归因推理提炼，通过引入基于引用的归因来巩固推理步骤间的关系。具体来说，我们从大语言模型中提炼归因推理理由，替代思维链推理，明确步骤间的依赖关系。此外，利用推理步骤间的因果依赖关系规范模型注意力模式，增强推理一致性。与此同时，归因推理还提高了可解释性和可验证性，促进可信推理。

题目： Discarding the Crutches: Adaptive Parameter-Efficient Expert Meta-Learning for Continual Semantic Parsing

作者： 刘睿珩，张金宇，宋岩奇，张宇

录用类别： COLING 2025

简介： 持续语义解析旨在通过有限的标注样本，使语义解析器能够不断适应数据库动态更新，从而实现可持续演进。传统的研究通常依赖于重放历史数据，但这会引发隐私泄露和存储限制等担忧。近年来，基于参数高效微调(PET)的无重放持续学习方法逐渐受到关注。然而，现有方法往往依赖理想设置和初始任务数据，牺牲了模型的泛化能力，限制其在实际场景中的应用。为了解决这些问题，本文提出一种新的自适应PET专家元学习架构。首先，该架构利用SQL语法指导LLM自适应预热，以获得良好的初始化。然后，引入一个动态扩展的专家池持续积累任务流中遇到的新知识，并通过建模专家与实例之间的关系，促进知识的灵活运用。最后，基于样本历史可见性设计一种动态推理策略，促进不同专家之间的高效协作。在两个基准上的实验表明，本文方法在无需数据重放或理想设置的情况下，取得了显著的性能提升，能够有效应对冷启动场景，并推广至未见过的任务，甚至超越了性能上限。

题目： Unveiling Entity-Level Unlearning for Large Language Models: A Comprehensive Analysis

作者： 马伟涛，冯骁骋，钟蔚弘，黄磊，叶扬帆，冯夏冲，秦兵

录用类别： COLING 2025

简介： 大语言模型遗忘学习技术因其在解决安全和隐私问题上的潜力，受到越来越多的研究人员的关注。然而，目前的大模型遗忘学习研究大多聚焦在实例级，尤其是对目标模型中预定义包含敏感内容的样例进行移除。暂未有研究深入探讨对于实体级内容的遗忘，然而这在版权保护等现实场景下尤为重要。为此，我们提出了一项新任务——实体级遗忘，旨在从目标模型中彻底抹除与特定实体相关的知识。我们系统性地评估了当前主流遗忘学习算法在该任务上的表现，结果表明，现有方法难以有效实现实体级遗忘。在此基础上，我们进一步分析了影响算法遗忘性能的关键因素，发现所构建遗忘集的知识覆盖范围和规模是决定性因素。此外，我们的研究还表明，通过微调引入的实体比预训练阶段引入的实体更容易受到遗忘学习算法的影响。最后，我们希望这些发现能为未来大模型的实体级遗忘研究提供有益见解和帮助。

题目： CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information

作者： 王禹鑫，马明华，汪泽堃，陈靖昌，单黎平，杨青，许冬亮，刘铭，秦兵

录用类别： COLING 2025

简介： 大型语言模型（LLM）的庞大参数量和高计算开销为其实际应用带来了挑战。剪枝通过删除冗余参数，生成非结构化或结构化的稀疏性，近年来成为加速 LLM 的重要方法。目前的 LLM 剪枝研究主要集中在非结构化剪枝，其通常需要特殊硬件支持才能实现性能加速。相比之下，结构化剪枝可以在通用设备上有效减少延迟。然而，在高稀疏率的情况下，如何高效执行结构化剪枝并保持模型性能仍是一个难题。为了解决这一问题，我们提出了一种名为 CFSP（Coarse-to-Fine Structured Pruning）的高效结构化剪枝框架。该框架利用粗粒度（块间）和细粒度（块内）的激活信息，作为指导剪枝的重要依据。CFSP 的剪枝过程非常高效，仅需一次前向传递即可计算特征激活。具体而言，我们首先根据块的重要性在块之间分配稀疏预算，然后在每个块内保留关键权重。此外，我们设计了一种恢复微调策略，通过基于粗粒度重要性的自适应训练开销分配，进一步提升模型性能。实验结果表明，CFSP 在多种稀疏预算和模型设置下，均显著优于现有方法，展现了强大的性能优势。

题目： GraCoRe: Benchmarking Graph Comprehension and Complex Reasoning in Large Language Models

作者： 袁梓珂，刘铭，王晖，秦兵

录用类别： COLING 2025

简介： 评估大型语言模型 (LLM) 的图形理解和推理能力具有挑战性，而且现有的评估并不全面。现有的基准测试主要侧重于纯图形理解，缺乏对所有图形类型的全面评估和详细的能力定义。本文介绍了 Gra CoRe，这是一个系统评估 LLM 图形理解和推理能力的基准测试。GraCoRe 使用三层分层分类法对纯图形和异构图形上的模型进行分类和测试，将能力细分为 10 个不同的领域，通过 19 个任务进行测试。我们的基准测试包括 11 个数据集，其中包含 5,140 个复杂程度不同的图形。我们评估了4个闭源和8个开源 LLM，从能力和任务的角度进行了彻底的分析。分析表明，OpenAI o1 模型具有惊人的理解和推理能力。并且图语义丰富能够增强模型的推理性能、节点排序能够影响模型的判断能力，而模型的长文本能力不一定会提高图形理解或推理能力。GraCoRe https://github.com/ZIKEYUAN/GraCoRe开源。

编辑：孙洲浩

初审：高建男、丁效

复审：冯骁骋

终审：单既阳

哈尔滨工业大学社会计算与信息检索研究中心

理解语言，认知社会

以中文技术，助民族复兴