专栏名称: 赛尔实验室
哈尔滨工业大学社会计算与信息检索研究中心
目录
相关文章推荐
OSC开源社区  ·  “革命性”「Safe ... ·  4 天前  
程序员小灰  ·  中国四大软件外包公司 ·  4 天前  
逸言  ·  我的领域驱动设计心学 ·  4 天前  
程序猿  ·  刚刚对面的程序员怼了产品经理 ·  1 周前  
51好读  ›  专栏  ›  赛尔实验室

哈工大SCIR 14篇长文被EMNLP 2024主会/Findings录用

赛尔实验室  · 公众号  · 程序员  · 2024-09-25 12:25

正文







EMNLP 2024(The 2024 Conference on Empirical Methods in Natural Language Processing)计划于2024年11月12日至11月16日在美国佛罗里达州迈阿密召开。EMNLP是自然语言处理领域顶级国际会议之一,CCF B类会议,其涉及领域包括但不限于机器翻译、文本生成、文本分类、信息抽取、问答系统、语言模型等研究方向。

哈尔滨工业大学社会计算与信息检索研究中心有14篇长文被录用,其中7篇被主会录用,7被Findings of EMNLP录用。下面是论文列表及介绍:

01

题目:Aligning Translation-Specific Understanding to General Understanding in Large Language Models
作者:黄毅翀,李宝航,冯骁骋,霍文帅,付成鹏,刘挺,秦兵
录用类别:Main, Long Paper
简介:大型语言模型(LLM)展现出卓越的复杂文本理解能力,具备实现人类级翻译性能的潜力。然而,本研究发现,LLM 在翻译任务中的特定理解与其在其他任务(如问答)中的通用理解存在不对齐现象。这种不对齐往往导致 LLM 在翻译时误解或直译一些它们在通用场景下能够正确理解的复杂概念。为了解决这一问题,我们提出了一种基于难译词理解对齐的翻译框架(DUAT),通过显式定位理解不一致的部分,并利用 LLM 的通用理解来指导翻译过程。DUAT 通过跨语言解析难译词汇,并将生成的解析用于增强翻译效果。此外,我们引入了外部工具,以提升 DUAT 在检测难译词和生成解析方面的能力。我们在自建的 Challenge-WMT 机器翻译评测集上进行了实验,该评测集包含了容易产生误译的样本。通过对高资源和低资源语言对的人工和自动化评价,结果显示 DUAT 显著改善了理解对齐,从而提高了翻译质量(COMET 提升高达 +3.85)并大幅减少了直译现象(降低 25%至51%)。

02

题目:Prove Your Point!: Bringing Proof-Enhancement Principles to Argumentative Essay Generation
作者:肖瑞宇,吴磊,勾宇航,张伟男,刘挺
录用类别:Main, Long Paper
简介:申论生成(AEG)旨在生成关于特定争议话题或辩论的完整文本。虽然目前的 AEG 方法可以生成单个观点,但往往忽略了这些观点之间的高层次联系。这往往导致生成的结果陷入逻辑混乱,无法有效证明自己的论点。生成的文本可能会提出与观点相矛盾的证据,也可能无法将观点组合成完整的逻辑链条。在本文中,我们提出了一个统一的两阶段框架:证明增强和自我注释(PESA)的统一框架,重点在于逻辑增强方法。具体来说,我们首先使用大型语言模型为逻辑信息、主张和理由构建伪标签。然后,我们提出一种树状规划方法,引入证明原则并确保逻辑一致性。广泛的实验结果表明,得益于证明原则的指导,PESA 生成的申论比强大的基准模型具有更好的逻辑有效性和说服力。

03

题目:Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training
作者:王一轩*,罗先镇*,魏福煊,刘议骏,朱庆福,张玄昱,杨青,许冬亮,车万翔
录用类别:MainLong Paper
简介:现有的推测解码方法通常需要额外的模型结构和后训练过程来辅助目标模型生成草稿令牌。这使得加速方法迁移到新模型的成本更高,并且对设备内存的需求也更大。为了解决这个问题,我们提出了Make Some Noise (MSN) 训练框架,作为一种大型语言模型监督微调(SFT)阶段的替代方法。该训练方法通过直接在输入中引入一些噪声令牌并引入因果去噪训练目标,使模型能够学习到去噪任务。这种训练目标能够在不影响模型原有任务能力的情况下,显著增强了模型的并行解码能力。此外,我们还提出了一种基于树的检索增强Jacobi (TR-Jacobi) 解码策略,以进一步提高MSN模型的推理速度。实验表明,在通用和代码领域中,MSN能够在不损害模型性能的情况下,将推理速度提高2.3到2.7倍。此外,MSN模型在Spec-Bench中也达到了与具有额外模型结构的SOTA方法相当的加速比。

04


题目:Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts
作者:罗先镇,朱庆福,张致铭,覃立波,张玄昱,杨青,许冬亮,车万翔
录用类别:MainLong Paper
简介:Program of Thoughts(PoT)用可执行的代码作为推理的中间步骤,可确保推理过程中逻辑计算的准确性。目前,PoT 主要使用 Python。然而,仅仅依赖一种语言可能会忽略其他编程语言的潜在优势,导致不是最优的解决方案。在本文中,我们对多种编程语言的PoT进行了全面实验,发现没有一种语言能在所有任务和模型中保持最佳性能。每种语言的效果都因具体场景而异。受此启发,我们提出了一种任务和模型无关的方法,称为 MultiPoT,它利用了各种语言的优势和多样性。实验结果表明,它的性能明显优于 Python Self-Consistency。此外,在几乎所有任务和所有模型中,它都取得了与最佳单语 PoT 相当或更优的性能。特别的,MultiPoT 在 ChatGPT(gpt-3.5-turbo-0701)上提高了超过 4.6% 。

05


题目:Advancing Large Language Model Attribution through Self-Improving
作者:黄磊,冯骁骋,马伟涛,赵亮,范瑀纯,钟蔚弘,许冬亮,杨青,刘洪涛,秦兵
录用类别:MainLong Paper
简介:教会大语言模型生成带有引用来源的回复可以有效减轻幻觉,并增强信息检索系统的可验证性。然而,提升这一能力依赖于高质量的引用数据,通常需要人工标注,成本高昂。为了解决这一问题,我们提出了START,一个用于迭代式自我提升大模型引用生成能力的框架。首先,为防止模型在初始阶段因缺乏有效监督信号而导致自我提升陷入停滞,START利用模型自行合成的监督数据进行预热。为进一步提升模型的引用生成能力,START利用其采样的回复构建细粒度的偏好信号,鼓励模型生成更鲁棒、全面且引用准确的回复。我们在涵盖长形式问答和多步推理的三个问答数据集上进行实验,结果表明START实现了平均27.87% 的显著性能提升,且无需依赖人类注释或更先进的模型。进一步的分析表明,START在聚合多源信息方面表现优异。

06


题目:Extending Context Window of Large Language Models from a Distributional Perspective
作者:吴英盛,顾宇轩,冯骁骋,钟蔚弘,许冬亮,杨青,刘洪涛,秦兵
录用类别:MainLong Paper
简介:通过放缩RoPE(Rotary Position Embedding)来扩长大模型上的上下文窗口已经成为一个较为通用的方法。然而,现存的方法往往基于经验,缺少对RoPE内在分布的理解,往往很难取得最优的结果。在本研究中,我们提出了一种从旋转角分布角度来放缩RoPE的方式。我们首先量化了RoPE中的旋转角分布,并分析在扩长上下文窗口时对这些分布造成的影响。接着,我们提出了一种新颖的放缩策略,通过最小化分布扰动的方式,来尽可能保持分布与预训练阶段一致,使模型更好地泛化到长序列上。相比于目前的基线方法,将LLaMA2的上下文窗口扩长到8k时我们最多能减少72%的扰动,扩展到16k最多能减少32%的扰动。在Longbench-E长文本基准上相比于目前最好的方法,我们能够取得4.33%的提升。在HuggingFace Open LLM基准上我们相比于原模型能够保持原有的性能,对原模型的平均影响在-0.12~+0.22之间。

07

题目:GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News Summarization
作者:叶扬帆,冯夏冲,冯骁骋,马伟涛,覃立波,许冬亮,杨青,刘洪涛,秦兵
录用类别:MainLong paper
简介:在当今全球化的背景下,新闻摘要面临多语言内容的洪流以及来自不同来源的多样化观点,这使得这一任务变得艰巨。然而,当前的研究往往忽视了这种现实场景,通常仅关注单一语言或单一文档的任务。为了弥合这一差距,我们旨在将多语言、跨语言和多文档摘要统一为一个新任务,即 MCMS(Multi-lingual, Cross-lingual, Multi-document Summarization),这一任务全面涵盖了现实世界中的需求。然而,缺乏一个标准数据集阻碍了研究人员对这一宝贵问题的充分研究。为了解决这一问题,我们精心构建了 GLOBESUMM 数据集,首先收集了大量多语言新闻报道,并将其重构为以事件为中心的格式。此外,我们引入了协议引导提示(protocol-guided prompting)的方法,以实现高质量且成本有效的参考标注。在 MCMS 任务中,我们不仅强调了新闻报道之间的冲突挑战,还指出了冗余和遗漏问题,从而进一步增加了 GLOBESUMM 的复杂性。通过广泛的实验分析,我们验证了数据集的质量并揭示了这一任务的内在挑战。我们坚信,GLOBESUMM 以其挑战性,将对多语言社区和大语言模型(LLM)的评估做出重要贡献。

08


题目:Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL
作者:王丁子睿、窦隆绪、张玄靓、朱庆福、车万翔
录用类别:FindingsLong paper
简介:在大语言模型(LLMs)中的上下文学习是当前主流的文本到SQL方法。以往研究探讨了从人工标注的示例池中选择相关示例,但这些方法缺乏多样性且标注成本高。为此,本文度量并增强了文本到SQL示例池的多样性。首先,我们引入了一个多样性度量,展示现有标注数据的多样性可以进一步提升。基于这一发现,我们提出了Fused,通过迭代融合示例来创建多样化的示例池,既可以基于人工标注,也可以完全通过LLMs生成,从而降低标注成本。实验表明,Fused在多个主流数据集上,相较于现有标注方法提升了3.2%,相较于零标注结果提升了5.0%,证明了其有效性。

09


题目:Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement
作者:冯云龙、滕德川、徐阳、徐啸、牟虹霖、覃立波、朱庆福、车万翔
录用类别:FindingsLong paper
简介:反编译将已编译的代码转化为高级编程语言进行分析,适用于无法获取源代码的情况。此前的研究主要通过增加模型参数或预训练数据的规模来提高反编译性能。基于反编译任务的特点,我们提出了两种方法:(1) 无需微调,自构上下文反编译(sc^2dec)方法通过重新编译大模型(LLM)的反编译结果,构建用于上下文学习的配对数据,帮助模型提升反编译性能。(2) 精细对齐增强(FAE)方法在微调阶段通过利用调试信息,在语句层面对汇编代码与源代码进行精确对齐,以进一步提升反编译性能。通过结合这两种方法,我们在Decompile-Eval基准测试中实现了约3.81%的可重执行性性能提升,并建立了52.41%的最优性能。

10


题目:Towards Benchmarking Situational Awareness of Large Language Models:Comprehensive Benchmark, Evaluation and Analysis
作者:唐果,初征,郑文翔,刘铭,秦兵
录用类别:FindingsLong paper
简介:态势感知是指感知和理解当前环境并预测未来事件的能力,这在辅助决策、预见潜在问题和适应动态变化中起着关键作用。然而,大型语言模型的态势感知能力尚未得到全面评估。为此,我们提出了SA-Bench,一个涵盖态势感知能力三个层次的综合基准,分别为环境感知、情境理解和未来预测。SA-Bench提供了一种全面的评估方法,以探索大型语言模型的态势感知能力。我们在包括GPT-4、LLaMA3、Qwen1.5等先进的大型语言模型上进行了广泛的实验。实验结果表明,即使是目前最先进的大型语言模型,其能力仍与人类存在显著差距。此外,我们还详细分析和考察了大型语言模型在各种任务中遇到的挑战,并强调了它们面临的不足之处。我们希望SA-Bench能促进态势感知领域的研究。

11


题目:Infrared-LLaVA: Enhancing Understanding of Infrared Images in Multi-Modal Large Language Models
作者:蒋世鑫,陈则睿,梁家锋,赵妍妍,刘铭,秦兵
录用类别:FindingsLong paper
简介:在多模态大模型领域,相比于让MLLM理解图像等通用视觉模态,增加MLLM对特殊模态的理解能力是一种挑战,由于其模态单一且数据量较少的稀疏原因。现有方法通常基于跨模态对齐模型的统一嵌入空间,利用丰富的图像数据实现对包括红外在内稀疏模态的理解,忽视了稀疏模态特有属性的监督信号,可能会导致模型对稀疏模态的理解存在偏差。为了解决这个问题,我们提出一个多智能体对抗生成系统,迁移可见光图像知识合成红外指令数据和红外文本对齐数据。并基于现有红外常见任务构建一个红外问答测试基准。在现有模型上的增量微调和我们基于红外数据从头训练的Infrared-LLaVA上的实验结果表明合成数据的有效性和合成思路的可行性。

12


题目:SecureSQL: Evaluating Data Leakage of Large Language Models as Natural Language Interfaces to Databases
作者:宋岩奇,刘睿珩,陈澍,任千昊,张宇,于泳琪
录用类别:FindingsLong paper
简介:随着大规模语言模型(LLMs)的迅速发展,LLMs 在自然语言数据库接口(NLIDBs)中的应用显示出巨大的潜力。然而,随之而来的安全性问题也日益引发关注,即 LLMs 在提升人类与数据库交互体验的同时,是否能够有效保护数据库中的隐私信息?为弥补现有研究的不足,我们提出了一个新的基准,用于评估 LLMs 在生成 SQL 查询时泄露敏感数据的潜在风险。该基准涵盖了来自医疗、法律、金融、政治等 34 个不同领域的 932 个样本。研究中,我们评估了来自六大 LLMs 家族的 15 个模型,结果显示表现最好的模型仅达到 61.7% 的准确率,而人工准确率高达 94%。多数模型的表现接近或低于随机选择的水平。此外,我们还评估了两种常见的攻击方法:提示注入攻击和推理攻击,并测试了一种基于链式思维(COT)提示的防御方法。实验结果表明,攻击方法对模型的影响显著,而 COT 提示的防御效果未能明显提高模型的准确率,这进一步凸显了 NLIDBs 中敏感数据泄露问题的严重性。我们希望本研究能够引发更多研究者对这一问题的关注和深入探讨。

13


题目:Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding
作者:赵亮,冯夏冲,冯骁骋,钟蔚弘,许冬亮,杨青,刘洪涛,秦兵,刘挺
录用类别:FindingsLong paper
简介:建立在Transformer基础上的大型语言模型(LLM)以其卓越的能力吸引了全世界的关注。然而,包括LLMs在内的所有基于 Transformer 的模型都受到预设长度的限制,很难从较短的训练序列泛化到较长的推理序列,即,无法进行长度外推。因此,出现了许多方法来增强Transformer的长度外推能力。尽管该领域的研究繁荣发展并取得了一系列突出成果,但仍然缺乏一份系统性的综述。为了填补这一空白并考虑到位置编码(PE)一直被认为是长度外推的关键因素,我们从位置编码的角度出发,用统一的符号深入分析这些研究进展。具体地说,我们首先介绍主导这一研究领域的可外推位置编码。进而,我们深入探讨了基于这些位置编码的外推方法,包括位置插值和随机位置方法。最后,我们强调了这一领域的若干挑战和未来发展方向。通过本综述,我们希望帮助读者深入了解现有的方法,并为未来的研究提供启发。

14


题目:CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models
作者:吕姚嘉,潘浩杰,汪泽堃,梁家锋,刘元兴,付瑞吉,刘铭,王仲远,秦兵
录用类别:Findings, Long paper
简介:近年来,随着大模型技术的发展,认知动态这一概念逐渐引起了大家的关注。所谓认知动态,指的是人类认知过程的演变,它对于推动人类对世界的理解至关重要。当前基于大语言模型(LLM)的认知研究虽展现了其在模拟人类认知方面的潜力,但大多数研究仅局限于特定情境下的认知复现,忽略了认知本质上是动态的。为了解决这一问题,我们开始探索大语言模型的认知动态,并设计了一个受到长期研究启发的全新任务。针对该任务,我们开发了CogBench,一个全新的基准测试,用于评估大语言模型的认知动态,并通过参与者调查验证了其有效性。我们还为CogBench设计了两个评估指标:真实性和合理性。鉴于大语言模型本质上的静态特征,我们进一步引入了CogGPT,一个具有创新性迭代认知机制的模型,旨在实现持续性的认知动态。实验证明,CogGPT在处理连续信息流和促进角色特定认知动态方面,表现优于现有的多种方法。


编辑:李宝航

初审:高建男、丁   效
复审:冯骁骋
终审:单既阳




哈尔滨工业大学社会计算与信息检索研究中心
理解语言,认知社会

以中文技术,助民族复兴