哈工大SCIR 9篇论文被 NeurIPS 2024录用

赛尔实验室 · 公众号 · 程序员 · 2024-09-29 10:09

正文

神经信息处理系统大会（Conference on Neural Information Processing Systems，简称 NeurIPS）是机器学习领域最权威的会议之一，与 ICML、ICLR 并列为机器学习三大顶级会议，也是中国计算机学会推荐的 A 类会议。今年的会议 NeurIPS 2024 将于 12 月 9 日至 15 日在加拿大温哥华的 Vancouver Convention Center 举行，大会总共收到了 15671 篇有效投稿，最终录用率为 25.8%。哈尔滨工业大学社会计算与信息检索研究中心有9篇论文被录用，其中2篇被接收为oral，1篇被接收为spotlight，其余6篇为常规长文。

题目：Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation

作者：陈靖昌，唐泓煊，初征，陈强龙，汪泽堃，刘铭，秦兵

录用类别：NeurIPS 2024, Oral

简介：大型语言模型（LLM）在代码生成方面取得了显著进展，但它们在处理具有复杂需求的程序时仍面临挑战。近期的研究尝试通过“规划与求解”（Plan-and-Solve）的分解策略以降低复杂性，并利用自测机制不断优化生成的代码。然而，提前规划复杂需求可能非常困难，同时生成的自测需要非常准确才能实现自我改进。针对这一问题，我们提出了 FunCoder，一个结合了分治（divide-and-conquer）策略和功能共识（functional consensus）的代码生成框架。具体而言，FunCoder 在代码生成过程中递归地将子函数分解为较小的目标，并用树状层次结构加以表示。这些子函数随后会组合在一起，以解决更为复杂的任务。此外，我们通过识别程序行为的相似性来形成共识函数，从而降低错误传播的风险。在 HumanEval、MBPP、xCodeEval 和 MATH 测试中，FunCoder 在 GPT-3.5 和 GPT-4 上相较于现有方法平均性能提升了 9.8%。不仅如此，FunCoder 在较小的模型上同样展现了出色的表现：借助 FunCoder，StableCode-3b 在 HumanEval 测试中的性能超越了 GPT-3.5（提升了 18.6%），并达到了 GPT-4 性能的 97.7%。进一步分析表明，我们提出的动态函数分解方法能够有效应对复杂需求，且功能共识在正确性评估方面优于自测机制。

题目：Unlocking the Boundaries of Thought: A Reasoning Granularity Framework to Quantify and Optimize Chain-of-Thought

作者：陈麒光，覃立波，王家琪，周璟轩，车万翔

录用类别：NeurIPS 2024, Oral

简介：近年来，思路链 (CoT) 推理逐渐成为一种非常流行的技术，用以显著提升大语言模型 (LLM) 在复杂推理任务中的表现。尽管这一方法取得了广泛关注，但对其机制的系统性理解仍然不足。为此，近年来涌现出一系列研究，试图深入探讨 CoT 背后的工作原理，以期进一步提高其有效性。然而，这些研究普遍面临两大核心挑战：（1）缺乏能够定量评估 CoT 推理能力的有效指标，和（2）无法系统地为优化 CoT 性能提供明确的指导。

为了应对这些挑战，我们提出了一种新颖的基于推理粒度 (RG) 的机理框架。首先，为了解决量化评估不足的问题，我们定义了如何计算推理粒度 (RG)的方法，以此量化 CoT 推理过程的理论上界。进一步地，我们通过建立不同能力的推理粒度间的“组合定律”来构建一套能够适用于多种现实任务的定量评估方法。其次，针对优化不足的问题，我们将推理粒度划分为三类，并基于组合定律提出优化策略，以改进不同推理任务中的 CoT 性能。通过推理路径的优化和对问题的推理粒度提升，我们能够在不同任务背景下提高推理的准确性和效率。我们对 25 个语言模型和 4 类典型推理任务进行了广泛的实验，实验结果验证了所提出框架的有效性和合理性。此外，本文还基于我们的机理框架详细分析了 10 种 CoT 策略的为什么能够有效，并从推理路径优化和推理粒度提升两个角度为后续研究提供了优化建议。我们希望这项工作能够为 LLM 中推理能力的边界探索及其优化策略提供更全面的理论支持和实践指导。

题目：Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration

作者：黄毅翀，冯骁骋，李宝航，相洋，王晖，刘挺，秦兵

录用类别：NeurIPS 2024, Spotlight

简介：大型语言模型（LLMs）在不同任务、领域、场景中表现各有所长，这使得如何挖掘不同大模型之间的互补优势（即，集成学习）以实现协作效应成了具有重要研究价值的科学问题。然而，现有的工作主要集中在训练额外的奖励模型或融合模型来选择或组合所有候选答案，这对分布外数据上的泛化能力提出了巨大挑战。此外，先前的方法使用文本作为交流媒介，忽略了内部表示中丰富的“暗信息”。在这项工作中，我们提出了一个无需训练的异构大模型集成学习框架 DeePEn，在每个解码步骤融合不同 LLM 产生的概率分布。但是由于异构 LLM 之间的词汇差异导致的标记不对齐，无法通过对分布求平均来进行聚合。为了解决这一挑战，DeePEn 根据相对表示理论，将每个模型的概率分布从其自身的概率空间映射到一个通用的相对空间，并进行聚合。最后，我们设计了一个基于搜索的逆变换策略，将相对空间中的聚合结果转换回其中一个 LLM（主模型）的概率空间，以确定下一步的输出词（token）。我们在不同数量的 LLM 集成、具有不同架构的 LLM 集成，以及通用LLM 与专家模型之间的集成上进行了广泛的实验。实验结果表明：（i）DeePEn 在涵盖学科考试、推理和知识的六个基准上实现了一致的改进；（ii）性能良好的专家模型也可以通过分布融合从专业性能较弱的 LLM 中受益；（iii）DeePEn 与其他集成学习方法（如投票）具有组合优势。

题目：Discrete Modeling via Boundary Conditional Diffusion Processes

作者：顾宇轩，冯骁骋，黄磊，吴英盛，周泽焜，钟蔚弘，朱坤，秦兵

录用类别：NeurIPS 2024，Poster

简介：我们提出了一个可以高效地将连续扩散过程推广到离散建模上的新颖框架。我们的研究表明，离散数据和连续建模目标之间差异会导致扩散模型学习得到的概率密度与离散区域不匹配。为了解决这个问题，我们提出了一个以离散边界为先验约束的两阶段前向过程，首先估计离散边界的先验分布，然后重新调整前向轨迹以构建基于边界条件的扩散模型。逆向过程则根据前向过程的变化进行相应调整，以确保扩散模型学习到的概率密度函数能产生更精确的离散数据。实验结果表明，我们的方法在常用的语言建模生成和离散编码的图像生成任务中都取得了出色的表现，为现有的连续扩散模型在离散建模任务上带来了有效的性能提升，同时与自回归建模相比也表现出一定的竞争力。

题目：Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance

作者：熊凯，丁效，刘挺，秦兵，许冬亮，杨青，刘洪涛，曹艺馨

录用类别：NeurIPS 2024，Poster

简介：大语言模型（LLMs）在各种推理场景中表现出令人印象深刻的性能和较强的可解释性，标志着向模拟类人智能迈出了重要的一步。当面对被一个通用事实支持的几个简单问题时，LLMs 往往难以抽象并应用通用事实来提供一致且准确的答案，这暴露了它们在抽象推理能力方面的不足。这引发了关于 LLMs 是否真正具备推理能力，还是仅仅依赖记忆的激烈讨论。为此，我们设计了一项初步研究，以量化并深入探讨现有 LLMs 的抽象推理能力。我们的研究结果显示，LLMs在通用推理与抽象推理表现之间普遍存在显著差距。为了缓解这个问题，我们定制了一个抽象推理数据集（AbsR），并设计了一种有效的学习范式（Meaningful Learning），旨在教会 LLMs 如何下意识地利用通用事实进行推理。实验结果表明，我们的方法不仅提升了LLMs的通用推理能力，还在提高它们的抽象推理方面取得了显著进展，使其从简单的记忆或模仿逐步迈向对通用事实的更深入理解和应用。

题目：How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers

作者：陆鑫，赵妍妍，秦兵，霍亮宇，杨青，许冬亮

录用类别：NeurIPS 2024，Poster

简介：预训练语言模型已被证明具有强大的基础能力，不仅在分布内语言建模中表现出色，而且在分布外语言建模、迁移学习和少样本学习中也展现出强大的能力。不同于已有工作关注规模对基础能力的影响，我们重点关注架构对基础能力的影响。具体来说，我们关注：架构是如何影响预训练语言模型的基础能力的？在本工作中，我们试图解释并逆转由宽FFN Transformer架构导致的基础能力下降，寻求提供一些见解。通过分析，我们发现多头注意力（一种组合函数）的贡献比例是影响预训练语言模型基础能力的关键因素。宽FFN Transformer减少了这种组合函数的贡献比例，从而导致基础能力的下降。我们通过实验验证了这一点，并提出了组合增强架构（CEA）来解决此类模型基础能力下降的问题。重要的是，我们将相关解释和CEA扩展到了混合专家（MoE）Transformer。我们成功地在一个14B参数的MoE模型上实现了基础能力的显著提升，证明了我们工作的实际应用价值。这也表明我们的工作对于架构分析、架构改进和架构设计等方面具有一定的意义。

题目：OneBit: Towards Extremely Low-bit Large Language Models

作者：徐玉庄，韩旭，杨宗瀚，王硕，朱庆福，刘知远，刘卫东，车万翔

录用类别：NeurIPS 2024，Poster

简介：虽然大模型在种种自然语言处理任务上有突出的表现，但高昂的部署代价极大提升了它的使用门槛。现有的量化、剪枝等方法尝试对大模型进行压缩，进而减少其空间占用和计算量。为了探索大模型的极限压缩并为端侧部署大模型创造更多可能性，本文提出大模型1bit极限压缩框架OneBit，首次实现大模型权重压缩超越90%并保留大部分能力。OneBit框架总体上可以包括：全新设计的1bit模型结构、基于原模型初始化量化模型参数的方法以及基于知识蒸馏的深度能力迁移。这种全新设计的1bit模型结构能够有效克服以往量化工作在1bit量化时严重的精度损失问题，并且在训练、迁移过程中表现出出色的稳定性。量化模型的初始化方法能为知识蒸馏设置更好的起点，加速收敛的同时获得更加的能力迁移效果。在各种大小和系列的模型上进行的广泛实验表明，OneBit在代表性的强基线上具有明显的优势，并实现了模型大小与性能之间的良好折中。此外，我们进一步分析了这种极低比特量化模型的能力和前景，并为未来的研究提供了指导。

题目：What Factors Affect Multi-modal In-Context Learning? An In-Depth Exploration

作者：覃立波*，陈麒光* , 费豪，陈志，李敏，车万翔

录用类别：NeurIPS 2024，Poster

简介：

最近，多模态上下文学习 (MM-ICL) 的快速发展取得了显著的成功，它能够在各种跨模态任务中实现卓越的性能而无需额外的参数调整。然而，MM-ICL 有效性的根本原因和核心机制仍未得到充分探索。为了填补这一空白，这项工作旨在研究以下问题：“哪些因素影响 MM-ICL 的性能？”为此，我们使用 6 个视觉大型语言模型和 20 种策略对 MM-ICL 的三个核心步骤（包括示例检索、示例排序和提示构建）进行了广泛的实验。我们的研究结果表明：(1)多模态检索器对于广泛的跨模态示例检索往往是必要的，但仍存在逻辑缺陷；(2)示例内跨模态的顺序比示例间顺序更加重要；(3)通过在提示开头插入全局的介绍性说明，比其他指令提示能够更好地增强任务理解。最后，我们希望这项研究可以作为未来研究中优化 MM-ICL 策略的基础指南。

题目：MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability

作者：杜晏睿，赵森栋，赵丹杨，马铭，陈雨晗，霍亮宇，杨青，许冬亮，秦兵

录用类别：NeurIPS 2024，Poster

简介：随着大语言模型应用的深入，模型安全性引起了广泛关注。尽管通过在训练阶段采用对齐机制（如RLHF）能显著提升模型的安全性，但随着越狱攻击的出现，RLHF后的模型仍然面临安全风险。近期的研究开发了一些防御策略，如检测模型输入和输出的有害性、通过重构解码空间提高模型拒绝恶意令牌的概率等。这些策略在模型安全性上取得了显著进展，然而却往往忽视了模型的可用性。我们的研究表明，之前的防御策略常常导致模型采取拒绝立场，从而拒绝一些良性指令，降低用户体验。因此，如何在保证模型可用性的前提下提升安全性成为一项重要挑战。为应对这一挑战，我们提出了Mix of Gladresp和Unwillresp（MoGU）框架，这是Mix-of-Experts（MoE）架构在安全场景下的首次应用。MoGU框架首先将通过训练基本的大语言模型转换为两个变体：可用的LLM（Gladresp）和安全的LLM（Unwillresp）。在此基础上，我们进一步训练了一个Router（路由器）以平衡这两个变体的贡献。当遇到恶意指令时，Router会给安全LLM分配更高的权重，确保响应的无害性；而对于良性指令，Router则优先考虑可用的LLM，以促进有用的响应。此外，在解码过程中，我们考虑推理效率，仅使用MoGU框架解码前m个令牌。实验结果显示，在面对各种红队测试和越狱攻击方法时，我们的框架显著提升了模型的安全性。同时，我们的策略几乎不对模型的可用性造成负面影响，相比之下，我们注意到之前的防御策略通常无法有效平衡安全性与可用性。值得强调的是，在训练阶段，MoGU仅使用了600条指令数据（300条良性指令和300条恶意指令），其中的恶意指令均为普通的恶意指令并明确排除各种越狱攻击模板的存在。尽管如此，我们的框架在应对多种越狱攻击方法时仍展现出显著的提升，充分体现了其泛化能力。当前，我们已开源论文中主实验所使用的Llama2、Vicuna和Falcon模型的参数以及推理代码（https://github.com/DYR1/MoGU）。未来，我们将进一步将MoGU框架应用于其他主流模型并进行开源。

编辑：李宝航

初审：高建男、丁效

复审：冯骁骋

终审：单既阳

哈尔滨工业大学社会计算与信息检索研究中心

理解语言，认知社会

以中文技术，助民族复兴