专栏名称: AINLPer

一个专注自然语言处理（NLP）方向的公众号。机器学习（ML）、深度学习（DL）、自然语言处理相关模型理解、热门论文（Paper）分享分析、pytorch、C++、Python、Java ...

LLM每周速递！大模型最前沿：复杂推理大模型、多模态、长文本推理提升、智能体等

AINLPer · 公众号 · 科技自媒体 · 2024-11-24 22:14

正文

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

紧跟技术发展趋势，快速了解大模型最新动态。一周的时间又要结束，今天继续总结最近一周的研究动态，本片文章攻击梳理了10篇有关大模型(LLMs)的最新研究进展，其中主要涉及：复杂推理大模型「Marco-o1」、大模型长文本处理、大模型Agent、LLM训练成本降低、多模态大模型(当前热点)、手机大模型(BlueLM-V-3B)、「Attention加速」、图文感知等热门研究。

阿里国际|发布Marco-o1，复杂推理大幅提升

https://arxiv.org/pdf/2411.14405

尽管 o1 模型在 AIME 和 CodeForces 等测试中都展示了强大的推理能力，但 「Marco-o1 的目标是超越结构化挑战，实现跨多个领域的泛化」，特别是在那些没有严格评估指标的领域。简单来说，作者通过微调 Qwen2-7B-Instruct 与过滤后的 Open-o1 CoT 数据集、Marco-o1 CoT 数据集和 Marco-o1 指令数据集的组合，「Marco-o1 提高了对复杂任务的处理能力」。通过集成诸如思维链 (CoT) 微调、蒙特卡洛树搜索 (MCTS) 和推理动作策略等技术来实现的，Marco-o1 能够更有效地处理复杂的问题解决任务。

NUS|提出AnchorAttention，长文本处理提升

https://arxiv.org/pdf/2411.13476

解决BFloat16精度不足，提高长文本处理能力扩大上下文窗口有助于大型语言模型处理更长的文本和复杂任务。「旋转位置编码（RoPE）因其适合长上下文训练而流行，但在BFloat16格式下会出现数值问题，尤其在长文本中」。这个问题主要是由于BFloat16精度不足，随着文本长度增加而加剧，尤其是第一个词影响最大。为了解决这个问题，本文提出了「AnchorAttention」，这是一种可以「即插即用的注意力」方法，它减少了BFloat16的数值问题，提高了处理长文本的能力，并加快了训练速度。AnchorAttention通过将第一个词作为锚点，减少了不必要的计算，保持了语义连贯性，提高了效率。实验表明，AnchorAttention在长文本处理上表现更好，训练时间比传统方法缩短了一半以上，同时保持了模型在一般任务上的性能。

港大|提升LLM长文本推理

https://arxiv.org/pdf/2411.08147

大语言模型（LLMs）在处理长文本方面取得了进步，但在「长文本推理上还存在一定的挑战性」。目前的方法需要人工专家或高级模型（如GPT-4）标注的合成数据对LLMs进行微调，这限制了它们的发展。为此，「本文提出了SEALONG方法，即」对每个问题采样多个输出，使用最小贝叶斯风险（Minimum Bayes Risk）对它们进行评分，然后基于这些输出应用监督微调或偏好优化，进而「优化来提升LLMs的长文本推理能力」。实验显示，SEALONG有效，特别是在Llama-3.1-8B-Instruct模型上提升了4.2个百分点，并且比之前依赖人工或高级模型的方法表现更好。希望这项工作有利于推动LLMs在长文本处理上的自我提升。

夏大|降低LLM训练成本

https://arxiv.org/pdf/2410.04103

大语言模型（LLMs）需要定期更新以适应新数据，更新方式主要有两种：从头开始训练（PTFS）和持续预训练（CPT）。PTFS训练效果好，但成本高；CPT成本低，但效果稍逊，且两者差距随版本更新而增大。

本文作者研究CPT中学习率调整的影响，发现在CPT的两个阶段中，第一阶段使用大学习率和第二阶段学习率完全衰减对LLMs更新很关键。因此，提出了「一种新的学习率路径切换训练范式」，包括一个主路径和多个分支路径，分别用于LLMs的最大学习率预训练和新数据更新。实验证明，这种范式在保持训练效果的同时，能大幅降低训练成本，尤其是在训练多个版本的LLMs时。

Apple|MM1多模态模型系列

https://arxiv.org/pdf/2403.09611

本文作者重点研究了「如何构建高效的多模态大语言模型（MLLMs）」，并分析了不同架构和数据选择的重要性。作者发现，混合使用图像-字幕、交错图像-文本和仅文本数据对实现少样本学习的最佳效果至关重要。「图像编码器、分辨率和图像标记数量对模型性能影响很大」，而视觉-语言连接器的设计则不那么重要。基于这些发现，本文构建了MM1模型家族，包括高达30B参数的密集模型和高达64B参数的专家混合模型。这些模型在预训练和监督微调后都展现出了竞争力，特别是在上下文学习和多图像推理方面表现出色。

南大|区域感知文生图RAG

https://arxiv.org/pdf/2411.06558

在文生图领域，区域提示（Regional prompting）或组合生成（compositional generation）因其在实际应用中的高实用性，正受到越来越多的关注。然而，但现有方法要么依赖额外模块，仅限特定模型，要么在区域增加时控制力不足。为此，本文作者提出了一种基于区域描述的精确感知的生成方法——RAG（Regional-Aware text-to-image Generation）。RAG将多区域生成分解为两个子任务：「区域硬绑定（Regional Hard Binding）」，确保区域提示得到准确执行；以及「区域软优化（Regional Soft Refinement）」，消除视觉边界并增强相邻区域的交互。此外，RAG创新地支持重绘功能，使用户无需依赖额外的修复模型即可修改生成中不满意的特定区域，同时保持其他区域不变。定量和定性实验表明，RAG在属性绑定和对象关系上，相较于以往无需调优的方法表现更为出色。

1B多语言LLM：Xmodel-1.5

本文作者提出了一个新颖的十亿参数多语言大型模型：Xmodel-1.5，预训练于大约两万亿个词汇。该模型在多种语言中表现出强大的性能，特别是在泰语、阿拉伯语和法语上取得了显著的成果，「同时在中文和英文上也表现出了有效性」。此外，我们通过发布一个泰语评估数据集，为研究社区做出了贡献，该数据集包含了来自朱拉隆功大学综合创新学院学生标注的数百个问题。

VIVO|手机多模态大模型：BlueLM-V-3B

https://arxiv.org/pdf/2411.10640

当下，多模态大模型在手机应用的场景具有非常大的潜力。但是，由于「手机内存大小和计算能力的限制」，将MLLMs部署在手机上面临挑战，这使得在没有广泛优化的情况下难以实现流畅和实时处理。为此，本文作者提出了「BlueLM-V-3B，这是一种专为在移动平台上高效部署MLLMs而设计的算法和系统协同设计方法」。作者重新设计了主流MLLMs采用的动态分辨率方案，并实现了针对硬件感知部署的系统优化，以优化手机上的模型推理。BlueLM-V-3B具有以下三个主要亮点：（1）体积小：BlueLM-V-3B拥有一个具有27亿参数的语言模型和一个具有4亿参数的视觉编码器。（2）速度快：BlueLM-V-3B在MediaTek Dimensity 9300处理器上，通过4位LLM权重量化，实现了每秒24.4个token的生成速度。（3）性能强：BlueLM-V-3B在OpenCompass基准测试中，以66.1的高分位列4B参数以下模型中的最高平均分，并超越了一系列参数规模更大的模型。

JHU|Genex框架：提升Agent决策能力

https://arxiv.org/pdf/2411.11844

在具身人工智能领域，处理部分观察信息是一个主要难题。以往的研究通常通过让代理实际探索环境来更新对世界状态的理解。而「人类可以通过想象来探索未见的世界部分」，并据此更新认知，从而做出更明智的决策。为了模拟这种人类能力，本文作者提出了Genex框架，它可以「让Agent在心理上探索3D世界」，如城市场景，并获取想象的观察来更新其信念，以做出更好的决策。除此之外，作者还创建了Genex-DB数据集，并实验证明Genex能生成高质量的观察，并帮助决策模型做出更好的计划。简而言之，Genex通过心理模拟探索和想象观察，提升了代理的决策能力。

清华|SageAttention2，Attention再加速加倍！

https://arxiv.org/pdf/2411.10958

尽管量化技术在线性层中应用广泛，但在「加速注意力机制」方面仍有限。SageAttention通过8位和16位矩阵乘法及精度增强方法，实现了比FlashAttention2更高的准确度和2倍的速度提升。为进一步提高效率，本文作者又提出了SageAttention2，采用更快的4位矩阵乘法和额外的精度增强技术。具体来说，在warp级别对矩阵（Q，K）进行INT4量化，对矩阵（P，V）进行FP8量化，并通过平滑Q和V来提升注意力准确性。此外，本文还提出自适应量化方法，确保不同模型的端到端指标。「SageAttention2在RTX4090上的操作次数每秒（OPS）比FlashAttention2和xformers分别快3倍和5倍」。实验结果表明，该方法基本上没有指标损失。