专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

Big Model Weekly | 第32期

AI TIME 论道 · 公众号 · · 2024-08-03 10:00

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope

最大支持的上下文长度是限制大型语言模型（LLM）实际应用的一个关键瓶颈。尽管现有的长度扩展方法可以将LLMs的上下文扩展到数百万令牌，但这些方法都有明确的上限。这项工作提出了LongCache，这是一种无需训练的方法，它通过全上下文缓存选择和无需训练的集成，使LLM能够支持无限上下文，但具有有限的上下文范围。这有效地使LLM摆脱了长度扩展问题。作者在LongBench和L-Eval上验证了LongCache，并展示了其性能与传统的全注意力机制相当。此外，本文已经将LongCache应用于主流LLMs，包括LLaMA3和Mistral-v0.3，使它们能够在“海中寻针”测试中支持至少400K的上下文长度。作者表示很快将通过GPU感知优化提高LongCache的效率。

文章链接：

https://arxiv.org/pdf/2407.15176

RazorAttention: Efficient KV Cache Compression Through Retrieval Heads

键值（KV）缓存的内存和计算需求对于部署长上下文语言模型提出了重大挑战。以往的方法尝试通过选择性丢弃令牌来缓解这个问题，这会不可逆转地擦除未来查询可能需要的关键信息。本文提出了一种新颖的KV缓存压缩技术，该技术保留了所有令牌信息。调查揭示了：i) 大多数注意力头主要关注局部上下文；ii) 只有少数头，被称为检索头，基本上可以关注所有输入令牌。这些关键观察结果激励作者为注意力头使用单独的缓存策略。因此，本文提出了RazorAttention，这是一种无需训练的KV缓存压缩算法，它为这些关键的检索头维护完整缓存，并在非检索头中丢弃远程令牌。此外，本文引入了一种涉及“补偿令牌”的新颖机制，以进一步恢复被丢弃令牌中的信息。在多种大型语言模型（LLMs）上的广泛评估表明，RazorAttention在不显著影响性能的情况下，实现了KV缓存大小超过70%的减少。此外，RazorAttention与FlashAttention兼容，使其成为一种高效且即插即用的解决方案，无需额外开销或重新训练原始模型，就能提高LLM推理效率。

文章链接：

https://arxiv.org/pdf/2407.15891

TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data

指令调整在NLP领域取得了前所未有的成功，将大型语言模型转变为多功能聊天机器人。然而，指令数据集的日益增多和多样化对计算资源提出了巨大需求。为了解决这个问题，提取一个小型且信息量高的子集（即核心集）以实现与完整数据集相当的性能至关重要。实现这一目标面临着非平凡的挑战：1) 数据选择需要准确的数据表示，以反映训练样本的质量；2) 考虑到指令数据集的多样性；3) 确保核心集选择算法对于大型模型的效率。为了应对这些挑战，本文提出了任务不可知梯度聚类核心集选择（TAGCOS）。具体来说，本文利用样本梯度作为数据表示，执行聚类以分组相似数据，并应用高效的贪婪算法进行核心集选择。实验结果表明，该算法仅选择5%的数据，在其他无监督方法中脱颖而出，并实现了接近完整数据集的性能。

文章链接：

https://arxiv.org/pdf/2407.15235

MINI-SEQUENCE TRANSFORMER: Optimizing Intermediate Memory for Long Sequences Training

本文介绍了小型序列变换器（MST），这是一种简单而有效的方法，用于在极长序列上进行高度高效和准确的LLM训练。MST将输入序列分区，并迭代处理小序列以减少中间内存使用。结合激活重计算，它在前向和后向传递中都能实现显著的内存节省。在Llama3-8B模型的实验中，由于内存优化，即使使用比标准实现长12倍的序列，作者测量到吞吐量或收敛性没有下降。MST是完全通用的，与实现无关，并且只需要最小的代码更改即可与现有的LLM训练框架集成。

文章链接：

https://arxiv.org/pdf/2407.15892

Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data

尽管大型语言模型（LLMs）在现实世界应用中已经证明了其效用，但人们对于它们如何利用大规模预训练文本语料库来实现这些能力仍然缺乏了解。这项工作通过对他们的预训练数据进行全面的n-gram分析，研究了大规模预训练LLMs中泛化和记忆之间的相互作用。文中的实验集中在三种通用任务类型：翻译、问答和多项选择推理。使用各种大小的开源LLMs及其预训练语料库，作者观察到随着模型大小的增加，与任务相关的n-gram对数据变得越来越重要，这导致了任务性能的提高、记忆的减少、泛化的增强和能力的出现。实验结果支持了这样的假设：LLMs的能力来自于足够的与任务相关的预训练数据中记忆和泛化之间微妙的平衡，并且为更大规模的分析指明了方向，这些分析可以进一步提高对这些模型的理解。

文章链接：

https://arxiv.org/pdf/2407.14985

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

本文介绍了ChatQA 2，这是一个基于Llama3的模型，旨在弥合开放获取的大型语言模型（LLMs）与领先的专有模型（例如GPT-4-Turbo）在长上下文理解和增强检索生成（RAG）能力方面的差距。这两种能力对于LLMs处理无法适应单个提示的大量信息至关重要，并且它们互补，取决于下游任务和计算预算。作者提出了一个详细的继续训练方法，将Llama3-70B-base的上下文窗口从8K扩展到128Ktokens，并结合了一个三阶段的指令调整过程，以增强模型的指令遵循、RAG性能和长上下文理解能力。结果表明，Llama3-ChatQA-2-70B模型在许多长上下文理解任务上的准确性与GPT-4-Turbo2024-0409相当，并在RAG基准测试中超越了它。有趣的是，作者发现长上下文检索器可以缓解RAG中的top-k上下文碎片化问题，进一步提高基于RAG的长上下文理解任务的结果。本文还提供了使用最先进长上下文LLMs的RAG和长上下文解决方案之间的广泛比较。

Big Model Weekly | 第32期

正文

请到「今天看啥」查看全文