大模型日报（10月19-20日学术篇）

LLM SPACE · 公众号 · 科技创业科技自媒体 · 2024-10-20 22:41

正文

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

信号

Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines

大型语言模型（LLMs）在各种自然语言处理和推理任务中表现出卓越的能力。然而，他们在算术基础领域的表现仍然不尽如人意。在处理算术任务时，LLMs 经常记住特定示例，而不是学习底层的计算逻辑，这限制了他们推广到新问题的能力。在本文中，我们提出了一个可组合的算术执行框架（CAEF），它使 LLMs 能够通过模拟图灵机来学习执行分步计算，从而真正理解计算逻辑。此外，所提出的框架具有高度的可扩展性，允许组合学习到的运算符，以显著降低学习复杂运算符的难度。在我们的评估中，CAEF 在 LLaMA 3.1-8B 模型的 7 种常见数学运算中实现了近乎 100% 的准确率，有效地支持涉及最多 100 位操作数的计算，而 GPT-4o 在某些情况下明显不足。

https://arxiv.org/abs/2410.07896

Were RNNs All We Needed?

Transformers 在序列长度方面的可扩展性限制重新引起了人们对在训练期间可并行化的递归序列模型的兴趣。因此，已经提出了许多新颖的递归架构，例如 S4、Mamba 和 Aaren，它们实现了类似的性能。在这项工作中，我们重新审视了十多年前的传统递归神经网络（RNN）：LSTM （1997）和 GRU （2014）。虽然这些模型由于需要随时间反向传播（BPTT）而速度较慢，但我们表明，通过从其输入、忘记和更新门中删除其隐藏的状态依赖关系，LSTM 和 GRU 不再需要 BPTT，并且可以有效地并行训练。在此基础上，我们引入了最小版本（minLSTM 和 minGRU），它们（1）使用的参数比传统版本少得多，并且（2）在训练期间完全可并行化（长度为 512 的序列速度提高了 175 倍）。最后，我们表明这些十年前的 RNN 的精简版本与最近序列模型的经验性能相匹配。

https://arxiv.org/abs/2410.07896

Round and Round We Go! What makes Rotary Positional Encodings useful?

位置编码（PE）是基于 Transformer 的大型语言模型（LLMs，为注意力机制提供重要的序列位置信息。LLMs旋转位置编码（RoPE），它根据查询和键的相对距离轮换查询和键。一个普遍的看法是 RoPE 很有用，因为它有助于随着相对距离的增加而衰减代币依赖性。在这项工作中，我们认为这不太可能是核心原因。我们研究了经过训练的 Gemma 7B 模型的内部结构，以了解 RoPE 在机械层面上的使用方式。我们发现 Gemma 通过利用最高频率来学习使用 RoPE 来构建稳健的“位置”注意力模式。我们还发现，一般来说，Gemma 非常喜欢使用最低频率的 RoPE，我们怀疑它被用来携带语义信息。我们用数学方法证明了 RoPE 的有趣行为，并进行了实验来验证我们的发现，提出了对 RoPE 的修改，以解决一些突出的问题并提高性能。我们相信，这项工作代表了更好地理解 LLMs，我们认为这对于将 LLMs大尺寸和上下文长度具有关键价值。

https://arxiv.org/abs/2410.06205

Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces

在人类认知理论中，人类思维由两个系统支配：快速而直观的系统 1 和较慢但更具深思熟虑的系统 2。最近的研究表明，将系统 2 流程整合到 Transformer 中，包括大型语言模型（LLMs），可以显着增强它们的推理能力。然而，纯粹类似于系统 2 思维的模型需要更高的计算成本，并且响应速度要慢得多。为了应对这一挑战，我们提出了 Dualformer，这是一个无缝集成快速和慢速推理模式的单 Transformer 模型。Dualformer 是通过使用随机推理轨迹对数据进行训练而获得的，其中轨迹的不同部分在训练过程中被丢弃。丢弃策略是根据跟踪结构专门定制的，类似于分析我们的思维过程并创建带有模式的快捷方式。在推理时，我们的模型可以配置为仅输出解决方案（快速模式）或同时输出推理链和最终解决方案（慢速模式），或者自动决定使用哪种模式（自动模式）。在所有情况下，Dualformer 在性能和计算效率方面都优于相应的基线模型：（1）在慢速模式下，Dualformer 在 97.6% 的时间内以最佳方式解决了看不见的 30 x 30 迷宫导航任务，超过了 Searchformer（在具有完整推理轨迹的数据上训练）基线性能的 93.3%，而使用的推理步骤仅减少了 45.5%;（2）在快速模式下，Dualformer 以 80% 的最佳率完成这些任务，明显优于仅求解模型（在仅求解数据上训练），后者的最佳率仅为 30%。对于数学问题，我们的技术还通过 LLM提升，显示出其超越任务特定模型的泛化。

https://arxiv.org/abs/2410.07896

Round and Round We Go! What makes Rotary Positional Encodings useful?

强化学习（RL）在使大型语言模型（LLMs人类偏好保持一致并提高其执行复杂任务的能力方面发挥着至关重要的作用。然而，由于使用多个模型和广泛的在线采样进行训练（例如 PPO），当前的方法要么需要大量的计算资源，要么被定义为老虎机问题（例如 DPO、DRO），这些问题通常难以完成多步骤推理任务，例如数学问题解决和涉及长思维链的复杂推理。为了克服这些限制，我们引入了直接 Q 函数优化（DQO），它将响应生成过程表述为马尔可夫决策过程（MDP），并利用软行为者-批评者（SAC）框架来优化由语言模型直接参数化的 Q 函数。与基于老虎机的方法相比，DQO 的 MDP 配方具有结构优势，可实现更有效的过程监控。在两个数学问题解决数据集 GSM8K 和 MATH 上的实验结果表明，DQO 优于以前的方法，使其成为一种很有前途的离线强化学习方法，用于对齐语言模型。

https://arxiv.org/abs/2410.09302

Agent-as-a-Judge: Evaluate Agents with Agents

现代评估技术不足以用于代理系统。这些方法要么只关注最终结果——忽视了代理系统的循序渐进的性质，要么需要大量的体力劳动。为了解决这个问题，我们引入了 Agent-as-a-Judge 框架，其中代理系统用于评估代理系统。这是 LLM，结合了代理功能，可以为整个任务解决过程提供中间反馈。我们将 Agent-as-a-Judge 应用于代码生成任务。为了克服现有基准测试的问题并为代理作为裁判提供概念验证测试平台，我们提出了 DevAI，这是一个包含 55 个真实自动化 AI 开发任务的新基准测试。它包括丰富的手动注释，例如总共 365 个分层用户需求。我们使用 Agent-as-a-Judge 对三种流行的代理系统进行了基准测试，发现它的性能大大优于 LLMLLM-as-a-Judge，并且与我们的人工评估基线一样可靠。总而言之，我们相信 Agent-as-a-Judge 标志着现代代理系统向前迈出了坚实的一步 -- 通过提供丰富可靠的奖励信号，实现动态和可扩展的自我提升。

https://arxiv.org/abs/2410.08304

Global Lyapunov functions: a long-standing open problem in mathematics, with symbolic transformers

尽管语言模型取得了惊人的进步，但它们仍然难以完成复杂的推理任务，例如高等数学。我们考虑了数学中一个长期存在的悬而未决的问题：发现一个确保动力学系统全局稳定性的 Lyapunov 函数。此问题没有已知的通用解，算法求解器仅存在于一些小型多项式方程组中。我们提出了一种从随机解生成合成训练样本的新方法，并表明在此类数据集上训练的序列到序列转换器在多项式系统上的表现优于算法求解器和人类，并且可以发现非多项式系统的新 Lyapunov 函数。