专栏名称: AI前线

InfoQ十年沉淀，为千万技术人打造的专属AI公众号。追踪技术新趋势，跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。

日本 AI 公司发布自适应大模型，可动态调整其权重以完成各种任务

AI前线 · 公众号 · AI · 2025-02-07 13:43

主要观点总结

本文介绍了自适应人工智能系统Transformer²的概念、研究背景、主要成果和未来展望。该系统可以动态调整其权重以完成各种任务，体现了自适应人工智能的愿景。文章还介绍了奇异值分解（SVD）、奇异值微调（SVF）和强化学习在自适应人工智能中的应用。

关键观点总结

关键观点1: Transformer²系统的研究背景

随着人工智能的快速发展，自适应人工智能系统的研究成为热点。Transformer²系统能够动态调整其权重以适应各种任务，是自适应人工智能领域的重要突破。

关键观点2: Transformer²系统的核心特点

Transformer²系统通过动态调整模型权重，实现了对多种任务的自适应。它采用奇异值分解（SVD）和奇异值微调（SVF）等技术，结合强化学习进行训练，提高了模型的适应性和性能。

关键观点3: Transformer²系统的应用

Transformer²系统在各种任务（如数学、编码、推理和视觉理解）上表现出了显著的进步，优于传统的静态方法。它的自适应能力使得人工智能模型能够在面对复杂任务时动态扩展计算能力，体现了智能系统的潜力。

关键观点4: Transformer²系统的未来展望

Transformer²系统代表了人工智能系统发展的重要里程碑。它开启了自适应人工智能的新时代，使得人工智能系统能够像人类一样不断学习和适应新的挑战。未来，自适应人工智能系统将更加高效、个性化和集成化，推动各个行业和日常生活的进步。

正文

作者 | Sakana AI

译者 | 刘雅梦

策划 | 褚杏娟

适应性是自然界最引人注目的现象之一。从章鱼改变皮肤颜色以融入周围环境的方式，到人类大脑在受伤后如何自我重塑，使个体能够恢复失去的功能并适应新的思维或运动方式。生物体表现出适应性，使生命能够在多样化和不断变化的环境中蓬勃发展。

在人工智能领域，适应性的概念具有类似的吸引力。想象一下，一个机器学习系统可以动态调整自己的权重，以便在不熟悉的环境中茁壮成长，这本质上说明了系统在学习过程中不断地进化了。人工智能的自适应性能力有望提高效率，并有可能使终身模型与现实世界的动态特性保持一致。

这种自适应人工智能的愿景是我们最新研究论文Transformer²（“Transformer 的平方”）的核心，在该论文中，我们提出了一种机器学习系统，可以动态调整其权重以完成各种任务。Transformer²这个名字反映了它有两个步骤的过程：首先，模型分析传入的任务以了解其要求，然后应用特定于任务的调整来生成最佳结果。通过有选择地调整模型权重的关键组件，我们的框架允许 LLM 实时动态地适应新任务。Transformer²在各种任务（如数学、编码、推理和视觉理解）方面表现出了显著的进步，在效率和任务特定性能方面优于 LoRA 等传统静态方法，同时需要的参数要少得多。

我们的研究让我们看到了未来人工智能模型不再是静态的。这些系统将在测试时动态扩展其计算能力，以适应它们遇到的复杂任务，体现出能够持续变化和终身学习的生命智能。我们相信，自适应性不仅会改变人工智能研究，还会重新定义我们与智能系统的互动方式，创造一个适应性和智能并驾齐驱的世界。

Transformer²是一个机器学习系统，可以动态调整其权重以适应各种任务。适应性是一种非凡的自然现象，就像章鱼如何将其颜色与环境融为一体，或者大脑在受伤后如何自我重塑一样。我们相信，我们的新系统为新一代自适应人工智能模型铺平了道路，这些模型可以修改它们自身的权重和架构，以适应它们遇到的任务性质，体现出了能够持续变化和终身学习的生命智能。

LLM 大脑剖析

就像人类大脑通过相互连接的神经通路存储知识和处理信息一样，LLM 将知识存储在其权重矩阵中。这些矩阵是 LLM 的“大脑”，掌握着它从训练数据中学到的知识的精髓。

了解这个“大脑”并确保它能够有效地适应新任务，需要仔细研究它的内部结构。这就是为奇异值分解（Singular Value Decomposition，SVD）提供了用武之地。将 SVD 想象成一名外科医生对 LLM 的大脑进行详细的手术。这位外科医生将 LLM 中存储的庞大而复杂的知识分解为更小、有意义和独立的部分（例如，数学、语言理解等的不同途径或组成部分）。

SVD 通过识别 LLM 权重矩阵的关键组件来实现这一目的。在我们的研究中，我们发现增强某些组件子集的信号，同时抑制其他组件，可以提高 LLM 在下游任务中的性能。在此基础上，Transformer²朝着动态、特定于任务的自适应迈出了新的一步，使 LLM 能够在各种复杂的场景中脱颖而出。

Transformer²介绍

Transformer²是一种新颖的方法，它开创了自适应 LLM 这一概念，它有一个两步流程，该流程重新定义了这些强大的模型是如何处理不同任务的。其核心是能够动态调整其权重矩阵的关键组件。在训练时，我们引入了奇异值微调（Singular Value Finetuning，SVF），这是一种采用强化学习（RL）来增强 / 抑制来自不同“大脑”组件信号以用于各种类型下游任务的方法。在推理时，我们采用了三种不同的策略来检测任务的身份，并相应地调整模型的权重。下图概述了我们的方法。

我们的方法说明。

左图：我们使用 SVD 将 LLM 的“大脑”（即权重矩阵）分解为几个独立的组件。

右图：我们使用强化学习来训练这些组件的组合，以完成各种任务。组件可以在不同的任务之间共享。例如，在上图中，紫色齿轮被语言理解和推理所共享。在推理时，我们识别任务类型，然后动态调整组件的组合。_

SVF 和 RL 训练

在训练时，SVF 学习一组 z 向量，每个下游任务一个 z 向量。每个 z 向量都可以被视为某项任务的专家，它是一个紧凑的表示，指定了权重矩阵中每个分量的期望强度，充当一组“放大器”或“阻尼器”，以调节不同组件对模型行为的影响。

例如，假设 SVD 将权重矩阵分解为五个分量[A、B、C、D、E]。对于数学任务，学习到的 z 向量可能是[1，0.8，0，0.3，0.5]，这意味着分量 A 对数学至关重要，而分量 C 几乎不会影响其性能。对于语言理解任务，z 向量可能是[0.1，0.3，1，0.7，0.5]，这强调了分量 C 对于这项任务是至关重要的，尽管它对数学的用处不大。

SVF 使用强化学习在一组预定义的下游任务上学习这些 z 向量。学习到的 z 向量使 Transformer²能够适应各种新的下游任务，同时仅引入最少数量的附加参数（即 z 向量）。

自适应

在推理时，我们为我们的框架设计了一种两轮自适应的策略，该策略有效地组合了一组特定于任务的 z 向量。在第一次推理过程中，给定一个任务或单个输入提示，Transformer²使用下面三种自适应方法中的一种来分析其测试的时间条件。在第二次推理中，Transformer²通过组合 z 向量来相应地调整权重，从而产生与其新设置最相关的最终响应。

我们将任务检测 / 自适应的三种方法总结如下：

基于提示（Prompt-based）的自适应 。一个专门设计的适应提示（Prompt）对任务进行分类（例如数学、编码），并选择一个预先训练的 z 向量。
基于分类器（Classifier-based）的自适应 。使用 SVF 训练的任务分类器在推理过程中识别任务并选择适当的 z 向量。
小样本（Few-shot）自适应 。通过加权插值组合多个预训练的 z 向量。一种简单的优化算法根据在少数样本评估集上的表现来调整这些权重。

这三种方法共同确保了 Transformer²能实现稳健而高效的任务自适应，从而为在不同场景下实现卓越的性能铺平了道路。详情请参阅我们的论文。

主要成果

我们将我们的方法应用于 Llama 和 Mistral LLM 的广泛任务上，包括数学（GSM8K、math）、代码（MBPP-Pro、HumanEval）、推理（ARC-Easy、ARC-Challenge）和视觉问答（TextVQA、OKVQA）。

我们首先着手通过 SVF 在这些任务中获取 z 向量，并将其与 LoRA 进行比较。下表中的结果表明，SVF 在基于文本的任务上的表现优于 LoRA，在 GSM8K 上表现尤为突出。这可以归因于我们的强化学习训练目标，与 LoRA 的微调方法不同，它不需要为每个问题提供“完美的解决方案”。右侧的直方图也说明了 SVF 在视觉领域的惊人能力。

在广泛任务对 SVF 的评估。

我们将每个任务分为训练集、验证集和测试集。我们使用 MBPP-Pro 的 pass@1 和所有其他任务的准确性作为评估指标来报告测试集性能。左图：语言任务上的 SVF。归一化分数在括号中。右图：VQA 任务上的 SVF。_

然后，我们针对 LoRA 在未见过的任务上（特别是 MATH、HumanEval 和 ARC-Challenge）评估我们的自适应框架。下面的左表表明，随着所有任务中方法复杂性的增加，我们的策略实现了越来越多的性能提升。

一个特别有趣的发现来自分析小样本学习如何结合不同的 z 向量来解决任务，如右图所示。在解决 MATH 问题时，与预期相反，该模型并不完全依赖于其 GSM8K（数学）专用的 z 向量。这表明，复杂的数学推理受益于数学、程序和逻辑推理能力的结合。我们在其他任务和模型中观察到了类似的意外组合，突出了该框架综合各种不同类型专业知识以实现最佳性能的能力。

Transformer²的评估。

我们直接报告测试集在未见过任务上的性能。左表：在未见过任务上的自适应。右图：学习到的 z 向量插值权重。

最后，我们探讨了一个有趣的问题，它挑战了人工智能开发中的传统观点：我们能否将知识从一个模型转移到另一个模型？令我们兴奋的是，当将学习到的 z 向量从 Llama 转移到 Mistral 时，我们观察到了积极的影响，后者在大多数任务中表现出了更好的性能。详细结果见下表。

虽然这些发现很有希望，但我们应该注意到，这两种模型都具有相似的架构，这可能解释了它们的兼容性。这种知识共享是否适用于更多样化的人工智能模型仍是一个悬而未决的问题。尽管如此，这些结果表明，为新的 / 更大的模型打开解开和回收特定于任务的技能的大门提供了令人兴奋的可能性。

跨模型 z 向量转移。

将接受过 Llama3-8B-Instruct 训练的“专家”转移到 Mistral-7B-Instruct-v0.3 上，并进行少量适应的结果。

未来：从静态模型到生命智能

Transformer²代表了人工智能系统发展的一个重要里程碑。它能够通过增强的组合性实时动态自适应未知任务，这表明了自适应 LLM 在彻底改变人工智能研究和应用方面的潜力。

但这仅仅是个开始。Transformer²让我们得以一窥未来，人工智能系统不再是为固定任务训练的静态实体。相反，它们将体现“生命智能”，即随着时间的推移不断学习、进化和适应的模型。想象一下，一个人工智能能够无缝整合新知识或在现实世界环境中调整其行为，而无需再训练，就像人类如何适应新的挑战一样。

前进的道路在于构建能够动态适应且与其他系统协作的模型，结合专业能力来解决复杂的多领域问题。像 Transformer²这样的自适应系统弥合了静态人工智能和生命智能之间的差距，为高效、个性化和完全集成的人工智能工具铺平了道路，这些工具推动了各个行业和我们日常生活的进步。

原文链接：

https://sakana.ai/transformer-squared/

声明：本文为 InfoQ 翻译，未经许可禁止转载。

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下，变革与机遇交织，挑战与突破共生。2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将在北京召开，以 “智能融合，引领未来” 为年度主题，汇聚各领域的技术先行者以及创新实践者，为行业发展拨云见日。现在报名可以享受 8 折优惠，单张门票立省 1360 元，详情可联系票务经理 18514549229 咨询。