Transformer²: Self-Adaptive LLMs-20250123141623_黄建同学的专栏文章_微信文章

Transformer²: Self-Adaptive LLMs （自适应大语言模型） - Sakana AI

研究提出了一种自适应的机器学习系统 Transformer²。该系统通过两步流程实现动态调整：首先分析任务需求，随后针对性地调整模型权重，从而生成最优结果。相比传统静态方法（如LoRA），Transformer²不仅提升了效率，还显著增强了在数学、编程、推理及视觉理解等任务中的表现，同时参数量需求更少。

Transformer² 的关键是利用奇异值分解（SVD）和强化学习（RL）构建动态调整机制：

1. 奇异值分解（SVD）：像分析人类大脑一样，SVD将模型权重矩阵分解为多个独立“组件”（如数学、语言等），使其在不同任务中表现更好。

2. 任务定制化调优（SVF）：通过RL训练，每个任务学习到一个对应的 z 向量（类似“调节器”），精确控制每个组件对任务表现的影响。例如，数学任务可能更依赖某些特定组件，而语言任务则依赖其他组件。

3. 推理阶段的双重适应：在推理过程中，Transformer² 会识别任务类型，并动态组合多个 z 向量，生成最适合的响应。

论文提出了三种任务适应方法：

1. 基于提示（Prompt-based adaptation）：通过设计特定提示分类任务类型，并选择相应 z 向量。

2. 基于分类器（Classifier-based adaptation）：利用任务分类器识别任务并选取适配 z 向量。

3. 少样本适应（Few-shot adaptation）：结合多个 z 向量，通过少样本评估优化组合权重，实现精准适配。

Transformer² 展现了“动态调整”的巨大潜力，为构建能持续学习和进化的“智能系统”提供了可能。

访问：sakana.ai/transformer-squared/
论文：arxiv.org/abs/2501.06252
项目：github.com/SakanaAI/self-adaptive-llms

#ai创造营# #科技# #ai#

Transformer²: Self-Adaptive LLMs-20250123141623

正文

2025-01-23 14:16
本条微博链接

请到「今天看啥」查看全文