将开源模型合并成新模型，Sakana.ai帮企业低成本获取自有模型｜AlphaFounders

阿尔法公社 · 公众号 · · 2024-04-11 18:00

正文

不需要预训练就能获得新的基础模型？这是Sakana.ai最新发布的技术，他们使用“进化模型合并”算法（Evolutionary Model Merge），开发具有特定能力的基础模型，免除了从头预训练基础模型的巨大计算成本。

Sakana.ai由前谷歌研究人员David Ha、Llion Jones （Transformer论文作者之一）联合创立，目前它已获得Lux Capital领投，Khosla Ventures 参与的3000万美元种子轮融资，日本的NTT集团、KDDI CVC和索尼集团；个人天使投资人Jeff Dean、Clem Delangue（Hugging Face创始人）和Alex Wang（Scale AI创始人），以及包括500 Global、Miyako Capital、Basis Set Ventures、JAFCO、July Fund、Geodesic Capital和Learn Capital在内的其他知名全球公司也参与了投资。

Sakana.ai能将开源社区的模型博采众长，使用创新方法低成本生成新的模型，对于AI开源生态的繁荣，对于中小企业AI创业，都有积极的意义。

如果您对人工智能的新浪潮有兴趣，有见解，有创业意愿，欢迎扫码添加“阿尔法小助理”，备注您的“姓名+职位”，与我们深度连接。

Transformer论文作者用创新方法改变AI模型范式

Transformer论文的作者们几乎都已创业，而且创业的方向各不相同，有情感聊天机器人，生物医药AI和企业级AI Agent等。

David Ha、Llion Jones （Transformer论文作者之一）联合创立的Sakana.ai则十分有特点，它致力于基础模型，却不是从头按照传统方法预训练基础模型。

现在Scaling Law是AI模型训练的主流思想：模型越大越好，数据越多越好。但这同时就代表着巨量的算力成本，而Sakana.ai则反其道而行之，他们的方法几乎不需要花费算力成本，就能获得高性能的模型。

除了David Ha、Llion Jones，Sakana.ai的核心团队主要由来自Google Brain, Google DeepMind，Stability AI等头部的AI研究机构，其中包括多位亚裔，他们致力于建立一个世界级的 AI 实验室。

Sakana的名字来源于日语单词さかな（sa-ka-na），意为鱼。Sakana.ai希望在研究中利用来自自然的想法，如进化和集体智能，这也充满了东方智慧。

Lux Capital的Managing Partner Josh Wolfe表示：“在AI领域，每个人都在追逐昨天的Transformer架构，并试图推动Scaling Law的边界。我们在Sakana.ai团队正在开发的受进化和复杂适应系统启发的新基础模型中找到新的目标。”

Khosla Ventures的创始人Vinod Khosla则表示：“大多数国家都希望拥有自己的本土基础模型，这既是出于国家安全的考虑，也是为了更好地与地区方言、文化和价值观进行互动。此外，人工智能人才在全球范围内分布，而且对于像Sakana.ai这样的世界级项目，部署这些人才的需求并不缺乏。”

无需预训练，用“进化模型合并”方法生成新的高性能模型

Sakana.ai的核心研究焦点在于应用受自然启发的思想，如进化和集体智能，以创建新的基础模型。

对于集体智能，Sakana.ai认为人工智能将遵循与人类的集体智能类似的集体路径，未来的AI不会由一个单一的、巨大的、全知的AI系统组成（他们需要巨大的能源来训练、运行和维护），而是由大量小型AI系统组成，每个系统都有自己的利基和专长，相互作用，开发新的AI系统以填补特定的利基。

目前他们看到的是开源AI生态系统中的趋势，开源基础模型容易被扩展和微调成数百个不同的方向，以产生在各自利基中表现出色的新模型。Open LLM排行榜上表现最好的模型不再是原始的开源基础模型，如LLaMA或Mistral，而是现有模型的微调或合并。

对于进化，Sakana.ai发布了《模型合并配方的进化与优化》报告，进化模型合并是一种通用方法，使用进化技术有效地发现将不同模型从巨量的开源模型中以多样化能力组合起来的最佳方式。目前，Hugging Face拥有超过500k个模型，涵盖数十种不同的模态，原则上可以组合成具有新能力的新模型。

具体来说，进化模型合并结合了两种不同的方法：（1）在数据流空间（层）中合并模型，和（2）在参数空间（权重）中合并模型。

在数据流空间（层）中合并模型

第一种方法是使用进化来发现不同模型的层的最佳组合，以生成一个新模型。

在模型合并社区中，直觉和启发式方法被用来确定一个模型的哪些层如何与另一个模型的层结合。但可以看到，这个问题有一个组合上非常大的搜索空间，最适合由进化这样的优化算法来搜索。以下是这种方法的一个例子：

在参数空间（权重）中合并模型

第二种方法是进化出混合多个模型权重的新方法。有无数种方法可以混合不同模型的权重以形成一个新模型，并且每一层的混合都可以原则上使用不同的混合比例。这就是进化方法可以有效地找到新的混合策略来组合多个模型的权重的地方。

以下是混合两个不同模型权重的示意图：

数据流空间和参数空间的方法也可以结合在一起，以进化出可能需要特定架构创新才能被进化发现的新基础模型：

在数据流空间和参数空间中合并模型

用以上进化模型合并方法，Sakana.ai推出了3个基础模型：

大型语言模型（EvoLLM-JP）
视觉语言模型（EvoVLM-JP）
图像生成模型（EvoSDXL-JP）

EvoLLM-JP

将开源模型合并成新模型，Sakana.ai帮企业低成本获取自有模型｜AlphaFounders

正文

无需预训练，用“进化模型合并”方法生成新的高性能模型

请到「今天看啥」查看全文