专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
新北方  ·  被驳回!女子网上晒娃被公司取消哺乳假 ·  3 天前  
新北方  ·  寒意从早到晚!省内最高温仅零上1℃ ·  3 天前  
新北方  ·  正式实施!驾驶证申领政策有变 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

模型合并的进化优化方法

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-05 06:58

正文

24年3月日本Sakana AI公司的论文“Evolutionary Optimization of Model Merging Recipes”。

本文提出进化算法的一种应用,自动创建强大的基础模型。虽然模型合并因其成本效益而成为LLMs开发的一种有前景的方法,但它目前依赖于人类直觉和域知识,限制了其潜力。在这里,提出了一种进化方法,通过自动发现不同开源模型的有效组合,利用它们的集体智慧,而不需要大量的额外训练数据或计算来克服这一限制。该方法在参数空间和数据流空间中运行,允许优化不仅仅是单个模型的权重。这种方法甚至促进了跨域合并,生成一个具有数学推理能力的日本LLMs模型。令人惊讶的是,日本数学LLMs在各种已建立的日本LLMs基准上取得了最先进的表现,甚至超越了参数明显更多的模型,尽管没有针对此类任务进行明确的训练。此外,通过该方法生成的具有文化意识的日本 VLM 证明了其在描述日本文化特定内容方面的有效性,优于以前的日本 VLM。


模型合并 [15, 28] 是大语言模型 (LLM) 社区的最新发展,呈现出一种新的范式转变。通过战略性地将多个LLMs整合到一个架构中,因其关键优势而吸引了研究人员的注意:它不需要额外的训练,使其成为开发新模型一种极具成本效益的方法。这种特性激发了人们对模型合并的兴趣,并出现实验的激增。Open LLM 排行榜 [20] 现在以合并模型为主,展示了其民主化基础模型开发的潜力。

但是模型合并被许多人认为是一种黑术或炼金术,依靠模型制作者对模型选择和合并方法的直觉和本能来创建和完善对特定任务表现良好的新模型。此外,模型制作者通常需要具备一些针对各种不同基准任务的域知识。鉴于社区中开放模型和基准的多样性,人类的直觉只能走这么远,那么发现新模型组合的更系统方法会使得模型合并走得更远。

进化算法能够发现更有效的模型合并解决方案,从而为自动创建更强大模型提供一条途径。作为朝着这个方向迈出的一步,这项工作展示进化可以用来发现新且不直观的方法来合并各种模型,产生具有新组合能力的模型。在这项工作中,提出了一种利用进化算法来促进基础模型合并的方法。其方法的特点是能够导航参数空间(权重)和数据流空间(推理路径),并提出一个集成两个维度的框架。

模型合并技术与传统的迁移学习形成鲜明对比,传统的迁移学习是针对新任务在预训练模型进一步微调。虽然迁移学习具有提高性能和更快收敛等优点,但生成的模型通常仅限于单个任务。另一方面,模型合并致力于通过结合多个预训练模型的知识来创建通用且全面的模型,有可能产生能够同时处理各种任务的模型。最受欢迎的Stable Diffusion模型既不是原始的基础模型,也不是微调版,而是爱好者创建的合并模型。

基于权重插值的方法的一个关键问题是它们忽略了参数干扰,导致性能下降。最近的一项工作[49]确定了两个关键的干扰源:模型间的冗余参数值和冲突的参数符号,并提出了一种解决这些问题的方法,以实现改进的合并性能。所提出的 TIES-Merging 方法通过合并三个步骤来解决现有合并方法中的信息丢失问题: 重置最小参数更改、解决符号冲突以及仅合并对齐的参数

最近的另一项工作 [50] 提出 DARE 方法更进一步,将微调模型和原始基础模型之间的微小差异归零,同时放大差异。在实践中,DARE [50]经常与 任务算术 [21]或 TIES-Merging [49]一起使用。

Mergekit 引入一种名为 Franken merging 的附加方法,它不是基于权重合并,而是供用户尝试堆叠多个模型的不同层以顺序创建新模型。这种方法的优点是,不会将用户绑定到具有固定合并架构的特定模型系列(例如基于 Mistral 模型),但有可能通过合并完全不同的模型来创建新架构。值得注意的是,Franken merging 技术仍然是社区的一个挑战,并且需要更多的试验和错误来发现该技术的新方法。迄今为止,几乎每个人都使用类似的 Frankenmerging 合并方法,并且几乎没有进行过尝试和错误来改进它。

该领域的探索仍然严重不足,我们相信这就是进化可以提供帮助的地方。


那么创建一个统一的框架,从选定的基础模型中自动生成合并模型,确保该合并模型的性能超过其中任何个体的性能。方法的核心是进化算法的应用,用它来完善模型合并中涉及的复杂性。为了系统地应对这一挑战,首先将合并过程剖析成两个不同的、正交的配置空间,分析它们各自的影响。基于此分析,随后引入一个无缝集成这些空间的聚合框架。如下是该方法的示意图:(1) 进化参数空间(PS)中每一层混合参数的权重;(2) 数据流空间(DFS)中不断进化的层排列;(3) 综合策略,结合 PS 和 DFS 两种合并方法。注意PS的合并并不是简单的图层参数的复制和拼接,还混合了权重。这种合并类似于颜色混合(例如,红色和蓝色变成紫色)。请注意,已将问题翻译成英文供读者阅读;这些模型对日语文本进行操作。

当该方法扩展到多模态模型,发展成为一种具有特定文化内容意识的日本 VLM。 最近,通过应用预训练LLMs强大的指令跟踪能力,VLM 取得了显着的进步。 VLM的架构通常由三个部分组成: (1)视觉编码器,用于提取图像特征; (2) 生成文本的LLMs(用于描述图像); (3) 将图像特征映射到 LLM 嵌入空间的投影网络 [5,9,29,30,32]。 至关重要的是,LLM 组件使用强大的预训练 LLM 进行初始化,以实现其文本生成功能。 在训练期间,投影网络和可选的LLMs在各种视觉语言数据集上进行训练,而视觉编码器是固定的。

VLM内的LLM组件可以被视为一个独立的LLM,具有理解视觉软提示的额外能力。从这个角度来看,修复视觉编码器和投影网络并仅关注 LLM 组件,可以直接生成具有扩展功能的新 LLM。







请到「今天看啥」查看全文