专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
爱可可-爱生活  ·  大模型还是小模型?AI部署的困境与突破 ... ·  17 小时前  
Web3天空之城  ·  【天空访谈·播客】AI, DeepSeek ... ·  昨天  
Web3天空之城  ·  【天空访谈·播客】AI, DeepSeek ... ·  昨天  
机器之心  ·  重磅发现!DeepSeek ... ·  2 天前  
黄建同学  ·  最近比较火🔥的Thinking ... ·  2 天前  
爱可可-爱生活  ·  【kg-gen:从任何文本中提取知识图谱的A ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

MLLM+MoE!UIUC联合字节提出视觉编码器稀疏门控MOE!

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-06-05 00:53

正文

数源AI 知识星球

数源AI论文推荐知识星球(每日最新论文及资料包,包含 目标检测,图像分割,图像识别检索,视觉预训练,3D/点云/视频, 图像超分/去噪,GAN/Diffusion,LLM,ImageCaptioning,VQA,视觉语言预训练,MLLM,Text2Image,OpenVocabulary,语音技术,机器人技术,增量/连续学习,自动驾驶,遥感,医学,量化/剪枝/加速,机器翻译/强化学习,NRF,Visual Counting,时序建模 等方向)

!!论文中文版pdf请联系小助手或加入多模态交流群!!


数源AI 最新论文解读系列


论文名:CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts

论文链接: https://arxiv.org/pdf/2405.05949.pdf

开源代码:https://github.com/SHI-Labs/CuMo




引言

GPT-4V的出现引发了开源社区的兴奋,他们 希望将大型语言模型(LLM)转变为多模态LLM。最 近的多模态LLM通常将预训练的视觉编码器 和LLM与视觉指导调整数据整合在一起,以微调预训 练的LLM,增强其视觉理解能力。为了进一步扩展多 模态LLM,先前的努力主要集中在 用更广泛的文本-图像配对数据训练模型,并采用更强 大的LLM,显著增加了训练工作量。在视觉方面,最 近的工作集中在利用多个视觉编码器来丰富视 觉内容,采用更大的视觉编码器,并使用先进的 视觉-语言连接器来提高多模态任务的性能。然而, 这些技术导致了额外参数的增加,并为LLM生成了额 外的视觉标记,使得扩展变得低效。



简介

受到在LLMs中成功应用的专家 混合(Mixture-of-Experts,MoE)的启发,该方法在 训练过程中提高了模型的可扩展性,同时保持了 推理成本与较小模型相似,我们提出了CuMo,它 将Co-upcycled Top-K稀疏门控Mixture-of-experts块融入视觉编码器和MLP连接器中,从而通过在推理过程 中激活的参数可以忽略不计地增强了多模态LLMs。 CuMo首先对MLP块进行预训练,然后在视觉指导调 整阶段,从预训练的MLP块中初始化MoE块中的每个 专家,通过辅助损失确保专家的平衡负载。CuMo在 各种VQA和视觉指导跟随基准测试中的各个模型大 小组内均优于最先进的多模态LLMs,同时仅在开 源数据集上进行训练。



方法与模型


,我们首先回顾了先前研究中使用的稀 疏MoE块结构和循环利用策略。随后,我们描述了如 何利用共同循环利用策略将这些稀疏门控MoE块集成 到多模态LLM的每个模块中。然后,我们介绍了用于 稳定训练和平衡专家负载的三阶段训练过程和辅助损 失函数。

0 1 Revisit Sparse MoE

(1) 稀疏的MoE结构

先前的主流做法[60]是用稀疏门控的 专家混合块替换密集的MLP块。给定输入X∈RN×Cin 和一个MLP块,

为了扩展具有多个MLP块的模型,稀疏的MoE块包括 一个路由网络,以从总共S个专家中选择前K个专家。 该路由网络具有一个线性层,根据输入X计算归一化 权重矩阵以进行投票,结果为

对于每个标记,基于W选择前K个专家,并使用重 新归一化的权重WK∈RN× K进行计算

每个选定的专家由一个MLP块表示,并通过重新加权 求和获得最终输出。

输出Xout 保持与单个密集MLP块输出相同的维度。

(2) 稀疏升级

从头开始训练基于MoE的设计可能不稳定且 成本高昂。稀疏升级[33]通过从预训练的密集检查点 中的相应MLP块初始化每个MoE块中的专家来解决 这一挑战。这种初始化方法为训练基于MoE的模型提 供了更好的起点,并降低了与从头开始训练相比的训 练成本。




0 2 CuMo Architecture

(1) MLP连接器中的稀疏MoE

MLP连接器将视觉标记转 换为词嵌入空间,对齐视觉和文本标记之间的维度。 用于视觉-语言连接器的有效架构是一个包含两个线性 层的MLP块[46]。我们从单个MLP块开始,并将其 替换为一个Top-K稀疏MoE块,其中包括一个Top-K 路由器和一组专家,用于将视觉标记投影到词嵌入空 间中。

(2) 视觉编码器中的稀疏MoE

视觉编码器将图像特征提 取为视觉标记序列,用于在LLM中进行推理。CLIP [57] 是最受欢迎的预训练视觉编码器之一,用于多模 态LLM,因为它在大规模图像-文本对上进行了预训 练,适用于处理图像以供多模态使用。CLIP的视觉编 码部分是一个ViT[15]模型,其中在transformer 编码 器中有连续的MLP块。我们用一个Top-K稀疏MoE 块替换每个MLP块,保留MoE块输出旁边的跳跃连接。

(3)LLM中的稀疏MoE

在使用MoE进行LLM时,我们 将协同升级的LLM与基于预训练MoE的LLM进行比 较。我们从Mistral-7B开始,升级后的Mistral-7B-MoE 在某些基准测试中略优于Mistral-7B。然而,考虑到来 自Mistral-7B 的升级专家的受限知识库,我们将其与 具有多样化知识库的预训练专家的预训练Mixtral8x7B 进行比较。实验结果表明,预训练Mixtral8x7B明显优 于Mistral-7B-MoE。因此,LLM 未与CLIP和MLP连 接器协同升级,因为它带来了微小的改进,但增加了 大量的额外参数。


0 3 Training Recipe


(1)共同升级再利用MoE模块

我们从头开始训练添加的 MoE模块,同时模型正在努力收敛。尝试通过降低学 习率来解决这个问题的做法与基准相比效果更差。因 此,我们采用了一种共同升级再利用的方法,将每个 集成稀疏门MoE模块的模块与预训练的MLP替换相 应的MLP模块,如图3所示。这种策略始终提高了训 练稳定性和模型性能。







请到「今天看啥」查看全文