开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

FightingCV · 公众号 · · 2024-10-26 09:00

正文

原生多模态大模型性能瓶颈，迎来新突破！

上海AI Lab 代季峰老师团队，提出了全新的原生多模态大模型 Mono-InternVL 。

与非原生模型相比，该模型首个单词延迟最多降低67%，在多个评测数据集上均达到了SOTA水准。

与常见的采用CLIP等结构进行视觉编码的 模块化 多模态大模型不同，Mono-InternVL将视觉感知和多模态理解均集成到大语言模型中。

相比于现有多模态大模型，Mono-InternVL有以下技术亮点：

开源原生多模态架构最优解 ：无需额外的视觉编码器，通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径，2B模型多模态能力优于7B参数的现有原生多模态模型，多个指标超越InternVL1.5。
兼具视觉灵活性和部署高效性 ：支持高达2M像素输入的动态图像分辨率，在原生多模态架构中感知精度最高。相比于InternVL1.5，在部署框架上首个单词延迟最多降低67%，整体吞吐量提高31%。

现有的多模态大模型（MLLM）通常采用视觉编码器-对齐模块-语言模型的结构，将视觉编码和语言解码分别进行处理。

具体来说，这些模型通常通过将预训练的视觉编码器（例如CLIP）与大语言模型（LLM）结合来实现，即 模块化 MLLM。

最近新兴的Chameleon、EVE等原生 MLLM，将视觉感知和多模态理解直接集成到一个LLM中，可以更方便地通过现有工具进行部署、具备更高的推理效率。

然而，由于原生MLLM缺乏视觉能力，视觉相关的训练通常不可避免，但视觉预训练过程中语言基座能力常常出现 灾难性遗忘 问题，导致现有原生MLLM的性能仍显著低于模块化MLLM。

为此，Mono-InternVL提出了采用 增量预训练 的方法，解决此前原生MLLM中的灾难性遗忘问题。

因此，作者在预训练的LLM中嵌入了专门服务于视觉建模的 视觉专家 ，通过MoE的方式实现稀疏化的建模。

基于此，作者通过仅优化视觉参数空间来进行视觉预训练，同时保留了语言基座的预训练知识。

具体来说，Mono-InternVL 由视觉文本嵌入和多模态MoE结构两部分组成：

视觉和文本嵌入 ：与使用CLIP等视觉编码器的模块化 MLLM 相比，Mono-InternVL 通过patch embedding直接将图像转换为patch序列。文本嵌入模块则直接使用LLM的分词器。
多模态MoE结构 ：Mono-InternVL 的核心是将视觉专家FFN嵌入到预训练的 LLM 中。视觉FFN从预训练LLM中的文本FFN初始化。由此不仅可以利用预训练的 LLM 知识促进视觉预训练，还能显著缓解灾难性遗忘问题。