MLNLP
社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进,对其中有代表性的工作进行了精炼总结,截止2024.04,持续更新ing... 欢迎大家多多点赞、收藏、讨论
这篇综述一张图总结了多模态LLM的典型架构:
BLIP
【2022.01发布】[1]
统一视觉-语言理解和生成,使用captioner+filter高效利用互联网有噪数据
模型架构:
-
• Image/text encoder: ITC loss对齐视觉和语言表征,基于ALBEF提出的momentum distillation
-
• Image-grounded text encoder: ITM loss建模视觉-语言交互,区分positive/negative图文对,使用hard negative mining挖掘更高相似度的负例优化模型
-
• Image-grounded text decoder: LM loss实现基于图像的文本解码,将双向self-attention替换为causal self-attention
BLIP的bootstrapping训练过程:
BLIP-2
【2023.01发布】[2]
使用相对轻量的Q-Former连接视觉-语言模态,通过两阶段训练:第1阶段基于冻住的视觉编码器,第2阶段基于冻住的LLM
第1阶段:同样优化ITC/ITM/LM loss,使用不同的self-attention mask,query和text端共享self-attention参数,使得可学习的query embedding提取与text语义最相关的视觉表征;使用BERT-base初始化,32个768维的query作为信息瓶颈
-
• ITC:计算每个query与text的相似度,取最大的;使用batch内negatives,不再使用momentum queue
-
• ITM:对每个query与text的分类logits取平均,使用hard negatives mining挖掘难负例
-
• LM:text token和frozen image encoder不能直接交互,要求query能提取有益的视觉特征
第2阶段:可基于decoder-only/encoder-decoder LLM进行适配,FC层对齐维度
LLaVA
【2023.04发布】[3]
MiniGPT-4
【2023.04发布】[4]
stage1. 预训练:使用image-text pair微调linear projection layer,vision encoder和LLM保持冻住
stage2. 指令微调:指令格式为:###Human:
###Assistant:
InstructBLIP
【2023.05发布】[5]
stage1. 预训练:BLIP-2(使用image-text pairs进行两阶段训练)
stage2. 指令微调:只微调instruction-aware Q-former,冻住vision encoder和LLM
支持FlanT5(encoder-decoder)和Vicuna(decoder-only)
Qwen-VL
【2023.08发布】[6]
支持中英双语、多图像输入
Qwen-7B + OpenCLIP ViT-bigG,输入图像直接resize到视觉编码器输入
位置感知的VL adapter:使用基于Q-former的单层的cross-attention,将图像特征维度压缩到256,在query-key pairs中引入2D绝对位置编码增强位置信息
图像输入:
256-dim图像特征
bounding box输入输出:
(X_topleft, Y_topleft), (X_bottomright, Y_bottomright)
,
[
]
[
…
]
标记box所指内容
三阶段训练:
stage1. 预训练:基于大规模、弱标注、网络爬取的图像-文本对,输入分辨率224x224,冻住LLM,训练ViT和Q-former,主要目的是模态对齐
stage2. 多任务预训练:基于7种下游视觉-语言理解任务的高质量、细粒度标注数据训练,输入分辨率448x448,图像/文本数据交错,训练整个模型
stage3. 指令微调:提升指令遵循和多轮对话能力,冻住ViT,训练LLM和Q-former
Qwen-VL-Plus和Qwen-VL-Max提升了视觉推理能力、图像细节的识别/提取/分析能力(尤其是文本导向的任务)、支持高分辨率和极端纵横比的输入图像;在部分中文场景超过了GPT-4V和Gemini
InternLM-XComposer
【2023.09发布】[7]
交错图文构成:自动在输出文本中插入合适的图片
EVA-CLIP ViT + InternLM-7B + Q-former (将图像特征压缩到64个embedding)
两阶段训练:
stage1. 预训练:冻住ViT,训练LLM和Q-former
stage2. 监督微调:包括多任务训练和指令微调,冻住ViT和LLM,训练Q-former,对LLM进行LoRA微调,增强指令遵循和图文混排能力
Fuyu-8B
【2023.10发布】[8]
模型架构和训练过程简单,易于scaling;支持任意图像分辨率;推理速度快
decoder-only的transformer,没有专门的图像编码器;image patch直接线性映射到transformer第一层
LLaVA-1.5
【2023.10发布】[9]