【新智元导读】VARGPT是一种新型多模态大模型,能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解,预测下一个scale完成视觉生成,展现出强大的混合模态输入输出能力。
多模态大模型在视觉理解和生成领域取得了显著突破。先前的模型在视觉理解和生成方面通常各自为政,而统一处理两者的模型一直是研究的热点。北大团队提出了一种全新的多模态大模型VARGPT,首次在单一自回归框架内实现了token-wise视觉理解和scale-wise视觉生成的统一。
通过预测「next-token」完成视觉理解,以及预测「next-scale」完成视觉生成,VARGPT成为混合模态输入输出领域的重要里程碑。模型、训练数据和代码均已开源。
code: https://github.com/VARGPT-family/VARGPTarxiv: https://arxiv.org/abs/2501.12327project: vargpt-1.github.io
VARGPT的核心架构基于LLaVA-1.5-7B,创新性地引入了视觉解码器、多尺度图像分词器和特征投影器,建立起文本与视觉特征的高效映射关系。
模型能够自回归地完成视觉问答等理解任务,当遇到特殊生成指令时,可通过预测下一尺度的方式生成高质量图像,得益于这种设计,VARGPT实现了统一的理解与生成。
VARGPT采用了三阶段的统一训练流程:首先通过1.28M条数据进行预训练,学习视觉与文本的特征映射;随后通过两轮指令微调,进一步提升模型的视觉问答与指令到图像生成能力。
结合3.86M样本的训练数据集,VARGPT不仅在视觉理解任务中超越了LLaVA-1.5,还在视觉生成任务中表现出色,成为支持混合模态输入输出的强大工具。
总的来说,这篇论文的贡献如下
统一理解与生成。VARGPT大一统视觉理解与生成,提出了「next-token」用于视觉理解和「next-scale」用于视觉生成的创新范式,为多模态大模型统一处理理解与生成问题提供了全新思路。
创新模型架构设计。VARGPT基于 LLaVA-1.5 架构,创新性地引入了视觉解码器、多尺度图像分词器以及两个特征投影器,实现视觉与文本特征的高效对齐和映射。同时,其自回归生成机制自然支持混合模态的输入和输出。
统一指令调优训练策略。VARGPT提出了三阶段统一训练流程,包括预训练阶段和两轮指令微调阶段,将视觉生成任务建模为instruction-following问题,并结合3.86M条多模态数据样本,通过混合模态的指令调优,显著增强了模型在理解与生成任务中的表现。
显著的性能。大量实验结果表明,VARGPT在视觉理解(如视觉问答、推理)达到卓越的性能。在多个视觉理解基准测试中,VARGPT超越了许多现有同规模的多模态大模型和其他架构的统一模型,并在单一模型中实现指令生图的能力。验证了其在多模态任务中的广泛适用性和卓越性能。
VARGPT是一个纯自回归的多模态模型,通过「next-token」实现视觉理解,通过「next-scale」实现视觉生成。
视觉理解: Next-token predictionVARGPT在视觉理解任务中,通过「next-token」完成视觉问答和推理任务。模型采用Vicuna-7B-v1.5 作为核心语言模型,并结合 CLIP (ViT/14) 视觉编码器提取图像特征。图像嵌入经过线性投影与文本特征对齐,输入自回归语言模型,生成目标文本输出。视觉生成: Next-scale prediction受到NeurIPS2024最佳论文VAR的启发,在视觉生成任务中,VARGPT引入多尺度图像分词器,用于生成逐步细化的图像特征,并使用30层Transformer构成的视觉解码器通过块级因果注意机制生成next-scale的视觉token,最终由多尺度 VAE 解码器还原成高质量图像。VARGPT通过 等特殊标记区分文本与图像生成,并采用无分类指导(CFG)策略优化生成质量。模型结合条件与无条件分布估计,提升生成样本的清晰度和一致性。VARGPT的训练分为三阶段,针对视觉理解与生成任务进行优化。
在预训练阶段,VARGPT利用ImageNet图像构建128万条单轮对话数据,专注训练图像生成投影器,完成图像与文本特征的初步对齐。在第二阶段,解冻语言模型和视觉投影器,结合多轮对话和问答数据训练,同时引入5000条ImageNet-Instruct数据,增强模型对视觉理解与生成任务的区分能力。在第三阶段,解冻视觉解码器和生成投影器,在被构造的140 万条指令数据上细化微调,显著提升指令到图像生成的质量。VARGPT的卓越表现离不开高质量的多模态训练数据集,研究人员通过分阶段设计和指令生成策略,构建了涵盖视觉理解与生成任务的多样化数据集。
研究人员构建了两个关键数据集:ImageNet-Instruct-130K 和 ImageNet-Instruct-1270K。ImageNet-Instruct-130K 基于ImageNet-1K数据集,通过BLIP2模型生成图像描述,结合Deepseek-LLM生成的问答模板构建而成。采用4-shot示例策略,引导模型生成多样化、合规的对话样本,总计13万条数据。ImageNet-Instruct-1270K是更大规模的版本,包含400种丰富的提示和答案模板,以确保生成任务的多样性和高质量。使用1.28M条单轮对话数据,学习类别与图像的对应关系LLaVA-1.5-665K:包含 VQA、OCR、视觉对话等665K样本。
LLaVA-OneVision:从开源数据中筛选出508K高质量样本
ImageNet-Instruct-130K:从中随机抽取5K样本用于训练,进一步优化视觉任务能力。
加入了ImageNet-Instruct-1270K数据集,并结合ImageNet-Instruct-130K数据集进行第三阶段训练。在多模态基准上的零样本多模态评估结果,包括MMMU、MME、MMBench、SEEDBench和POPE(涵盖随机、流行和对抗性等不同设置)。Gen表示该方法是否支持图像生成能力。VARGPT在整体性能上优于所有的统一模型,并优于许多做纯视觉理解的多模态大语言模型。在视觉问答任务上的性能比较。对已在数据集上进行过训练的模型用灰色标注。Gen 表示该方法是否支持图像生成能力。VARGPT展现了理解和解读视觉内容中幽默元素的能力。尽管VARGPT取得了显著进展,但仍存在一些Limitation
由于训练数据主要来源于ImageNet,VARGPT的图像质量与扩散模型(如SDv2.1)和更先进的模型(如FLUX)仍有差距。此外,当前版本仅支持256×256像素分辨率的图像生成,限制了高分辨率场景的应用。进一步扩大数据规模有望显著改善生成质量。在大多数情况下,VARGPT能够较好地生成与指令相关的图像,但对于复杂指令中的细节表达仍有改进空间,无法完全呈现用户期望的细微信息团队的长远目标是实现图像、文本和视频等各种模态的完全统一。基于此,未来将继续探索探索更强大且高效的架构,进一步扩大数据规模,加速这一目标的实现。https://arxiv.org/abs/2501.12327