专栏名称: 上海经信委
发布产业发展和信息化建设相关信息,提供办事指南、政策服务信息、产业技术前沿。回复粉丝的提问,提供全市加油站、文化创意地图、i-Shanghai地图等服务功能。
目录
相关文章推荐
摩尔投研精选  ·  重磅升级!“AI小财神”推理能力全面升级, ... ·  10 小时前  
锦缎  ·  中慧元通生物冲刺IPO背后的辛酸 ·  20 小时前  
图解金融  ·  造芯片,很难吗? ·  2 天前  
成方三十二  ·  申请人数突破2000万! ·  3 天前  
51好读  ›  专栏  ›  上海经信委

“迷你版”书生·万象大模型开源,5%参数实现九成性能,“小而美”易迁移|产业创新动态

上海经信委  · 公众号  ·  · 2025-01-17 12:05

正文

转载自:书生Intern

书生·万象(InternVL) 多模态大模型迎来“迷你版”。


近日,上海人工智能实验室(上海AI实验室)与清华大学等联合团队推出 Mini-InternVL多模态大模型,包括1B、2B和4B三个参数版本,满足不同需求层级。评测结果显示,Mini-InternVL-4B仅以5%的参数量,即实现了InternVL2-76B约九成性能,显著减少计算成本。


为适应多领域任务,联合团队提出了简单有效的迁移学习框架,使模型知识“一键”域迁移。同时,研究人员对模型架构、数据格式和训练计划进行了标准化处理,增强了模型在特定场景中的视觉理解和推理能力。


首次发布 以来,书生·万象历经 多次迭代 ,在业界广受好评,全系模型在Hugging Face平台下载量已突破400万,GitHub星标数超6800。相关论文入选CVPR Oral,并被Paper Digest评为CVPR 2024年度最具影响力论文之一。


代码仓库地址: https://github.com/OpenGVLab/InternVL

迁移模型权重: https://huggingface.co/collections/OpenGVLab/internvl-adaptation-67542cc9558812823a0281cc

论文链接: https://link.springer.com/article/10.1007/s44267-024-00067-6

专刊网址: https://link.springer.com/journal/44267


当前,多模态大语言模型(MLLMs)在多类型任务上表现出优异性能,但因庞大的参数规模和高额计算成本,限制了其在消费级GPU等低门槛设备上的应用。轻量级多模态大模型方案平衡了参数规模与性能,降低了对高端计算设备的依赖,为促进多种下游应用的发展带来可能。
然而,现有的轻量级方案同样面临视觉编码器覆盖领域有限、标准化框架缺乏等挑战,模型知识难以迁移适用。为此,上海AI实验室联合团队基于在多模态大模型研究的技术积淀,提出Mini-InternVL,让模型“小而美”。

Mini-InternVL模型架构

Mini-InternVL的模型结构由视觉编码器、MLP连接层和大语言模型(LLMs)三部分组成。为了增强轻量级视觉编码器的表征能力,研究人员使用CLIP初始化一个300M的视觉编码器,并采用InternViT-6B作为“教师模型”进行知识蒸馏,开发了新的视觉编码器InternViT-300M,并将其与不同的预训练LLMs连接,最终构建出Mini-InternVL。
Mini-InternVL结构和InternViT训练方法
模型采用动态分辨率输入和Pixel Unshuffle操作方法,使分辨率为448×448的图像可表示为256个视觉标记,支持处理最多40个图像切片。
训练过程分为两个阶段:


  • 语言-图像对齐,使用多种任务的数据集进行预训练,确保模型能够处理不同的语言和视觉元素。
  • 视觉指令调优,选择特定数据集微调模型,提升其在多模态任务中的表现,并教会模型遵循用户指令。


轻量级视觉编码器InternViT-300M

目前,主流多模态大模型采用在大规模图像-文本配对数据上训练的视觉编码器,如CLIP等,以获得其视觉表示。然而,这些编码器普遍缺乏对视觉世界的全面理解,需要通过与大语言模型的生成预训练进行迭代学习。
与其他通过辅助路径增强视觉基础模型的方法不同,联合团队直接使用了一个经过生成训练的强大视觉模型,将其预训练知识迁移到一个轻量级的视觉模型上。研究人员使用视觉编码器InternViT-6B作为“教师模型”,并用CLIP-ViT-L-336px初始化“学生模型”的权重。通过计算最后K层变换器隐藏状态之间的负余弦相似度损失,对齐“学生模型”和“教师模型”的表征,构建出新的视觉编码器InternViT-300M。
研究人员从多个公开资源中精选自然图像、OCR图像、图表和多学科图像数据集,所有图像的分辨率都被调整为448×448,为提高训练效率,而未使用动态分辨率。最终,InternViT-300M以1/20的参数量,继承了InternViT-6B蕴含的预训练知识,以轻体量适配各类大语言模型。

迁移学习框架,知识“一键迁移”

由于模型设计、数据格式和训练策略的差异,导致多模态大模型之间存在显著异质性。为此,研究人员推出了一个简单有效的迁移学习框架,实现模型设计、数据格式和训练策略的标准化,减少训练数据需求和计算资源成本。
其中指令调优是训练的关键阶段,如下图所示,在数据格式方面,通过将训练数据格式化为视觉问答(VQA)和对话格式,提升模型遵循用户指令的能力。对于其他传统任务,例如图像分类任务,视觉定位任务,区域感知任务和多视角图像和视频帧的理解,此前的多格式内容均被统一单独格式化为VQA格式。
域迁移框架中的数据格式

实验结果


通用基准测试


Mini-InternVL在多个基准测试中表现优异。最小版本模型仅包含10亿参数,但其性能与20亿参数的同类型模型相当。与其他轻量级模型相比,Mini-InternVL-4B在大多数基准测试中表现出色,在MMbench、ChartQA、DocVQA和MathVista等任务上,其表现接近主流商业模型。值得注意的是,Mini-InternVL仅使用5%的参数,便实现了InternVL2-Llama3-76B约90%的性能表现。


域迁移的结果







请到「今天看啥」查看全文