近年来,以GPT-4V为代表的多模式大语言模型(MLLM)成为一个新兴的研究热点,它利用强大的大语言模型作为大脑来执行多模式任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的数学推理,在传统的多模态方法中是罕见的,这表明它是通往通用人工智能的潜在途径。为此,学术界和工业界都在努力开发能够与GPT-4V竞争甚至优于GPT-4V的MLLMs,以惊人的速度突破了研究的极限。
多模态大模型(Multimodal Large Language Models,MLLM)是指能够处理多种模态(例如文本、图像、语音等)数据的大型语言模型。MLLM旨在实现对多模态数据的全面理解和处理,从而推动跨模态智能应用的发展。传统的语言模型主要关注文本数据的处理,而MLLM则将多模态数据融入到模型中,以更全面、综合的方式进行语义理解和生成。MLLM模型通常基于深度学习架构,如Transformer,并通过大规模预训练和微调来学习多模态数据的表示和关联。 MLLM模型的优势在于能够对多模态数据进行联合建模和跨模态交互。例如,模型可以同时考虑图像、文本和语音信息,从而提供更准确、全面的分析、理解和生成能力。这种综合处理的能力使得MLLM模型在诸如多模态翻译、图像描述生成、视听问答等任务上表现出色。 然而,由于多模态数据的复杂性和模型规模的增加,MLLM模型的训练和推断都需要大量的计算资源和数据支持。此外,数据的标注和对齐也是挑战之一。不过,随着技术的不断进步和数据的丰富,MLLM模型在多模态智能领域的应用前景广阔,并将为人们带来更丰富、多样化的交互和体验。
02-IXC2-4KHD算法简介
大视觉语言模型(LVLM)领域已经取得了重大进展,但由于分辨率有限,其发展受到理解细粒度视觉内容的挑战的阻碍。近期的努力旨在增强LVLMs的高分辨率理解能力,但它们仍被限制在约1500×1500像素,并被限制在相对较窄的分辨率范围内。 本文提出InternetLMXComposer2-4KHD多模态大模型,这是一项突破性的探索,旨在将LVLM分辨率提高到4K HD(3840×1600)及以上。同时,考虑到超高分辨率可能并非在所有情况下都是必要的,它支持从336像素到4K标准的各种不同分辨率,大大拓宽了其适用范围。 具体而言,本研究通过引入一种新的扩展:具有自动补丁配置的动态分辨率,推进了补丁划分范式。它保持训练图像纵横比,同时自动改变补丁计数,并基于预训练的视觉转换器(ViT)(336×336)配置布局,从而实现从336像素到4K标准的动态训练分辨率。 大量的实验研究表明,将训练分辨率扩展到4K HD可以实现一致的性能增强,而不会达到潜在改进的上限。InternetLM-XComposer2-4KHD在16个基准测试中的10个测试中显示出与GPT4V和Gemini Pro相匹配甚至超越的卓越性能。
InternLM-XComposer2-4KHD的模型架构主要遵循InternLM-XXComposer的设计,具体包括轻量级视觉编码器OpenAI ViT Large/14、大型语言模型InternLM2-7B和Partial LoRA,从而实现高效对齐。 上图展示了如何处理高分辨图像的流程。利用静态输入图像大小来处理高分辨率图像,特别是那些具有不同纵横比的图像,既不高效也不有效。为了克服这一限制,作者引入了一种动态图像分割方法。该方法战略性地将图像分割成更小的补丁,同时保持原始图像纵横比的完整性。详细的步骤如下所述: 在预训练阶段,LLM被冻结,同时视觉编码器和部分LoRA都被微调以将视觉标记与LLM对齐。预训练数据主要遵循XComposer2中的设计,该设计考虑了三个目标:1)一般语义对齐,2)世界知识对齐,3)视觉能力增强。上图展示了训练预训练阶段使用到而一些数据集。
在训练过程中,作者使用OpenAI CLIP ViT-L-14-336作为视觉编码器。与XComposer2不同,作者将ViT分辨率保持为336×336,并使用更多的补丁来增加输入分辨率。对于动态图像分区策略。作者使用“HD-25”进行相关处理。对于每个图像或补丁,通过简单的合并操作,图像令牌数量减少到1/4。通过通道维度将附近的4个令牌连接到一个新的令牌中,然后通过MLP将其与LLM对。
separate和\n令牌是随机初始化的。对于部分LoRA,作者为LLM解码器块中的所有线性层设置256的秩。训练过程中batch设置为4096,跨越2个时期。在前1%的训练步骤内,学习率线性增加到2×10−4。在此之后,根据余弦衰减策略,它将减小到0。为了保留视觉编码器的预先存在的知识,应用分层学习率(LLDR)衰减策略,并且衰减因子设置为0.90。 在预训练之后,微调是为了使得模型能够理解高分辨率图像。与之前的感知任务(例如,VQAv2、GQA)不同,前者通常基于图像中的显著对象来回答问题。OCR相关任务取决于对高分辨率图像中文本的详细理解。上图展示了微调阶段使用到的相关数据集。 为了解决这一问题,作者引入了一种混合分辨率训练策略,用来实现更高效的训练。对于需要高分辨率的任务,在训练期间使用“HD-55”设置。这允许输入4K(3840×1600)图像,而不需要额外的图像压缩。这些任务在表2中被称为HD-OCR QA任务。对于其他任务,需要执行动态解决策略。图像的大小调整为在其原始大小和“HD25”设置指定的大小之间的范围内。这种动态方法增强了LVLM对输入分辨率差异的鲁棒性,从而使LVLM能够在推理过程中利用更大的分辨率。 在微调阶段,在3500个步骤中联合训练批大小为2048的所有组件。以加权方式对来自多个源的数据进行采样,加权基于来自每个源的数据数量。由于“HD55”设置的图像标记是“HD-25”的两倍,通过调整数据加载程序以启用不同的批量大小,并相应地调整其权重。最大学习率设置为5×10−5,每个组件都有自己独特的学习策略。对于视觉编码器,将LLDR设置为0.9,这与预训练策略一致。对于LLM,作者使用0.2的固定学习率量表因子。这减缓了LLM的更新速度,在保留其原始功能和使其与视觉知识保持一致之间实现了平衡。
上图展示了InternetLM-XComposer2-4KHD在不同分辨率的基准测试上的性能概述。基于InternetLM2-7B的模型在16个基准测试中的10个中匹配甚至超过GPT-4V和Gemini Pro的效果。这在一定程度上证明了它的有效性!
上表展示了该算法与与封闭源代码API和以前的开源SOTA算法的客观指标评估结果。InternetLM-XComposer2-4KHD在16个基准测试中的6个测试中仅使用7B个参数就获得了SOTA结果,显示出与当前闭源API相比具有竞争力的结果。最佳结果以粗体显示,次佳结果以下划线显示。
上表展示了该算法与多个开源SOTA算法的客观指标评估结果。通过观察与分析,我们可以发现:IXC2-4KHD在大多数基准测试中都优于竞争对手。最佳结果以粗体显示,次佳结果以下划线显示。
上表展示了该算法与多个SOTA算法在高分辨率输入上面的客观评估效果。通过观察与分析,我们可以发现:InterLM-XComposer2-4KHD具有最大的输入分辨率,并且优于专门为文档理解而调整的开源LVLM。图6.1-IXC2-4KHD算法效果展示1
图6.2-IXC2-4KHD算法效果展示2
图6.3-IXC2-4KHD算法效果展示3
图6.4-IXC2-4KHD算法效果展示4
图6.5-IXC2-4KHD算法效果展示5
注意事项: 为了简化,本文将InternLM-XComposer2-4KHD简写为IXC2-4KHD!
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
欢迎你的加入,让我们一起交流、讨论与成长!
若二维码失效:关注公众号--》交流分享--》联系我们(备注:AI产品汇)