在当今数字化转型的浪潮中,人工智能技术的迅猛发展正在深刻改变着各行各业。其中,多模态大模型作为关键技术,因其能够连接不同信息维度,实现跨模态理解与生成,正在推动AI领域的创新。多模态大模型不仅能够处理和理解多种类型的信息,如文本、图像、音频和视频,还可以跨模态分析不同数据之间的联系,进行信息融合和综合推理。数据作为这一技术的核心驱动力,起着至关重要的作用。高质量和多样化的数据是多模态大模型高性能的基础。高质量的数据提升了模型的准确性和泛化能力,而数据的多样性则确保模型在不同应用场景中的出色表现。因此,在构建多模态大模型时,必须确保数据的高质量和多样性,以实现卓越的模型性能。
此外多模态大模型技术处于高速发展的阶段,前沿模型架构层出不穷,然而多模态大模型的训练和推理成本相对较高,并且对开发者而言上手难度较大,因此PaddleMIX团队积极吸纳业界前沿的多模态大模型,并结合框架底层高性能硬核技术,推出飞桨多模态大模型开发套件 PaddleMIX 2.1 版本。全面兼顾数据分析处理、高性能算法、便捷开发和高效训推,极大降低业界多模态领域开发者的开发门槛。首先来看 PaddleMIX 2.1 的三大亮点:多模态数据处理工具箱DataCopilot发布多模态数据能力标签模型PP-InsCapTagger,试验案例表明在保持模型效果不变的条件下可减少50%的数据量,大幅提高训练效率。新增 Qwen2-VL、InternVL2、Stable Diffusion 3 (SD3)等前沿模型。多模态大模型 InternVL2、LLaVA 、SD3、SDXL 适配国产芯片,提供国产计算芯片上的训推能力。https://github.com/PaddlePaddle/PaddleMIX多模态数据能力标签模型PP-InsCapTagger
在真实的应用场景有大量使用专有数据微调多模态大模型来提升效果的需求,此过程中数据处理成为核心要素。基于此 PaddleMIX 提供了数据处理和分析的工具 DataCopilot ,使开发者可在 PaddleMIX 套件完成端到端的开发体验。DataCopilot 设计理念是把数据作为多模态算法的一部分参与迭代的全流程,让开发者根据特定任务以低代码量实现数据的基本操作。工具核心概念包括 Scheme 和 MMDataset 。Scheme 用于定义多模态数据组织结构和字段名字,可用于不同格式的转换,简化 ops 操作的逻辑,内置 MM 和 MIX 类型。MMDataset 作为数据操作的核心类,为存储,查看,转换,生成等操作的基本对象。支持基本的运算(切片,加法,遍历等操作)。支持 json 数据源。内置 map , filter 函数,用于高效处理数据,支持多进程和多线程并发功能。支持链式调用,方便组合多种原子操作以实现复杂的功能。通过以 map 函数为接口实现对数据集每个元素的处理,通过 register 注册机制可灵活新增作用于整个数据集的通用操作功能。# 切片
dataset1 = dataset[:1000]
dataset2 = dataset[-100:]
# 合并
newdataset = dataset1 + dataset2 # new instance
dataset1 += dataset2 # modified dataset1 inplace
# 采样
sample_item1 = dataset.shuffle()[0]
sample_item2 = dataset[random.randint(0, len(dataset))]
# 查看信息
dataset.info()
dataset.head()
PP-InsCapTagger (Instance Capability Tagger) 是 DataCopilot 基于 PaddleMIX 实现的数据集能力标签模型,用于为多模态数据实例能力打标,通过实例能力分布对数据集进行优化,可以提高模型训练效率,为数据集分析和评价提供了一种高效的方案。结合模型推理打标结果对 LLaVA SFT 数据集进行优化,可以提高 LLaVA 模型 SFT 阶段50%的训练效率。数据实例能力标签:在多模态任务中,每条数据都可以抽象出一种或多种能力,在训练时,模型会从这些数据中学习并增强自身对应的能力,如下图。为了评价和优化数据集,我们可以通过模型为每条多模态数据在模型训练中贡献的实例能力进行打标,并根据打标结果中数据实例能力分布进行数据集的优化,进而提升模型的训练效率。
PP-InsCapTagger 基于 PaddleMIX 进行训练,使用 llava-v1.6-7b 模型作为 base 模型。数据集使用多模态数据 LLaVA-Instruct-150K 的部分图片和多轮对话内容,并通过 GPT-4o 为每一条数据的实例能力进行打标得到 tags ,然后使用 DataCopilot 实现数据集的高效预处理,结合原始数据和 tags 生成训练数据集。对 llava_v1_5_mix665k 数据集进行优化,我们使用 PP-InsCapTagger 打标的标签结果对数据集进行筛选,首先确定出能够覆盖80%数据的单条数据的标签数量N,然后在数据集标签集合中选出标签数量占比前0.7%的标签作为一个筛选集合R,对于 llava_v1_5_mix665k 数据集中的每条数据,如果该条数据标签数量小于 N ,且该条数据的所有标签均在集合 R 中,则删除该条数据,否则保留该条数据。通过该筛选策略,最终保留数据集规模为原始数据集的50%左右。我们分别使用 llava_v1_5_mix665k 数据集和筛选后的数据集进行 llava-1.5-7b SFT 阶段训练,对比结果如下表所示:
通过 PP-InsCapTagger 的打标和优化,我们采样出的50%数据集优于随机采样,并且与全量原始数据集的训练效果基本持平,大大提高了模型训练效率。丰富的前沿多模态模型多模态理解
多模态大模型(Multimodal LLM)是当前研究的热点,在 2024 年迎来了井喷式的发展,它将多模态输入经由特定的多模态 encoder 转化为与文本对齐的 token ,随后被输入到大语言模型中来执行多模态任务。PaddleMIX 2.1 新增了两大系列多模态大模型:InternVL2 系列和 Qwen2-VL 系列,同时支持指令微调训练和推理部署,模型能力覆盖了图片问答、文档图表理解、关键信息提取、场景文本理解、 OCR 识别、科学数学问答、视频理解、多图联合理解等。多模态生成
PPDiffusers 发布版本 0.29.0,新增图像生成模型Stable Diffusion 3 (SD3),支持 DreamBooth 训练及高性能推理;SD3、SDXL 适配国产硬件,提供国产计算芯片上的训推能力;DIT 支持高性能推理,推理性能提升80%。PPDiffusers 提供了 SD3 的的个性化微调训练样例,只需要少量主题图像即可定制个性化 SD3 模型,支持 DreamBooth LoRA 微调及 DreamBooth 全参数微调。在推理上,提供 SD3 模型高性能推理实现,支持多卡推理,较竟品 TensorRT 加速26%。飞桨为大模型硬件适配提供了功能完善且低成本的方案。为了满足国产芯片用户的 AI 开发需求, PaddleMIX 团队基于飞桨框架在硬件兼容性和灵活性方面的优势,深度适配了国产芯片,为用户提供了国产计算芯片上的训推能力。只需要参照 安装文档 安装多硬件版本的飞桨框架后,在模型配置文件中添加一个配置设备的参数,即可在相关硬件上使用上述工具。PaddleMIX 2.1 国产硬件适配涵盖了多模态理解模型 InternVL2 、 LLaVA 和多模态生成模型 SD3 、 SDXL 。未来我们将继续在用户使用的多种算力平台上适配 PaddleMIX 更多的模型,敬请期待。https://github.com/PaddlePaddle/PaddleMIX/blob/develop/docs/hardware_support/npu_model_list.md飞桨携手开放原子基金会发起的飞桨多模态大模型套件PaddleMIX开发大赛火热报名中,15W奖金池等你来!
此次比赛设置了面向不同能力用户的赛题任务,既有基础性的多模态数据处理,又有挑战性的多模态数据过滤、可视化。技术方案既可从单条数据和数据集多个角度进行数据质量的分析过滤,也可以从训练数据配比的角度分析训练数据的均衡性,只要有兴趣有时间都可以报名参与。
参赛项目若验证成功,数据处理方案将直接合入PaddleMIX官方套件仓库,并获得万元奖金与项目证书等奖励,作为开源贡献者推动行业降本增效!
赛题详情与报名入口:
https://competition.atomgit.com/competitionInfo?id=d65b849bc916bd42e1bc5f5ee2562efa
额外福利:
* 完成报名并参与热身赛的所有用户,即可获得AI Studio算力会员月卡,加速您的项目开发。