专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

DeepMind悄悄发布PaliGemma二代，最易微调「视觉语言全能王」来了，多项任务登顶SOTA

新智元 · 公众号 · AI · 2024-12-11 11:30

主要观点总结

PaliGemma 2是谷歌发布的可调视觉语言模型，它在多个任务上取得了业界领先的性能，包括图像描述、乐谱识别和医学图像报告生成。该模型提供了不同尺寸和分辨率的版本，可以根据任务需求进行微调。其主要特点包括模型尺寸、生成详细的图像描述、以及在化学式识别、乐谱识别、空间推理和胸部X光报告生成方面的优秀性能。PaliGemma 2还进行了大量的实验来探索不同尺寸和分辨率的模型在各项任务上的表现。

关键观点总结

关键观点1: PaliGemma 2的主要特点和功能

PaliGemma 2是一个可调视觉语言模型，具有多种功能，包括图像描述、乐谱识别和医学图像报告生成等。它提供了不同尺寸和分辨率的版本，用户可以根据不同的任务需求进行微调。该模型在图像描述方面能够生成详细的上下文相关描述，而不仅仅是对图像中的对象进行简单的识别。

关键观点2: PaliGemma 2在多种任务上取得领先性能

PaliGemma 2在文本检测和识别、表格结构识别、乐谱识别、长图像描述生成、空间推理以及放射图像报告生成等任务上，都取得了领先的性能。这些任务涵盖了从自然图像到医学图像的多个领域，展示了PaliGemma 2的广泛适用性。

关键观点3: 模型尺寸和分辨率对性能的影响

研究人员探索了不同尺寸和分辨率的模型在完成各种任务时的表现。实验结果表明，增加模型尺寸和使用更高清晰度的图像都可以提高模型的性能。但是，对于某些任务，如涉及文本、文档、屏幕和图表理解的任务，提高图像清晰度带来的收益更大。

关键观点4: PaliGemma 2的实验结果

研究人员对PaliGemma 2进行了广泛的实验，包括在多种数据集上进行微调并评估其性能。实验结果表明，PaliGemma 2在多个任务上取得了最先进的性能，包括高级光学字符识别（OCR）、表格结构识别、乐谱识别和放射报告生成等。

正文

新智元报道

编辑：LRS

【新智元导读】 PaliGemma 2在多个任务上取得了业界领先的成绩，包括图像描述、乐谱识别和医学图像报告生成；并且提供了不同尺寸和分辨率的版本，用户可以根据不同的任务需求进行微调，以获得更好的性能。

OpenAI的发布会仿佛连续剧，让人眼花缭乱，谷歌也悄悄发布了PaliGemma 2模型，迈向可调视觉语言模型的下一代。

今年5月，谷歌发布PaliGemma，也是Gemma家族中的第一个视觉语言模型，致力于模型民主化，降低视觉模型的使用难度。

PaliGemma 2模型以更高性能的Gemma 2为基座，增加了视觉能力，微调起来更容易，性能也更好。

技术报告中分析了任务类型、模型尺寸和分辨率之间的相互作用，相比PaliGemma进一步扩大了迁移任务的数量和范围，包括与OCR相关的任务，如表格结构识别、分子结构识别、乐谱识别，以及更长、更细粒度的图像描述和放射学报告生成，并且在这些任务上都取得了最先进的结果。

报告链接：https://arxiv.org/pdf/2412.03555

PaliGemma 2的主要特点为：

1. 模型尺寸包括3B、10B、28B 参数，可适应任务分辨率为224px、448px、896px的视觉输入。

2. PaliGemma 2可以为图像生成详细的、上下文相关的描述，而不只是简单的对象识别来描述动作、情感和场景的整体叙述。

3. PaliGemma 2在化学式识别、乐谱识别、空间推理和胸部X光报告生成方面的性能更强。

PaliGemma一代的用户可以直接升级到PaliGemma 2，无需进行重大代码修改即可获得性能提升。

模型架构

研究人员遵循与PaliGemma相同的建模、训练和数据设置：使用预训练SigLIP-So400m视觉编码器，通过线性投影将「嵌入序列」映射到Gemma 2的输入空间；视觉嵌入与文本提示结合后，输入到Gemma 2语言模型；最后通过自回归采样从语言模型中获得预测。

研究人员将PaliGemma 2的预训练分为三个阶段（不包括对单模态组件进行预训练）。

第一阶段，结合预训练的SigLIPSo400m和Gemma 2的原始模型权重，并在超过10亿个多模态任务样本上进行训练；图像分辨率为224*224像素；在此阶段没有冻结任何参数。

第二阶段，先在448*448像素分辨率下对5000万个样本进行训练，然后在896*896像素分辨率下训练1000万个样本。在任务选择上，增加那些「能从高分辨率图像中受益的任务」比例，增加输出序列的长度，以促进长视觉文本序列的OCR等任务的学习。

第三阶段，将第一或第二阶段的检查点微调到目标任务。PaliGemma包括一系列学术基准，包括一些涉及多张图像和短视频的基准。

此外，研究人员还探索了文档的相关任务、长图像描述生成和医学图像理解的新应用。

实验结果

研究人员测试了PaliGemma 2在文本检测和识别、表格结构识别、分子结构识别、光学乐谱识别（optical music score recognition）、长图像描述生成、空间推理以及放射图像报告生成（radiography report generation）任务上的性能。

模型尺寸和分辨率

研究人员探索了不同尺寸和分辨率的模型在完成各种任务时的表现如何，主要选择了三种尺寸（3B、10B和28B），并在两种不同的图像清晰度（224像素和448像素）下对模型进行训练，任务包括了对自然照片、文件、图表和视频的图像描述、视觉问答和指代分割等。

从结果中可以发现，让模型处理更高清晰度的图像或者使用更大尺寸的语言模型，都会增加预测时的计算量，但大多数任务都能从这两项改进中获得性能提升。

涉及文本、文档、屏幕和图表理解的任务，提高图像清晰度带来的收益更大，可能是因为这些任务中使用的图像原生分辨率就比224像素大，所以提高分辨率后效果更明显。

涉及多语言数据或需要复杂视觉推理的任务，主要从增大模型尺寸中获益。

文本检测和识别

在高级光学字符识别（OCR）任务时，模型需要从图像中定位和识别出单词，输出结果为一个数据对「转录文本，边界框」，研究人员遵循HierText竞赛的规则，使用单词级别的精确度、召回率和F1分数作为评估指标。

如果单词结果与真实边界框的交并比（IoU）大于或等于0.5，并且转录文本与真实文本匹配，则认为该单词结果是true positive，但HierText协议不会归一化字母大小写、标点符号，也不会根据文本长度进行过滤，而是直接将预测结果与真实结果进行比较。

研究人员使用常见的OCR基准测试，包括ICDAR’15、Total-Text、MLT17和MLT19、HierText、TextOCR、IntelOCR等多个数据集的训练分割混合上对PaliGemma 2进行了微调，并在ICDAR’15和Total-Text测试集上进行评估。

结果显示，在896像素分辨率下，PaliGemma 2 3B的性能超过了最先进的HTS模型。

需要注意的是，PaliGemma 2并没有依赖于OCR专用的架构组件，只通过微调一个通用的视觉-语言模型（VLM）即实现了sota，展现了PaliGemma 2的多功能性，以及在第2和第3阶段进行OCR相关预训练的优势。

降低分辨率后，预测质量大幅下降，并且增大模型尺寸并没有带来改进。

表格结构识别

表格结构识别任务的目标是从文档图像中提取表格文本内容、相应的边界框坐标以及HTML格式的表格结构。

研究人员选择PubTabNet的516k张表格数据图像，和FinTabNet数据集中来自标普500公司年报的113k个财务报告表格，去除边界框超出图像框架的数据后，把图像填充为正方形以匹配目标输入分辨率。

研究人员使用树编辑距离相似度（TEDS）和网格表格相似度（GriTS）两个指标来评估模型质量，主要测量单元格文本内容、单元格拓扑/结构和边界框质量。

结果显示，PaliGemma 2在大多数指标下都展现出了最高的性能，并且增加模型尺寸也没有对模型的性能带来提升，而使用更低的图像分辨率则会导致质量出现小幅下降。

乐谱识别

研究人员使用了GrandStaff数据集进行微调，包含53.7k张图像，基于标准化的平均编辑距离、字符错误率（CER）、符号错误率（SER）、行错误率（LER）进行评估。