专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

SigLIP 2：具有改进语义理解、定位和密集特征的多语言视觉语言编码器

FightingCV · 公众号 · · 2025-02-23 06:00

正文

摘要

我们介绍了SigLIP 2，这是一个新的多语言视觉语言编码器系列，它建立在原始SigLIP成功的基础上。在这个第二个迭代中，我们将原始的图像文本训练目标与几个先前独立开发的技术整合到一个统一的方案中——这包括基于字幕的预训练、自监督损失（自蒸馏、掩码预测）和在线数据整理。通过这些改进，SigLIP 2模型在所有模型规模的核心能力方面都优于其SigLIP对应模型，包括零样本分类、图像文本检索以及在为视觉语言模型（VLM）提取视觉表示时的迁移性能。此外，新的训练方案在定位和密集预测任务上取得了显著改进。我们还训练了支持多种分辨率并保留输入原生纵横比的变体。最后，我们在包含去偏技术的多样化数据混合中进行训练，从而实现了更好的多语言理解和改进的公平性。为了使用户能够在推理成本和性能之间进行权衡，我们发布了四种尺寸的模型检查点：ViT-B（86M）、L（303M）、So400m（400M）和g（1B）。

1 引言

受CLIP [50] 和ALIGN [28] 的开创性工作启发，在数十亿规模数据集上训练的对比图像文本嵌入模型已成为对视觉数据进行高级语义理解的主流方法。这些模型能够实现与监督方法质量相当的细粒度零样本分类，并能够高效地进行文本到图像和图像到文本检索。此外，当与大型语言模型（LLM）结合构建视觉语言模型（VLM）时，它们能够实现卓越的视觉语言理解能力。

在CLIP成功的基础上，人们提出了若干改进，例如重新为图像添加字幕 [38] 、添加仅图像的自监督损失 [45, 38] ，以及使用小型解码器进行辅助任务（如字幕和定位）的训练 [67, 32, 62] 。同时，一些团队已经为开源社区发布了模型检查点 [50, 70, 27, 57, 19] 。然而，这些版本并没有将最新的改进完全整合到单个模型中，因为它们都相对紧密地遵循了CLIP的原始方法。在此，基于SigLIP训练方案 [71] ，我们整合了先前工作的几项改进，并发布了一个新的开放模型系列 ¹ ，该模型系列在CLIP的核心能力（零样本分类、检索和用于VLMs的特征提取）方面表现出色，并在传统CLIP风格模型落后的领域（包括定位和提取密集的语义表示）方面有所改进。

总而言之，SigLIP 2模型提供了以下功能：

•

强大的多语言视觉-语言编码器：SigLIP 2在英语为主的视觉-语言任务中表现出色，同时在多语言基准测试中也提供了强大的结果，并且仅需一个模型。这使得它能够应用于广泛的语言和文化背景。
•

密集特征：我们结合了自监督损失和基于解码器的损失，这带来了更好的密集特征（例如，用于分割和深度估计）并改进了定位任务（例如，指代表达式理解）。
•

向后兼容性：SigLIP 2的设计与SigLIP向后兼容，因为它依赖于相同的架构。这允许现有用户只需更换模型权重和标记器（现在是多语言的）即可在各种任务上获得改进。
•

原生纵横比和可变分辨率：SigLIP 2还包含一个NaFlex变体，支持多种分辨率并保留原生图像纵横比。这些模型有可能改进对纵横比敏感的应用，例如文档理解。
•

强大的小型模型：SigLIP 2通过使用主动数据整理中的蒸馏技术，进一步优化了小型模型（B/16和B/32模型）的性能。

在下一节中，我们将详细描述SigLIP 2训练方案。第 3 节介绍了SigLIP 2模型和基线在各种任务和基准测试中的评估结果。最后，第 4 节简要概述了相关工作，结论可在第 5 节中找到。

Refer to caption — 图1： SigLIP 2在SigLIP [71] 的sigmoid损失的基础上，增加了来自LocCa [62] 的基于标题的预训练，以及来自SILC [45] 和TIPS [38] 的自蒸馏和掩码预测（在训练的最后20%期间）。对于某些变体，其方法还包括使用数据整理进行微调 [61] 或适应原生纵横比和可变序列长度 [6, 12] 。

2 训练方法

我们将原始 SigLIP 训练方法 [71] 与基于解码器的预训练 [60, 62] 相结合，此外还包括自蒸馏和掩码预测，如 DINO 系列工作 [9, 47] 中所述（参见图 1 概述）。已证明，使用语言解码器对图像编码器进行预训练以进行字幕和指代表达理解可以提高 OCR 能力和定位 [62] ，而自蒸馏和掩码预测则可以为密集预测任务、零样本分类和检索提供更好的特征 [45, 38] 。我们没有将所有这些技术组合在一个运行中，而是遵循如下所述的分阶段方法来管理与 SigLIP 训练相比的计算和内存开销。

除了训练一组模型并将每个模型分别适应不同的分辨率（同时扭曲纵横比）外，我们还训练了在很大程度上保留其原生纵横比的处理图像的变体，例如 NaViT [12] ，并支持不同的序列长度，如 FlexiViT [6] 。我们称此变体为 NaFlex，在第 2.4.2 节中进行了描述。

最后，为了提高最小模型的质量，我们通过主动样本选择，使用隐式蒸馏对这些模型进行微调，方法来自 [61] 。

2.1 架构、训练数据、优化器

对于架构，我们遵循 SigLIP [71] ，以便现有用户可以简单地替换编码器权重。特别地，固定分辨率变体依赖于具有学习位置嵌入的标准 ViT 架构 [15] 。我们对图像和文本塔使用相同的架构，除了与 So400m 大小 [1] 的文本编码器配对的 g 大小视觉编码器。使用 MAP 头（注意力池化） [69] 对视觉和文本表示进行池化。我们将文本长度设置为 64，并使用具有 256k 词汇量的多语言 Gemma 分词器 [22] ，在分词之前将文本转换为小写。

我们使用 WebLI 数据集 [10] ，其中包含 100 亿张图像和 120 亿个替代文本，涵盖 109 种语言。为了在英语和多语言视觉语言基准测试中取得良好的质量平衡，我们构建混合数据集，其中 90% 的训练图像文本对来自英语网页，其余 10% 来自非英语网页，如 [49] 中推荐的那样。我们进一步应用来自 [2] 的过滤技术来减轻表示中与敏感属性相关的數據偏差。

除非另有说明，我们使用具有学习率 10 − 3 、解耦权重衰减 10 − 4 [37] 和梯度裁剪到范数1的Adam优化器。我们将批量大小设置为32k，并使用具有20k预热步长的余弦调度，总共训练40B个示例。我们的模型在多达2048个TPUv5e芯片 [24] 上使用完全分片数据并行策略(FSDP [72] )进行训练。

2.2 使用Sigmoid损失和解码器进行训练

在预训练的第一步中，我们通过简单地将这两个损失函数以相等的权重组合，将SigLIP [71] 与LocCa [62] 结合起来。与依赖对比损失的CLIP [50] 不同，SigLIP通过将小批量中的每个图像嵌入与每个文本嵌入组合来创建二元分类问题，并训练嵌入通过逻辑回归（sigmoid损失）对匹配和不匹配的配对进行分类。我们使用原始实现，并参考 [71] 了解详细信息。

对于LocCa，我们将具有交叉注意力的标准Transformer解码器附加到未池化的视觉编码器表示（在应用MAP head之前）。解码器遵循文本编码器的形状，只是我们增加了交叉注意力层并将层数减少了一半。除了图像字幕生成外，LocCa还针对自动参照表达式预测和基于位置的字幕生成进行训练。前者相当于预测描述特定图像区域的字幕的边界框坐标，而后者则涉及给定边界框坐标预测特定区域的字幕。区域-字幕对通过首先从alt文本中提取n-gram，然后使用 [41] 中的方法应用开放词汇检测来自动标注。此外，我们使用来自 [10] 的固定对象类别集，而不是n-gram。对于每个示例，解码器都被训练来预测所有三个目标（相当于三个解码器前向传递）。字幕目标使用并行预测 [60] 以50%的概率进行预测，即所有字幕符元都从掩码符元并行预测，无需因果注意力掩码。请参考 [62] 了解更多详情。最后，为了减少由于词汇量大而导致的内存消耗，我们实现了解码器损失的块状版本。

对于所有模型尺寸，我们将视觉编码器块大小设置为16，图像分辨率设置为256（导致图像表示序列长度为256）。最后，我们注意到解码器在这里仅用于表示学习，而不是模型发布的一部分。

2.3 使用自蒸馏和掩码预测进行训练

遵循SILC [45] 和TIPS [38] ，我们使用局部到全局对应学习以及自蒸馏和掩码预测损失 [9, 75, 47] 来增强第 2.2 节中描述的训练设置，以改进（未池化）特征表示的局部语义。此表示通常用于密集预测任务，例如分割、深度估计等。具体来说，我们根据下文的详细说明，在第 2.2 节中描述的损失中添加了两项。

第一项是来自 [45] 的局部到全局一致性损失，其中视觉编码器成为学生网络，它获得训练图像的部分（局部）视图，并经过训练以匹配教师的表示（从完整图像中导出）。此辅助匹配任务是在使用单独的MLP头计算的高维特征空间中执行的。与文献中常见的情况一样，教师参数是通过先前迭代中学生参数的指数移动平均值 (EMA) 获得的。我们依赖于单个全局（教师）视图和8个局部（学生）视图，否则遵循来自 [45] 的增强、损失和超参数。

第二个损失项是来自 [38] 的掩码预测目标。我们用掩码符元替换学生网络中50%的嵌入图像块，并训练学生以匹配掩码位置处教师的特征。然后，损失的定义与第一项（一致性损失）相同，但应用于每个块的特征，而不是池化的图像级表示。此外，学生和教师都看到相同的全局视图（学生中的掩码除外）。

我们在训练完成 80% 时添加这些损失，使用学生的参数初始化教师，并将剩余的附加参数（头部、掩码符元和相应的优化器参数）随机初始化。我们使用原始图像计算上一节中的 SigLIP 和 LocCa 损失，并在附加的增强视图上应用附加损失。这是为了确保数据增强不会对图像文本对齐产生负面影响，正如 [45] 所推荐的那样。第一个和第二个损失项的权重设置为 1 和 0.25。此外，为了平衡模型在全局/语义和密集任务上的质量，我们再次将两个损失项的权重调整为另一个因子 0.25、0.5、1.0 和 0.5，分别对应 B、L、So400m 和 g 模型大小。

2.4 适应不同的分辨率

				ImageNet-1k					COCO		Flickr		XM3600
ViT	Res.	Seq.	Model	val	v2	ReaL	ObjNet	10s.	T → I	I → T	T → I	I → T	T → I	I → T
B/32	224	49	MetaCLIP [66]	67.7	59.6	–	52.8	–	46.6	–	72.9	–	–	–
	256	64	OpenCLIP [27]	72.8	64.8	–	59.6	–	39.9	57.9	64.9	84.8	–	–
	256	64	SigLIP 2	74.0	66.9	81.4	66.1	66.6	47.2	63.7	75.5	89.3	38.3	49.0
B/16	224	196	CLIP [50]	68.3	61.9	–	55.3	–	33.1	52.4	62.1	81.9	–	–
			OpenCLIP [27]	70.2	62.3	–	56.0	–	42.3	59.4	69.8	86.3	–	–
			MetaCLIP [66]	72.4	65.1	–	60.0	–	48.9	–	77.1	–	–	–
			EVA-CLIP [57]	74.7	67.0	–	62.3	–	42.2	58.7	71.2	85.7	–	–
			SigLIP [71]	76.2	69.5	82.8	70.7	69.9	47.2	64.5	77.9	89.6	22.4	29.3
			DFN [19]	76.2	68.2	–	63.2	–	51.9	–	77.3	–	–	–
			SigLIP 2	78.2	71.4	84.8	73.6	72.1	52.1	68.9	80.7	93.0	40.3	50.7
	256	256	SigLIP [71]	76.7	70.1	83.1	71.3	70.3	47.4	65.1	78.3	91.1	22.5	29.9
	256	256	SigLIP 2	79.1	72.5	85.4	74.5	73.1	53.2	69.7	81.7	94.4	40.7	51.0
	384	576	SigLIP [71]	78.6	72.0	84.6	73.8	72.7	49.7	67.5	80.7	92.2	23.3	30.3
	384	576	SigLIP 2	80.6	73.8	86.2	77.1	74.7	54.6	71.4	83.8	94.9	41.2	51.6
	512	1024	SigLIP [71]	79.2	72.9	84.9	74.8	73.3	50.4	67.6	81.6	92.5	23.5	30.5
	512	1024	SigLIP 2	81.2	74.5	86.7	77.8	75.2	55.2	71.2	84.5	95.5	41.4	52.0
L/14	224	256	OpenCLIP [27]	74.0	61.1	–	66.4	–	46.1	62.1	75.0	88.7	–	–
			CLIP [50]	75.5	69.0	–	69.9	–	36.5	56.3	65.2	85.2	–	–
			MetaCLIP [66]	79.2	72.6	–	74.6	–	55.7	–	83.3	–	–	–
			CLIPA-v2 [33]	79.7	72.8	–	71.1	–	46.3	64.1	73.0	89.1	–	–
			EVA-CLIP [57]	79.8	72.9	–	75.3	–	47.5	63.7	77.3	89.7	–	–
			DFN [19]	82.2	75.7	–	74.8	–	59.6	–	84.7	–	–	–
L/16	256	256	SigLIP [71]	80.5	74.2	85.9	77.9	76.8	51.2	69.6	81.3	92.0	30.9	40.1
	256	256	SigLIP 2	82.5	76.8	87.3	83.0	78.8	54.7	71.5	84.1	94.5	46.5	56.5
	384	576	SigLIP [71]	82.1	75.9	87.1	80.9	78.7	52.8	70.5	82.6	92.9	31.4	39.7
	384	576	SigLIP 2	83.1	77.4	87.6	84.4	79.5	55.3	71.4	85.0	95.2	47.1	56.3
	512	1024	SigLIP 2	83.5	77.8	87.7	84.6	79.6	55.2	72.1	85.3	95.8	47.4	56.7
So/14	224	256	SigLIP [71]	82.2	76.0	87.1	80.5	78.2	50.8	69.0	76.6	90.7	16.0	22.8
	224	256	SigLIP 2	83.2	77.7	87.8	84.6	79.5	55.1	71.5	84.3	94.6	47.9	57.5
	384	729	SigLIP [71]	83.2	77.1	87.5	82.9	79.4	52.0	70.2	80.5	93.5	17.8	26.6
	384	729	SigLIP 2	84.1	78.7	88.1	86.0	80.4	55.8	71.7	85.7	94.9	48.4	57.5
So/16	256	256	mSigLIP [71]	80.8	74.1	86.1	79.5	77.1	49.4	68.6	80.0	92.1	50.0	62.8
	256	256	SigLIP 2	83.4	77.8	87.7	84.8	79.7	55.4	71.5	84.4	94.2	48.1	57.5
	384	576	SigLIP 2	84.1	78.4	88.1	85.8	80.4	56.0	71.2	85.3	95.9	48.3	57.5
	512	1024	SigLIP 2	84.3	79.1	88.1	86.2	80.5	56.0	71.3	85.5	95.4	48.3	57.6
H/14	224	256	MetaCLIP [66]	80.5	74.1	–	76.5	–	57.5	–	85.0	–	–	–
H/14	224	256	DFN [19]	83.4	77.3	–	76.5	–	63.1	–	86.5	–	–	–
g/16	256	256	SigLIP 2	84.5	79.2	88.3	87.1	82.1	55.7	72.5	85.3	95.3	48.2	58.2
g/16	384	576	SigLIP 2	85.0	79.8	88.5	88.0	82.5	56.1	72.8	86.0	95.4	48.6	57.9

表 1： SigLIP 2 的零样本分类、10 样本（10s）分类（在验证集上）和检索性能（recall@1），以及几个基线。 SigLIP 2 优于基线——通常优势很大——尽管它是多语言的。请注意，DFN [19] 依赖于在 ImageNet、COCO 和 Flickr 上微调的数据过滤网络。

2.4.1 固定分辨率变体

为了获得多个分辨率下的固定分辨率检查点，我们在训练的 95% 处恢复检查点（序列长度为 256，补丁大小为 16），将位置嵌入调整为目标序列长度（在某些情况下，使用 [6] 中的伪逆 (PI) 调整策略将补丁嵌入从补丁大小 16 调整为 14），并使用所有损失在目标分辨率下恢复训练。我们选择这种方法，因为使用较小的学习率和不使用权重衰减的最终检查点微调的常用策略 [71] 并不能在所有大小和分辨率下都产生良好的结果。

2.4.2 可变纵横比和分辨率 (NaFlex)

NaFlex结合了FlexiViT [6] （即，使用单个ViT模型支持多个预定义序列长度）和NaViT [12] （即，以其原生纵横比处理图像）的思想。这使得能够以适当的分辨率处理不同类型的图像，例如，使用更高分辨率处理文档图像，同时最大限度地减少纵横比失真对某些推理任务（例如OCR）的影响。

给定一个补丁大小和目标序列长度，NaFlex首先通过调整输入图像的大小来预处理数据，使得调整大小后的高度和宽度是补丁大小的倍数，同时1）使纵横比失真尽可能小，2）产生的序列长度最多为所需的目标序列长度。因此在宽度和高度上产生的失真分别最多为 (patch_size-1)/width 和 (patch_size-1)/height ，对于常见的分辨率和纵横比而言，这往往很小。请注意，NaViT也会产生相同类型的失真。调整大小后，图像被分割成一系列补丁，并添加补丁坐标以及带有填充信息的掩码（用于处理实际序列长度小于目标长度的情况）。

为了使用ViT处理不同的序列长度（和纵横比），我们使用双线性插值（带抗锯齿）将学习到的位置嵌入调整到调整大小后的输入图像的目标非方形补丁网格。我们将学习到的位置嵌入的长度设置为256，假设在调整大小之前有一个 16 × 16 补丁网格。当调整大小后的序列长度小于目标序列长度时，注意力层（包括MAP头）将被屏蔽以忽略额外的填充符元。

至于固定分辨率的自适应变体，我们从第 2.2 节中描述的设置（即，非保持纵横比的调整大小到256像素，导致序列长度为256）训练的默认检查点开始。我们采用训练完成90%时的检查点，然后切换到保持纵横比的调整大小，并从 { 128 , 256 , 576 , 784 , 1024 } 中统一采样每个小批量的序列长度。同时，我们将对应于最后10%的学习率调度表乘以一个 3.75 因子，以确保每个分辨率都训练了足够多的样本。对于最大的序列长度，我们进一步将批量大小减半，并将训练步数加倍，以避免内存不足错误。

为了保持实现和计算复杂度的可管理性，我们没有应用第 2.3 节中的自蒸馏和掩码预测。

图3：

将NaFlex（针对每个模型大小使用单个检查点，支持原生纵横比和可变序列长度/分辨率）与标准的方形输入SigLIP 2变体（针对每个序列长度/分辨率使用单独的检查点）进行比较。 x轴上标注的序列长度对应于NaFlex的训练序列长度。 NaFlex在训练分辨率之间进行插值的效果相当好，但外推效果不佳（未显示）。

2.5 通过主动数据整理进行蒸馏

为了最大限度地提高最小固定分辨率模型（ViT-B/16和ViT-B/32）的性能，我们在一个简短的微调阶段从教师（参考）模型中提取知识。我们将学习率降低到 10 − 5 ，移除权重衰减，并使用仅包含sigmoid图像-文本损失的额外40亿个示例继续训练这些模型。在此阶段，我们使用 [61] 中提出的ACID方法执行隐式“通过数据进行蒸馏”。简而言之，在每个训练步骤中，教师模型和当前学习者模型都用于根据其“可学习性” [42] 对示例进行评分。然后，这些分数用于从更大的超级批次 [16] 中联合选择一个大小为32k的最佳批次。在这里，我们选择过滤比率为0.5（即超级批次大小为64k）的数据，以平衡整理带来的收益和训练计算量。对于B/32模型，我们发现利用0.75的过滤比率是值得额外成本的。

我们注意到 [61] 中的作者建议，使用ACED可以获得最佳性能，ACED是一种将ACID与显式softmax蒸馏（使用在更多样化数据上训练的第二个教师）相结合的方法。但是，在这里我们提出了一种方法来调整ACID以获得这些好处而无需显式蒸馏，从而节省大量的计算量。特别地，我们没有使用两个单独的教师模型，而是采用一个在多样化数据（在本例中为SigLIP 2 So400m模型）上训练的强大的教师模型，并在 [16] 的高质量整理数据集上对其进行10亿个示例的微调。然后，我们如上所述，在ACID方法中使用这个微调后的教师模型。由于这个教师模型融合了来自预训练的概念的多样化知识以及高质量知识（来自整理的数据集），因此仅靠ACID的隐式蒸馏就足以获得ACED的好处。

图 4：

使用冻结的视觉编码器（PaliGemma [7] 阶段 1）对 Gemma 2 大语言模型训练 5000 万步后，再对 VLM 在各个数据集上进行微调（PaliGemma 阶段 3）的不同视觉编码器的比较。对于不同的模型大小和分辨率，SigLIP 2 的性能优于 SigLIP 和 AIMv2 [20] 。与表 6 中的数据相同。

3 实验和结果

3.1 零样本分类和检索

在表 1 中，我们报告了 SigLIP 2 以及基线在常见的零样本分类（ImageNet [13] 、ObjectNet [4] 、ImageNet-v2 [53] 、ImageNet ReaL [5] ）和图像文本检索基准上的性能。 SigLIP 2 的性能全面优于 SigLIP 和其他（开放权重）基线，尽管与基线（mSigLIP [71] 除外）相比，它支持多种语言。请注意，DFN [19] 在这些基准测试中与 SigLIP 2 最接近，它使用在 ImageNet、COCO 和 Flickr（即表 1 中的主要基准）上微调的网络作为过滤器来提高数据质量。由于蒸馏（第 2.5 节），SigLIP 2 对基线的改进对于 B 型号尤其显著。此外，我们观察到图像分辨率和模型大小的常见缩放趋势。

表 1 和图 2 进一步显示了在涵盖 36 种语言的 Crossmodal-3600 (XM3600) [58] 上的多语言检索性能。 SigLIP 2 的召回率大大超过 SigLIP，同时仅略微落后于 mSigLIP，而 mSigLIP 在侧重英语的基准测试中的性能则大大低于 SigLIP 和 SigLIP 2。

			Segmentation ↑		Depth ↓		Normals ↓
Model	ViT	Res.	PASCAL	ADE20k	NYUv2	NAVI	NYUv2	NAVI
CLIP [50]	L/14	224	74.5	39.0	0.553	0.073	24.3	25.5
OpenCLIP [27]	G/14	224	71.4	39.3	0.541	–	–	–
SigLIP [71]	So/14	224	72.0	37.6	0.576	0.083	25.9	26.0
SigLIP 2	So/14	224	77.1	41.8	0.493	0.067	24.9	25.4
SigLIP [71]	So/14	384	73.8	40.8	0.563	0.069	24.1	25.4
SigLIP 2	So/14	384	78.1	45.4	0.466	0.064	23.0	25.0

表 2：探测冻结的 SigLIP 2 表示在各种密集预测任务中的表现（指标：分割：mIoU；深度：RMSE；法线：角度 RMSE）。 SigLIP 2 的性能优于其他几种流行的开放权重模型，通常优势显著。

3.1.1 NaFlex 变体

图 3 将固定分辨率的正方形纵横比（标准）SigLIP 2 与保持纵横比的 NaFlex 变体（所有序列长度使用一个检查点）进行了比较，该比较是序列长度的函数。除了上一节列出的检索基准外，我们还添加了一系列以 OCR/文档/屏幕为中心的图像文本基准，即 TextCaps [55] 、HierText [36] 、SciCap [26] 和 Screen2Words [63] 。在大多数这些检索基准测试中，NaFlex 变体的性能优于标准变体，尤其是在序列长度较小（因此分辨率较小）的情况下，这种情况往往更容易受到纵横比失真的影响。在主要基于自然图像的基准测试中，标准 B 型变体的性能优于 NaFlex，这可以说是由于蒸馏步骤，而对于 So400m 架构，两者不相上下。这是值得注意的，因为标准变体也受益于自蒸馏阶段（第 2.3 节）。

3.2 SigLIP 2 作为 VLMs 的视觉编码器

CLIP 和 SigLIP 等视觉编码器的一种常用用例是为 VLMs [3, 32, 48, 35, 7, 39, 59] 提取视觉表示。常用的范例是将预训练的视觉编码器与预训练的 LLM 相结合，并在丰富的视觉语言任务混合体上进行多模态训练。为了评估 SigLIP 2 在此应用中的性能，我们开发了一个类似于 PaliGemma 2 [56] 的方法。具体来说，我们将 SigLIP 2 视觉编码器和基线与 Gemma 2 2B LLM [23] 相结合，并在来自 [7, 56] 的 5000 万个 Stage 1 训练混合示例上训练 LLM，这些示例涉及字幕、OCR、地面真相字幕、视觉问答、检测和实例分割（最后四个任务的标注是机器生成的，详情请参见 [7, Sec. 3.2.5] ）。我们保持视觉编码器冻结（这基本上不会影响质量 [7, Sec. 5.4] ），并缩短训练时间以反映典型的开放模型用例。然后，使用来自 [56] 的迁移设置，在广泛的下游任务上微调生成的 VLM。为了了解输入分辨率的影响，我们分别在 224 或 256 分辨率（对于补丁大小分别为 14 和 16 的模型，以提取 256 个图像符元）和 384 像素下进行了实验，但与 [7, 56] 不同的是，我们在 384 像素下重复阶段 1，而不是从 224 像素变体开始。

图 4 显示了每个数据集微调后的结果。总体而言，SigLIP 2 在各种分辨率和模型尺寸下都明显优于 SigLIP。对于L尺寸的视觉编码器，SigLIP 2 也优于最近发布的 AIMv2 模型 [20] 。图 4 中的数据也可以在表 6 中找到。

Model	ViT	A-847	PC-459	A-150	PC-59	VOC-20	VOC-21
CLIP [50]	L/16	10.8	20.4	31.5	62.0	96.6	81.8
OpenCLIP [27]	G/14	13.3	21.4	36.2	61.5	97.1	81.4
SigLIP [71]	L/16	14.0	23.9	37.5	61.6	96.1	81.1
SigLIP 2	L/16	14.3	24.1	38.8	62.4	97.0	82.3

表3：我们使用 Cat-Seg [11] 来比较几个类似于 [45] 的模型的开放词汇分割性能 (mIoU)。我们观察到，SigLIP 2 比同类甚至更大的模型提供了可观的改进。

3.3 密集预测任务

3.3.1 语义分割、深度估计、表面法线估计

我们采用来自 [38] 的评估协议，并使用线性层或 DPT 解码器 [52] 探测冻结的 SigLIP 2 表示，在涵盖语义分割、单目深度估计和表面法线估计的六个基准测试中（有关协议和超参数的详细信息，请参见 [38, Sec. 4.1] ）。请注意，我们做了一个（必要的）更改：原始方法将 CLS 符元连接到每个块特征向量中，而我们则连接 MAP 头的输出嵌入，因为我们使用的是 MAP 头而不是 CLS 符元。表 2 中的结果表明，SigLIP 2 优于几个之前的开放式、CLIP 风格的视觉编码器，包括 SigLIP，通常具有显著的优势。

3.3.2 开放词汇分割

开放词汇分割旨在开发能够分割超出固定训练词汇表的任何新颖类别的模型。在这里，我们评估 SigLIP 2 在这项任务上的性能。我们使用 Cat-Seg [11] 作为框架，并根据 [45] 中提出的方法比较不同模型的性能。我们在 COCO-Stuff-164k [8] 上训练 Cat-Seg，其中包含 172 个类别，然后在具有不同词汇量的各种代表性数据集上对其进行测试：ADE20k [74, 73] 包含 847 或 150 个类别 (A-847/A-150)、Pascal Context (PC-459/PC-59) [43] 和 Pascal VOC (VOC-20/VOC-21) [17] 。结果可以在表 3 中找到。我们观察到，在 L/16 尺寸下，SigLIP 2 的性能优于 SigLIP，甚至超过了更大的 OpenCLIP G/14 模型 [27]