专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

跨模态微调：先对齐后细化

FightingCV · 公众号 · · 2024-12-15 09:00

正文

摘要

对大型预训练模型进行微调已在视觉和NLP等充分研究的模态中取得了巨大进展。然而，由于缺乏相关的预训练模型，许多其他模态尚未观察到类似的进展。在这项工作中，我们提出了 Orca ，这是一个通用的跨模态微调框架，它将单个大型预训练模型的适用性扩展到多种模态。 Orca 通过“先对齐后细化”的工作流程适应目标任务：给定目标输入， Orca 首先学习一个嵌入网络，该网络将嵌入特征分布与预训练模态对齐。然后，在嵌入数据上对预训练模型进行微调，以利用跨模态共享的知识。通过大量的实验，我们表明 Orca 在包含来自12个模态的60多个数据集的3个基准测试中获得了最先进的结果，优于各种手工设计、AutoML、通用和特定任务的方法。我们通过一系列消融研究强调了数据对齐的重要性，并证明了 Orca 在数据有限的环境中的实用性。

1 引言

图1 : 虎鲸的三阶段微调工作流程能够快速自动地利用大型预训练模型来解决各种任务。在阶段1中，给定目标数据 ( x t , y t ) 和预训练的Transformer主体 g s ，虎鲸构造一个嵌入器架构 f t 将输入映射到 g s 的维度，以及一个预测器架构 h t 将 g s 的输出转换为目标输出，例如分类logits。 f t 和 h t 的权重是随机初始化的。在阶段2中，虎鲸通过最小化嵌入式目标特征与某些模态内源特征之间的分布距离来学习 f t 。第三阶段，虎鲸微调 f t 、 g s 和 h t 以最小化任务损失。

大型预训练模型的兴起是过去几年机器学习 (ML) 研究的一个标志。利用迁移学习，这些模型可以将从大量未标记数据中学到的知识应用于下游任务，并在多种模式下表现出色，例如语言、视觉和语音处理 (例如，Radford & Narasimhan, 2018; Carion et al., 2020; Baevski et al., 2020) 。现有研究集中在这些经过充分研究的领域内的模态内迁移 ——例如，BERT 模型 (Devlin et al., 2019) 通常仅适用于基于文本的任务，而视觉 Transformer (Dosovitskiy et al., 2021) 仅适用于图像数据集。

但是，想象一下，如果我们可以使用预训练的 BERT 模型来解决基因组学任务，或者使用视觉 Transformer 来解决偏微分方程呢？有效的 跨模态微调 可以对鲜为人知的领域产生巨大影响，例如物理和生命科学、医疗保健和金融。事实上，在这些领域设计专门的网络具有挑战性，因为它需要领域知识和机器学习专业知识。自动化机器学习 (AutoML) (例如，Roberts et al., 2021; Shen et al., 2022) 和通用架构 (例如，Jaegle et al., 2022) 可用于简化此过程，但它们仍然需要从头开始训练模型，这对于数据稀疏的模态来说是困难的。将在数据丰富的模态中预训练的模型应用于这些新问题可以潜在地减轻建模和数据方面的问题，从而减少开发高质量特定任务模型所需的人力。

尽管具有潜在影响，但跨模态微调的总体可行性仍然是一个悬而未决的问题。近期研究已通过将预训练语言模型应用于视觉任务 (Dinh等人，2022；Lu等人，2022) 、参照游戏 (Li等人，2020c) 和强化学习 (Reid等人，2022) 证明了其可能性，但这些方法中的许多方法都是临时性的，依赖于手动提示工程或架构附加组件来解决特定任务。此外，它们通常不会产生与从头开始训练的模型具有竞争力的模型。我们旨在解决这两个缺点。

在这项工作中，我们提出了一种名为 Orca 的微调工作流程，它弥合了跨模态学习中通用性和有效性之间的差距。我们的关键见解是在与任务无关的微调之前执行特定于任务的数据对齐。通过将不熟悉模态的数据分布与熟悉模态的数据分布匹配， Orca 可以防止预训练权重的扭曲，并利用预训练模型中编码的知识，从而实现比朴素微调更好的结果，并在三个基准测试中取得最先进的性能——NAS-Bench-360 (Tu等人，2022) 、PDEBench (Takamoto等人，2022) 和OpenML-CC18 (Vanschoren等人，2014) ——这些基准测试包含来自12个不同数据模态的60多个数据集。

具体来说， Orca 通过三阶段工作流程（图 1 ）将任何预训练的Transformer模型适配到下游任务。首先， Orca 生成一个特定于任务的嵌入网络架构，该架构将目标输入映射到Transformer层可以处理的序列特征( 维度对齐 )。然后，训练嵌入网络以最小化嵌入目标特征与模态内参考数据集的特征之间的分布距离 ¹ ( 分布对齐 )。最后，对整个目标模型进行微调，以根据任务目标校准权重。在第 3.4 节中，我们评估了用于分布对齐的几种标准距离度量，发现最优传输数据集距离 (Alvarez-Melis & Fusi, 2020) 获得了最佳的经验性能，这可能是因为它考虑了数据的标签分布和聚类结构。因此，我们在随后的实验中使用它。

我们从广度、深度以及与现有工作的比较三个方面验证了 Orca 的有效性。在广度方面，我们在NAS-Bench-360 (Tu等人，2022) 上评估 Orca ，这是一个AutoML基准测试，包括10个具有不同输入维度（一维和二维）、预测类型（点和密集）和模态（视觉、音频、心电图、物理、蛋白质、基因组学和宇宙射线）的任务。结合我们的分析，实证结果表明：

•

跨模态微调很有前景： Orca 优于各种手工设计的模型、AutoML方法和通用架构，在7个任务中排名第一，在所有任务中都排名前三。我们还观察到 Orca 在模拟有限数据设置下的有效性。
•

对齐至关重要：我们发现对齐质量与下游精度之间存在经验相关性。 Orca 显著优于朴素微调的事实表明数据对齐非常重要。
•

对齐可以高效地进行：我们的嵌入学习时间仅为 ∼ 微调时间的10%。

我们深入研究了实际模态中的两个已建立的基准：用于求解偏微分方程的PDEBench (Takamoto et al., 2022) 和用于对表格数据进行分类的OpenML-CC18 (Vanschoren et al., 2014) 。我们进行了深入分析，以证明 Orca 如何使视觉和语言Transformer适应学习目标任务的有意义表示。它与最先进的方法的性能相匹配，包括用于PDEBench的FNO (Li et al., 2021) ，用于OpenML-CC18的AutoGluon (Erickson et al., 2020) 和TabPFN (Hollmann et al., 2022) 。

最后，我们与特定任务的跨模态方法进行了比较，这些方法将表格数据转换为文本 (Dinh et al., 2022) 或图像 (Zhu et al., 2021) 以重用现有模型。结果清楚地表明 Orca 既更有效也更通用。我们的代码已公开发布在https://github.com/sjunhongshen/ORCA。

2 相关工作

表1 ：现有用于不同任务的模型开发方法摘要。

		Task-specific	General-purpose	Supports transfer to different:
		adaptation?	workflow?	input dim?	output dim?	modality?
Task-specific	Hand-designed models	✓
learning	AutoML models	✓	✓
In-modality transfer	Unimodal DA	✓		✓
	Uni/Multimodal fine-tuning	✓		✓	✓
	General-purpose models	✓	✓	✓	✓
Cross-modal transfer	Heterogeneous DA	✓		✓		✓
	Task-specific fine-tuning	✓		✓	✓	✓
	FPT		✓	✓	✓	✓
	Orca	✓	✓	✓	✓	✓

在本节中，我们将回顾AutoML、模态内迁移和跨模态迁移领域中几个相关的研究工作。表 1 总结了这些组别及其相关轴线，并将其与 Orca 进行了对比。

用于各种任务的AutoML 是一个不断发展的研究领域，NAS-Bench-360 基准测试 (Tu et al., 2022) 、2022 AutoML 十项全能竞赛以及最近针对此问题的各种神经架构搜索 (NAS) 方法（例如 AutoML-Zero (Real et al., 2020) 、XD (Roberts et al., 2021) 和 DASH (Shen et al., 2022) ）都证明了这一点。与反复产生设计新架构并从头开始训练它们的 NAS 方法不同， Orca 采用微调方法并在数据丰富的模式中重用现有模型。也就是说，鉴于共享的潜在动机，我们在实验评估中使用了 NAS-Bench-360，并与最先进的 AutoML 基线进行了比较。

单峰域适应 (DA) 是一种转导式迁移学习的形式，其中源任务和目标任务相同，但域不同 (Pan & Yang, 2009; Wang & Deng, 2018) 。大多数 DA 方法都假设源数据和目标数据具有相同的输入空间和支持，并且关注不同的输出空间或联合/边缘分布。最近的工作研究了更一般的设置，例如不同的特征空间（异构 DA）或标签空间（通用 DA）。我们对跨模态微调的关注更进一步，即输入空间和输出空间支持都不重叠的情况。

单峰微调是一种更灵活的迁移方法，可以应用于具有不同标签或输入空间的下游任务。预训练模型用于语言 (例如，Jiang et al., 2020; Aghajanyan et al., 2021) 、视觉 (例如，Li et al., 2022; Wei et al., 2022) 、语音 (例如，Jiang et al., 2021; Chen et al., 2022) 、蛋白质 (Jumper et al., 2021) 和机器人技术 (Ahn et al., 2022) 等领域的模态内微调。适配器网络 (He et al., 2022) 已经被开发出来以提高模态内微调的性能。多模态微调通过学习多个模态的嵌入来扩展单个预训练模型的适用模态 (例如，Radford et al., 2021; Hu & Singh, 2021; Kim et al., 2021; Alayrac et al., 2022) ，但这些方法仍然专注于适应模态内任务。

通用模型提出了适用于各种任务的灵活架构，例如光流、点云和强化学习 (Jaegle et al., 2021, 2022; Reed et al., 2023) 。这些方法使用来自不同任务的大量数据从头开始训练多任务 Transformer。虽然比单峰模型更通用，但它们仍然专注于迁移到所考虑的预训练模态内的问题。尽管如此，Transformer 在模态内微调方面的成功促使我们专注于为跨模态任务调整 Transformer 架构。

异构域适应 (HDA) 考虑源域和目标域之间不等价的特征空间。虽然大多数 HDA 方法处理相同模态不同维度的数据迁移，例如不同分辨率图像之间的迁移，但确实有一些工作研究了跨模态文本到图像的迁移 (Yao et al., 2019; Li et al., 2020b) 。然而，HDA 的一个关键假设是目标任务和源任务相同。相反，我们考虑在具有不同任务和标签集的截然不同的模态之间进行更灵活的知识迁移，例如应用 Swin Transformer 来求解偏微分方程或应用 RoBERTa 来对心电图进行分类。

跨模态特定任务微调是最近的一条研究方向，大多数工作都集中在将语言模型迁移到其他模态，如视觉 (Kiela et al., 2019) 、指称游戏 (Li et al., 2020c) 、强化学习 (Reid et al., 2022) 和蛋白质序列 (Vinod et al., 2023) 。这些工作提供了预训练模型跨模态迁移能力的初步证据。然而，它们侧重于对单个模态进行手工定制，例如，通过添加临时编码器将代理消息 (Li et al., 2020c) 或决策轨迹 (Reid et al., 2022) 转换为符元。即使不依赖于微调，像 LIFT (Dinh et al., 2022) 这样的工作试图通过提示进行跨模态学习 (Liu et al., 2021a) ，仍然需要将任务临时转换为自然文本。

冻结预训练 Transformer (FPT) (Lu et al., 2022) 是一种跨模态微调工作流程，它将输入转换为与预训练模型兼容的形式。尽管 FPT 和 Orca 都是通用的，但 FPT 没有考虑模态差异（图 1 中没有阶段 2），但我们证明了这一步骤对于获得有效的预测模型并优于现有基线是必要的。

3 Orca 工作流程

在本节中，我们将形式化问题设置并介绍我们用于调整预训练 Transformer 的工作流程。

问题设置。一个域 𝒟 由特征空间 𝒳 、标签空间 𝒴 和联合概率分布 P ( 𝒳 , 𝒴 ) 组成。在我们研究的跨模态设置中，目标（最终任务）域 𝒟 t 和源（预训练）域 𝒟 s 不仅在特征空间上有所不同，而且在标签空间上也存在差异，并且扩展到具有不同的概率分布，即 𝒳 t ≠ 𝒳 s 、 𝒴 t ≠ 𝒴 s 和 P t ( 𝒳 t , 𝒴 t ) ≠ P s ( 𝒳 s , 𝒴 s ) 。这与域适应解决的转导迁移学习设置形成对比，在域适应中，源域和目标域共享标签空间和最终任务 (Pan & Yang, 2009) 。

给定从域 𝒟 t 中联合分布 P t 采样的目标数据 { x i t , y i t } i = 1 n t ，我们的目标是学习一个模型 m t ，该模型能够正确地将每个输入 x t 映射到其标签 y t 。我们有兴趣使用预训练的Transformer来实现这一点。因此，我们假设可以访问一个使用源域 𝒟 s 中的数据 { x i s , y i s } i = 1 n s 进行预训练的模型 m s 。然后，给定一个损失函数 l ，我们旨在基于 m s 开发 m t ，使得 𝔼 ( x t , y t ) ∼ P t [ l ( m t ( x t ) , y t ) ] 最小化。此问题公式没有明确定义模态，并且包括模态内和跨模态迁移。鉴于我们希望探索的任务的普遍性和在数学上区分这两种设置的难度，我们依靠语义来做到这一点：直观地，跨模态数据（例如，自然图像与偏微分方程）彼此之间的差异大于模态内数据（例如，在两个地理位置拍摄的照片）。

在定义了学习问题之后，我们现在介绍我们的三阶段跨模态微调工作流程：（1）生成特定于任务的嵌入器和预测器以支持不同的输入输出维度；（2）预训练嵌入器以对齐源特征分布和目标特征分布；以及（3）微调以最小化目标损失。

3.1 用于维度对齐的架构设计

将预训练模型应用于新的问题通常需要解决维度不匹配的问题。为了使 Orca 适用于不同的输入/输出维度，我们将基于Transformer的学习器 m 分解为三个部分（图 1 阶段1）：一个嵌入器 f ，它将输入 x 转换为一系列特征；一个模型主体 g ，它对嵌入的特征应用一系列预训练的注意力层；以及一个预测器 h ，它生成具有所需形状的输出。 Orca 使用预训练的架构和权重来初始化模型主体 g ，但用旨在将目标数据与预训练模型的嵌入维数匹配的层替换 f 和 h 。下面，我们将详细描述每个模块。

自定义嵌入网络。将与预训练模型兼容的特征空间表示为 𝒳 ˙ 。对于最大序列长度为 S 且嵌入维度为 D 的Transformer， 𝒳 ˙ = ℝ S × D 。目标嵌入器 f t : 𝒳 → 𝒳 ˙ 旨在接收来自 𝒳 的任意维度的张量，并将其转换为 𝒳 ˙ 。在 Orca 中， f t 由一个卷积层组成，该卷积层具有输入通道 c i n 、输出通道 c o u t 、卷积核大小 k 和步长 k ，它将视觉Transformer中使用的图像块操作推广到一维和更高维的情况。我们将 c i n 设置为 x 的输入通道，并将 c o u t 设置为嵌入维度 D 。我们可以将 k 视为超参数，或者将其设置为输出形状（不包括通道维度 ≤ S ）的乘积最小的值，以充分利用预训练模型的表示能力。在后一种情况下，当我们展平卷积后输出张量的非通道维度，进行填充然后转置后，我们可以得到形状为 S × D 的序列特征。最后，我们添加一个层归一化和位置嵌入以获得 x ˙ 。

预训练Transformer主体。模型主体 g 以嵌入 x ˙ ∈ 𝒳 ˙ 作为输入，并输出特征 y ˙ ∈ 𝒴 ˙ ；点号用于区分这些中间表示与原始输入和标签。对于基于Transformer的 g ，输入和输出特征空间 𝒳 ˙ , 𝒴 ˙ 均为 ℝ S × D 。

自定义预测头。最后，目标模型的预测头 h t 必须以 y ˙ ∈ 𝒴 ˙ 作为输入并返回一个依赖于任务的输出张量。不同的任务通常指定不同类型的输出，例如，在 ℝ K 中的分类logits，其中 K 是类别数，或者空间维度与输入相同的密集映射，每个索引的logits对应于 K 个类别。因此，定义特定于任务的输出模块并针对新问题对其进行微调至关重要。在 Orca 中，我们使用了预测器的最简单实例。对于分类，我们沿序列长度维度应用平均池化，以获得长度为 D 的1D张量，然后使用一个线性层将 D 映射到 K 。对于密集预测，我们将线性层应用于序列输出，因此生成的张量的形状为 ( S , k ndim ( 𝒴 ) K ) ，其中 k ndim ( 𝒴 ) 是嵌入器卷积核步长为 k 的下采样因子。这将上采样到嵌入器下采样的相同因子。然后，我们可以将张量塑造成所需的输出维度。 ² .

使用基于预训练模型但又与目标任务兼容的架构，我们现在可以将注意力转向数据对齐以实现更好的适应。

表2 ： 10个不同任务上的预测误差（ ↓ ）。 “NAS-Bench-360”指的是论文中评估的所有AutoML基线的任务最佳结果，包括DARTS (Liu et al., 2019b) 、DenseNAS (Fang et al., 2020) 和其他4个。 “FPT”指的是对RoBERTa/Swin的层归一化进行微调。在7/10个问题上， Orca 在所有竞争对手中排名第一。误差条见附录 A.4.2 。

	CIFAR-100	Spherical	Darcy Flow	PSICOV	Cosmic	NinaPro	FSD50K	ECG	Satellite	DeepSEA
	0-1 error (%)	0-1 error (%)	relative ℓ 2	MAE ₈	1-AUROC	0-1 error (%)	1- mAP	1 - F1 score	0-1 error (%)	1- AUROC
Hand-designed	19.39	67.41	8E-3	3.35	0.127	8.73	0.62	0.28	19.80	0.30
NAS-Bench-360	23.39	48.23	2.6E-2	2.94	0.229	7.34	0.60	0.34	12.51	0.32
DASH	24.37	71.28	7.9E-3	3.30	0.19	6.60	0.60	0.32	12.28	0.28
Perceiver IO	70.04	82.57	2.4E-2	8.06	0.485	22.22	0.72	0.66	15.93	0.38
FPT	10.11	76.38	2.1E-2	4.66	0.233	15.69	0.67	0.50	20.83	0.37
Orca	6.53	29.85	7.28E-3	1.91	0.152	7.54	0.56	0.28	11.59	0.29

3.2 用于分布对齐的嵌入器学习

直观地说，跨相似模态的知识转移应该比跨远距离模态更容易。因此，给定新模态中的目标任务，我们的目标是操纵目标数据，使它们更接近预训练模态。实现这一点的一种方法是在实际微调模型主体之前训练嵌入器，以使嵌入的目标特征类似于预训练模型主体已知性能良好的源特征。

正式地，令 f s : 𝒳 s → 𝒳 ˙ 表示预训练的源嵌入器（ m s 中将原始数据转换为序列特征的部分）和 f t 表示上一节中讨论的随机初始化的目标嵌入器。我们可以学习 f t 以最小化目标嵌入 ( f t ( x t ) , y t ) 的联合分布与源嵌入 ( f s ( x s ) , y s ) 的联合分布之间的距离。衡量这种分布距离的方法有很多。为了解它们是否会以不同的方式影响适应性，我们在第 3.4 节对三个代表性方法进行了预备性研究。

3.3 下游适应的权重细化

在训练嵌入器之后，我们通过更新所有模型参数以最小化目标损失来执行完全微调。此步骤进一步使嵌入器和预测器与预训练模型对齐。在第 4.1 节中，我们将 Orca 与没有数据对齐的标准微调进行比较，并表明我们的方法在提高性能的同时降低了方差。有些正交工作研究了如何最好地微调模型 (例如，Liu等人，2022；He等人，2022) 。我们在第 4.1 节中与FPT中使用的一种策略 (Lu等人，2022) 进行了比较，但将进一步的探索留待以后的工作。

3.4 分布对齐度量的评估

我们评估了在嵌入学习过程中用于数据对齐的三个距离度量的有效性：(1) 成对欧几里得距离，它在不使用任何分布信息的情况下对齐数据集的尺度和范围；(2) 基于矩的最大均值差异 (MMD) (Gretton等人，2012) ，它使用 f ( x ) 的分布来对齐特征均值；以及 (3) 最优传输数据集距离 (OTDD) (Alvarez-Melis & Fusi, 2020) ，它同时使用特征和标签分布 ( f ( x ) , y ) 来对齐数据集的高级聚类结构。

我们将每个度量替换到 Orca 工作流程中（实现细节在第 4 节中），并在来自不同模态的10个任务上对其进行评估（基准详细信息在第 4.1 节中）。汇总性能（图 2 ）和每个任务的排名（附录 A.4.4 ）表明，使用OTDD进行嵌入器学习具有最佳的整体结果，因此我们在后续实验中使用它。我们推测其良好的性能是由于在对齐过程中如何考虑标签信息。

事实上，对于源数据集和目标数据集，OTDD都将每个类别标签表示为类内特征上的分布： y ↦ P ( 𝒳 ˙ | 𝒴 = y ) ³ . 这将源标签集和目标标签集转换到 𝒳 ˙ 上的分布共享空间。然后，我们可以使用与 𝒳 ˙ ，这又使我们能够测量 𝒳 ˙ × 𝒴 中的分布差异：

d 𝒳 ˙ × 𝒴 ( ( x ˙ t , y t ) , ( x ˙ s , y s ) ) = ( d 𝒳 ˙ ( x ˙ t , x ˙ s ) p + d 𝒴 ( y t , y s ) p ) 1 / p .

关于精确的公式，请读者参考 Alvarez-Melis & Fusi (2020) 。然而，我们的实验结果表明，当我们学习 f t 以最小化OTDD时，我们不仅对齐单个数据点，而且还在嵌入空间中将具有相同标签的特征分组在一起，这可能会促进微调。

图2 ：使用不同对齐指标的 Orca 性能曲线 (Dolan & Moré, 2002) 。值越大（方法在 τ 因子内的最佳任务比例越高）越好。 OTDD曲线位于左上方，表明它通常是最佳的。

尽管OTDD在数据对齐方面非常有效，但其计算成本通常很高。在附录的 A.1 节中，我们分析了它的计算复杂度，并提出了一种使用类内子采样的有效近似方法。

在结束本节之前，我们强调我们的目标不是发现最佳的对齐指标，而是提供一个通用的微调框架，无论使用何种指标都能有效工作。因此，我们将设计更合适的距离度量留待未来的工作。

4 实验

表3 ： Orca 的预测错误 ( ↓ )、天真的微调以及从头开始训练 RoBERTa/Swin。我们考虑调整所有参数（完整设置）与仅调整层归一化参数（FPT设置）。虎鲸在两种情况下都更好。全量微调通常优于仅调整层归一化这一事实也与最近的观察结果一致 (Rothermel et al., 2021) 。误差条见附录 A.4.3 。

	CIFAR-100	Spherical	Darcy Flow	PSICOV	Cosmic	NinaPro	FSD50K	ECG	Satellite	DeepSEA
Train-from-scratch	50.87	76.67	8.0E-2	5.09	0.50	9.96	0.75	0.42	12.38	0.39
Fine-tuning	7.67	55.26	7.34E-3	1.92	0.17	8.35	0.63	0.44	13.86	0.51
Orca	6.53	29.85	7.28E-3	1.91	0.152	7.54	0.56	0.28	11.59	0.29
Fine-tuning (layernorm)	10.11	76.38	2.11E-2	4.66	0.233	15.69	0.67	0.50	20.83	0.37
Orca (layernorm)	7.99	42.45	2.21E-2	4.97	0.227	15.99	0.64	0.47	20.54	0.36

在介绍了 Orca 如何处理跨模态微调之后，我们将通过三组主题实验来展示其经验有效性：（1）我们在多种模态中评估 Orca ，并证明它优于手工设计、AutoML搜索和通用架构；我们研究了其关键组件，以了解跨模态微调背后的机制，并举例说明它如何使有限数据模态受益；（2）我们在偏微分方程求解和表格分类两种模态中进行了深入分析，以证明 Orca 与专家设计的特定任务模型具有竞争力；（3）我们将 Orca 与以前的临时跨模态学习技术进行比较，以表明我们在通用性和有效性之间取得了平衡。

实验方案。虽然我们的工作流程接受各种预训练Transformer作为模型主体，但我们使用RoBERTa (Liu et al., 2019c) 和Swin Transformer (Liu et al., 2021b) （它们是研究最多的语言和视觉模态的代表）来举例说明 Orca 的有效性。我们使用Hugging Face库 (Wolf et al., 2019) 实现基础模型，并分别选择CoNLL-2003和CIFAR-10作为代理数据集。对于每个任务，我们首先在标准微调设置中进行超参数调整，以确定最佳目标序列长度、批大小和优化器配置。实验在一台NVIDIA V100 GPU上进行，并使用Determined AI平台进行管理。结果是5次试验的平均值。其他细节，见附录 A.2 。

4.1 广度视角：预训练模型能否跨模态迁移？

在本节中，我们重点介绍这项工作中最重要的观察结果：具有数据对齐的跨模态微调可以有效且高效地解决各种任务。为证明这一点，我们在NAS-Bench-360的10个任务上测试了 Orca ⁴ 涵盖了蛋白质折叠、心脏病预测和宇宙射线探测等各种一维/二维问题。参照表 1 ，我们考虑了三类基线：（1）由 Tu等人（2022）确定的手工设计的特定任务模型；（2）由Perceiver IO (Jaegle等人，2022) 代表的通用模型；（3）AutoML方法，包括NAS-Bench-360上的领先算法DASH (Shen等人，2022) 。

图3 ：使用性能曲线 (Dolan & Moré, 2002) 汇总表 2 的结果。较大的值（方法在 τ 因子内优于最佳任务的比例）更好。虎鲸位于左上角表示它通常是最佳的。

图4 ：左：在三个NAS-Bench-360任务上，最终精度和嵌入分布距离与嵌入学习轮次的关系。随着我们学习更好地将目标数据映射到源模态（更小的OTDD），我们获得了具有更好下游性能的模型。这表明微调精度和对齐质量之间存在经验相关性。右： Orca 的精度（ ↑ ）与在卫星任务上不同数据集大小的朴素微调相比。 Orca 在低数据情况下具有更高的性能提升。

表 2 报告了每种方法在每个任务上的预测误差，图 3 则可视化了总体性能。 Orca 在10个任务中的7个任务上实现了最低的错误率，并取得了最佳的总体性能。具体来说，它在所有任务上都优于手工设计的架构。除了DeepSEA和NinaPro（分别排名第二和第三）之外，它在所有任务上都优于所有AutoML基线。来自 Orca 嵌入学习阶段的改进带来了少量计算开销——附录中的表 11 显示，数据对齐所需的时间仅占微调时间的少量部分（11%）。

我们的结果验证了先前跨模态工作中的发现，即预训练的Transformer学习到的知识可以迁移到看似无关的任务。在下文中，我们将通过多次消融实验来剖析 Orca 的成功，并确定三个对利用学习知识至关重要的因素：数据对齐、完全微调、预训练模态选择。

关键因素1：对齐特征分布

为了了解 Orca 的良好性能是否确实归因于数据对齐过程（这是我们的关键创新），我们将它与不进行数据对齐的简单微调方法进行比较（表 3 ，中间行）。我们看到 Orca 始终优于简单微调。此外，我们在附录 A.4.4 中展示了具有不同对齐指标的 Orca 都比微调获得更好的性能。因此，缩小目标模态和预训练模态之间的差距可以促进模型适应。

为了进一步隔离数据对齐的影响，我们将 Orca 与一个从零开始训练的基线进行比较（表 3 ，第一行），该基线仅使用目标数据训练RoBERTa和Swin。我们观察到从零开始训练比 Orca 差，但在ECG、Satellite和DeepSea上比微调更好。我们推测，这是因为当目标模态与预训练模态差异显著时，简单的微调可能会损害迁移，但使用 Orca 对齐特征分布可以解决这个问题并有利于迁移。事实上，最近的研究表明，直接针对任务损失进行优化可能会扭曲预训练权重并导致次优解 (Kumar et al., 2022; Lee et al., 2022) 。通过操纵目标分布使其类似于源分布，我们降低了权重扭曲的风险，从而获得了更好的下游性能。

我们还通过训练不同迭代次数的嵌入器来量化数据对齐的影响，并观察将分布距离优化到不同收敛水平是否会影响下游性能。