模态特定Transformer
包含两个 N 层(本文 N=12)Transformer,分别专门用于编码图像和文本输入,以及一个用于多模态融合的附加 M(本文M=2)Transformer层(Akbari,2017)(Lu,2019)(Li,2019)(Su,2020)。将它们在第 i 层的权重表示为 Wiv、Wil (i = 1,2,...,12) 和 Wivl (i = 11,12)。这个设计的灵感来自于VLMo(Wang et al., 2022a, 2023),它针对不同的任务有不同的路由做转发。对于视觉问答和其他分类任务,用前 (N − M ) 层视觉和语言Transformer来提取图像和文本特征,并将它们的串联馈送到 M 多模态融合层以获得最终表示。对于图像文本检索,直接用整个 N 层视觉和语言Transformer来提取图像和文本表示进行匹配。仅使用单模态编码器来提取特征可以有效地计算特征之间的点积,因为它消除将输入对转发到跨模态层的需要。为了更容易合并,所有Transformer采用相同的初始化,无论它们用于何种模态,并且用 Wi0 表示第 i 层的初始权重。
本文的目标是将特定模态的架构中各种Transformer组合成一个与模态无关的Transformer。不会合并嵌入层并保持它们特定于模态,因为它们具有不同的架构和维度。对于共享权重架构,只合并自定义层的权重,因为其他部分已经与模态无关。在特定于模态的 VL 模型中,Transformer接收来自不同模态的输入并协同工作以完成目标任务。合并这些Transformer,以允许单个Transformer可以同时处理不同的模态。这种情况偏离了之前关于模型合并的研究(Li et al., 2022;Matena & Raffel, 2022;Ainsworth et al., 2022),其中要合并的 Transformer从相同的模态获取输入。
合并方法包括:1)插值方法。对于简单的插值,视觉、语言和跨模态Transformer层按照给定的比率逐元素加权平均。控制视觉和语言转换器之间的比率α,并将跨模态Transformer的比率设置为恒定值(对于具有三种模态的层,α为1/3)。2)模态算术。受到任务向量概念的启发(Ilharco et al., 2022),它指示了从初始权重提高任务性能的方向。对于给定的任务,任务向量是从调整后的权重中减去初始权重来获得。然后,将所有任务向量添加到初始权重来计算包含多任务信息的合并权重。本文将这个想法扩展到学习不同模态的向量,称为模态向量。3)RegMean。这种方法(,2023)找到线性层权重的封闭式解,并均匀地插值其他权重(BN,偏差项)。