专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
Linux就该这么学  ·  微信新功能升级:可一次性删除所有“单向好友” ·  18 小时前  
中科院物理所  ·  当天上的垃圾越来越多 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

OmniBind:绑定空间实现大规模全多模态表征

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-07-27 00:09

正文

24年7月来自浙大和香港大学的论文“OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces”。

最近,各种模态的人机交互已经显示出有希望的应用,例如 GPT-4o 和 Gemini。鉴于多模态联合表示在理解和生成流水线中的基础作用,高质量的全联合表示,将是朝协同处理更多样化的多模态信息迈出的一步。在这项工作中,OmniBind 是一种大规模多模态联合表征模型,其规模从 70 亿到 300 亿个参数不等,支持 3D、音频、图像和语言输入。由于所有模态的数据对都很稀缺,将各种预训练的专家模型空间重新映射和绑定在一起,而不是从头开始训练大模型。这种方法间接增加模型参数和可见数据量,实现“扩大规模”。为了有效地整合各种空间,学习路由器动态地为不同的空间分配权重,目标有两个:跨模态整体对齐和语言表征解耦。值得注意的是,由于绑定和路由空间都只需要轻量级网络,因此 OmniBind 的训练效率极高。学习最大的 30B 模型仅需要未配对的单模态数据,并且在单个 8卡 4090 节点上大约需要 3 天时间。


如图所示OmniBind 概述。OmniBind 集成各种现有多模态模型的多样化知识,从而实现大规模的全向表征。OmniBind 表现出卓越的多功能性,并在所有模态对的广泛下游任务中取得最先进的成果。


鉴于视觉语言模型资源丰富且在多模态领域发挥着关键作用,选择先进的 CLIP 模型 EVA-CLIP-18B [48] 作为基础,并将其他图像文本、音频文本、音频图像文本和 3D 图像文本空间绑定到其上。

对于空间绑定,FreeBind [56] 首先提出通过集成额外空间来改进表示空间。其空间绑定流程可概括为两个步骤:1)收集两个空间中的伪嵌入对;2)将一个空间映射到另一个空间。绑定过程主要源自 FreeBind,但将其伪嵌入对聚合替换为更高效、更强大的伪项目对检索,并扩大集成空间的数量。

具体而言,FreeBind 首先将大量未配对的单模态数据编码到每个空间的嵌入中,然后使用跨模态相似性图聚合两个空间中的伪嵌入对。每对空间的嵌入对都是唯一的。因此,在绑定广泛的空间时,重复聚合嵌入会耗费大量资源。此外,由于现有空间的性能各不相同,非共享的伪对也不稳定。

为了稳健高效地绑定空间,直接在条目级检索所有模态的伪对。考虑到大量未配对的 3D、音频、图像和语言数据,并利用最先进的 3D-图像-文本、音频-文本、音频-图像和图像-文本检索模型,可以将每个模态作为起点,检索来自其他模态的数据的 top-1 召回率。此方法构造伪条目对 {p, a, v, t}。

使用伪数据,训练简单的投影层将每个空间单独绑定到 EVA-CLIP-18B。投影层的训练目标是所有相关模态对之间的多模态对比损失。

将所有不同的空间绑定在一起会产生一个混合模型,其中包含 K 个 3D 点编码器、S 个音频编码器、N 个图像编码器和 M 个文本编码器。这些编码器源自不同的预训练模型,但绑定后共享相同的编码空间。

现有研究 [58, 57, 56] 手动设置来自不同空间的编码器组合因子。虽然手动设置提供了在集成几个空间时自定义结果空间的灵活性,但随着更多空间的添加,这种方法变得越来越复杂和不切实际。此外,手工设计的组合权重也限制了跨各种知识源的深度集成,导致简单的权衡而不是全面融合不同的专业知识。

为了解决这个问题,借鉴大语言模型 (LLM) 中的混合专家 (MoE) 技术,提出使用可学习路由器动态分配权重。如图是OminiBind流水线所示,每个模态包含一个路由器来预测此模态编码器的相应组合因子。


为了激励路由器预测所有模态组合的最佳权重,采用对比损失作为第一个学习目标。 通过简单地对所有模态对之间对比损失进行平均,训练平衡的路由器,从而实现所有模态的全面高质量跨模态语义对齐。

与主要从现实世界中采样的 3D 点、音频和图像相比,语言数据完全是人造的,表现出更高的信息密度和更强的表意倾向。因此,不同模态的文本描述表现出明显的偏差:图像字幕通常描述外观,音频字幕侧重于发声动作,3D 字幕优先考虑空间结构。因此,经过训练对齐不同模态的文本编码器,比其他模态的编码器表现出更多的专业知识。

考虑到不同文本表征之间的显著分布差异,为语言路由器引入了一个辅助学习目标,解开语言表征并提高其泛化能力。它保留了文本嵌入空间的可区分性并增强了与各种模态的语义对齐。具体而言,驱动语言路由器,去识别输入文本可能描述的是哪种模态,并优先考虑专门用于相应模态的文本编码器。

用于对齐空间的投影层 Ψ 是简单的两层 MLP。此外,采用 [56] 中的混合投影策略。路由器 Θ 也设计为两层 MLP,并在末尾添加一个额外的 sigmoid 激活函数。

选择 14 个预训练空间进行绑定,可分为五个音频文本(三个 WavCaps [37]、两个 LIANO-CLAP [60])、五个图像文本(EVA-CLIP-18B [48]、EVA02-CLIP-E [15]、两个 SigLIPs [66]、DFN-ViT-H [14])、三个 3D 图像文本(三个 Uni3D [67])和一个音频图像文本(ImageBind [19])空间。将所有空间绑定到 EVA-CLIP-18B 后,组合不同的空间构建三种 OmniBind 配置:OmniBind-Base、OmniBind-Large 和 OmniBind-Full,分别具有 70 亿、130 亿和 300 亿个参数。







请到「今天看啥」查看全文