24年7月来自复旦大学和新加坡管理学院的论文“RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models”。
大型多模态模型 (LMM) 显著推动各种视觉语言任务的发展。高质量训练数据的可扩展性和可用性对 LMM 的成功起着关键作用。在食品域,虽然诸如 Recipe1M 之类的综合食品数据集提供了丰富的成分和食谱信息,但它们往往无法提供足够的数据进行营养分析。Recipe1M+ 数据集虽然提供了一个用于营养评估的子集,但在营养信息的规模和准确性方面受到限制。为了弥补这一差距,Uni-Food,一个统一的食品数据集,包含超过 100,000 张带有各种食品标签的图像,包括类别、成分、食谱和成分级营养信息。为了缓解 LMM 微调期间由多任务监督引起的冲突,引入一种多样线性校正的专家混合 (RoDE) 方法。RoDE 利用各种专家来解决不同复杂程度的任务,从而促进可训练参数的协调,即为更复杂的任务分配更多参数,反之,为更简单的任务分配更少的参数。RoDE 实现线性校正联合来改进路由器的功能,从而提高稀疏任务分配的效率。这样的 RoDE 确保 GPU 内存效率,而且易于优化。
该工作构建一个 Uni-Food 的大型数据集。与其他公开的食物数据集(Bossard,Guillaumin & Van Gool 2014;Marin 2019;Chen & Ngo 2016a;Thames 2021)不同,Uni-Food 包含与食物相关的任务中使用的各种属性,包括每个食物图像的食物类别、成分、食谱和营养。这是在一个数据集中提供所有属性的大数据集。如表总结了现有主要数据集和 Uni-Food 数据集的任务和样本大小。
其目标是构建一个统一、全面的数据集,其中包含与食物相关的丰富信息,包括每张图片的以下关键属性。
类别:
将每种食物归类到特定的类别中,以方便在数据集内进行组织和分类。
配料信息:
提供每道菜所用配料的详细分类,包括其名称和数量。
烹饪说明:
提供每道菜的烹饪分步说明,确保清晰完整,便于复制。
营养信息:
包含每道菜的详细营养数据,如常量营养素含量(如碳水化合物、蛋白质、脂肪)、微量营养素和总卡路里。
如图直观地展示了这些属性。
下图直观地展示了各个类别的分布情况:
RoDE 框架融合了各种专家,每个专家都有不同的能力,以及一个线性校正路由器来整合这些专家的贡献。
该框架的整体结构如图所示:
为了缓解 GPU 内存限制的问题,本文将专家概念化为细粒度的技能模块。
关键思想是,一项任务可以激活这些模块的组合,并且这些模块可以在各种任务之间共享。
这种模块化设计直观地引导开发具有不同能力的 LoRA 专家,以适应不同复杂程度的任务。
从低秩自适应(Hu,2021)中汲取灵感,这表明低秩适配器可能足以完成某些任务,故该工作创建具有不同秩的 LoRA。
由此产生的技能空间包括高秩和低秩 LoRA 专家,在解决各种任务时提供了更大的灵活性和效率。
如图显示RoDE 注重与食品相关的 VQA 任务。RoDE 主要针对食品相关的多任务学习,即食品分类、成分识别和营养估计。
路由器根据特定任务的需求整合每个专家的贡献。
先前的研究(Zhou,2022)表明,在大语言模型的背景下,使用稀疏混合的 LoRA 专家比使用密集专家表现更好。
LLaVA-MoLE(Chen、Jie & Ma,2024)提出了一种 top-1 选择策略,确保了 LMM 中专家选择的稀疏性。
虽然自然语言处理 (NLP) 领域的一些方法采用“软”方法来组合专家输出——例如,(Dou,2023)利用 softmax 和(Ponti,2023 年)采用 Gumbel softmax——但这些技术并不那么稀疏,并且优化起来可能具有挑战性。
相比之下,本文采用校正线性单元 (ReLU) (Nair & Hinton 2010) 来校正路由器的输出,从而鼓励 LoRA 专家激活的稀疏学习。
如图显示路由策略的直观说明。