专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
安徽消保委  ·  第四届安徽特色伴手礼 | ... ·  7 小时前  
安徽消保委  ·  第四届安徽特色伴手礼 | ... ·  7 小时前  
大皖新闻  ·  最新预报:雨雪今天将抵安徽! ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

RoDE:食品的多模态专家混合模型

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-07-28 00:38

正文

24年7月来自复旦大学和新加坡管理学院的论文“RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models”。

大型多模态模型 (LMM) 显著推动各种视觉语言任务的发展。高质量训练数据的可扩展性和可用性对 LMM 的成功起着关键作用。在食品域,虽然诸如 Recipe1M 之类的综合食品数据集提供了丰富的成分和食谱信息,但它们往往无法提供足够的数据进行营养分析。Recipe1M+ 数据集虽然提供了一个用于营养评估的子集,但在营养信息的规模和准确性方面受到限制。为了弥补这一差距,Uni-Food,一个统一的食品数据集,包含超过 100,000 张带有各种食品标签的图像,包括类别、成分、食谱和成分级营养信息。为了缓解 LMM 微调期间由多任务监督引起的冲突,引入一种多样线性校正的专家混合 (RoDE) 方法。RoDE 利用各种专家来解决不同复杂程度的任务,从而促进可训练参数的协调,即为更复杂的任务分配更多参数,反之,为更简单的任务分配更少的参数。RoDE 实现线性校正联合来改进路由器的功能,从而提高稀疏任务分配的效率。这样的 RoDE 确保 GPU 内存效率,而且易于优化。


该工作构建一个 Uni-Food 的大型数据集。与其他公开的食物数据集(Bossard,Guillaumin & Van Gool 2014;Marin 2019;Chen & Ngo 2016a;Thames 2021)不同,Uni-Food 包含与食物相关的任务中使用的各种属性,包括每个食物图像的食物类别、成分、食谱和营养。这是在一个数据集中提供所有属性的大数据集。如表总结了现有主要数据集和 Uni-Food 数据集的任务和样本大小。


其目标是构建一个统一、全面的数据集,其中包含与食物相关的丰富信息,包括每张图片的以下关键属性。 类别: 将每种食物归类到特定的类别中,以方便在数据集内进行组织和分类。 配料信息: 提供每道菜所用配料的详细分类,包括其名称和数量。 烹饪说明: 提供每道菜的烹饪分步说明,确保清晰完整,便于复制。 营养信息: 包含每道菜的详细营养数据,如常量营养素含量(如碳水化合物、蛋白质、脂肪)、微量营养素和总卡路里。 如图直观地展示了这些属性。


下图直观地展示了各个类别的分布情况:


RoDE 框架融合了各种专家,每个专家都有不同的能力,以及一个线性校正路由器来整合这些专家的贡献。 该框架的整体结构如图所示:


为了缓解 GPU 内存限制的问题,本文将专家概念化为细粒度的技能模块。 关键思想是,一项任务可以激活这些模块的组合,并且这些模块可以在各种任务之间共享。 这种模块化设计直观地引导开发具有不同能力的 LoRA 专家,以适应不同复杂程度的任务。 从低秩自适应(Hu,2021)中汲取灵感,这表明低秩适配器可能足以完成某些任务,故该工作创建具有不同秩的 LoRA。 由此产生的技能空间包括高秩和低秩 LoRA 专家,在解决各种任务时提供了更大的灵活性和效率。

如图显示RoDE 注重与食品相关的 VQA 任务。RoDE 主要针对食品相关的多任务学习,即食品分类、成分识别和营养估计。

路由器根据特定任务的需求整合每个专家的贡献。 先前的研究(Zhou,2022)表明,在大语言模型的背景下,使用稀疏混合的 LoRA 专家比使用密集专家表现更好。 LLaVA-MoLE(Chen、Jie & Ma,2024)提出了一种 top-1 选择策略,确保了 LMM 中专家选择的稀疏性。 虽然自然语言处理 (NLP) 领域的一些方法采用“软”方法来组合专家输出——例如,(Dou,2023)利用 softmax 和(Ponti,2023 年)采用 Gumbel softmax——但这些技术并不那么稀疏,并且优化起来可能具有挑战性。 相比之下,本文采用校正线性单元 (ReLU) (Nair & Hinton 2010) 来校正路由器的输出,从而鼓励 LoRA 专家激活的稀疏学习。 如图显示路由策略的直观说明。







请到「今天看啥」查看全文