RoDE：食品的多模态专家混合模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-07-28 00:38

正文

24年7月来自复旦大学和新加坡管理学院的论文“RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models”。

大型多模态模型 (LMM) 显著推动各种视觉语言任务的发展。高质量训练数据的可扩展性和可用性对 LMM 的成功起着关键作用。在食品域，虽然诸如 Recipe1M 之类的综合食品数据集提供了丰富的成分和食谱信息，但它们往往无法提供足够的数据进行营养分析。Recipe1M+ 数据集虽然提供了一个用于营养评估的子集，但在营养信息的规模和准确性方面受到限制。为了弥补这一差距，Uni-Food，一个统一的食品数据集，包含超过 100,000 张带有各种食品标签的图像，包括类别、成分、食谱和成分级营养信息。为了缓解 LMM 微调期间由多任务监督引起的冲突，引入一种多样线性校正的专家混合 (RoDE) 方法。RoDE 利用各种专家来解决不同复杂程度的任务，从而促进可训练参数的协调，即为更复杂的任务分配更多参数，反之，为更简单的任务分配更少的参数。RoDE 实现线性校正联合来改进路由器的功能，从而提高稀疏任务分配的效率。这样的 RoDE 确保 GPU 内存效率，而且易于优化。

该工作构建一个 Uni-Food 的大型数据集。与其他公开的食物数据集（Bossard，Guillaumin & Van Gool 2014；Marin 2019；Chen & Ngo 2016a；Thames 2021）不同，Uni-Food 包含与食物相关的任务中使用的各种属性，包括每个食物图像的食物类别、成分、食谱和营养。这是在一个数据集中提供所有属性的大数据集。如表总结了现有主要数据集和 Uni-Food 数据集的任务和样本大小。