专栏名称: AI算法科研paper
每日更新人工智能行业技术干货、论文推荐、动态资讯、职场指南等AI知识。关注AI算法科研paper更深入了解人工智能。
相关文章推荐
传媒招聘那些事儿  ·  网易:资深内容营销(MMO回合制) ·  2 天前  
传媒招聘那些事儿  ·  【简历提升】挖掘亮点:提升眼界思路,优化简历! ·  2 天前  
51HR派  ·  本周热点 | ... ·  昨天  
谷饶生活信息站  ·  【谷饶直聘】3月21号更新,谷饶人才求职招聘 ... ·  2 天前  
51HR派  ·  限制行业发展的因素是什么? ·  3 天前  
51好读  ›  专栏  ›  AI算法科研paper

厉害了多模态对齐!新思路直接发高区!小红书、国科大都在抢着发!

AI算法科研paper  · 公众号  ·  · 2024-12-24 19:19

正文

多模态是个非常热门的话题,这其中,“ 多模态对齐 ”已经被验证非常重要,它能够 提升AI模型的跨模态理解和情感分析精度 ,是未来多模态大模型商业化的必要条件,研究热度不言而喻。

就说最近的大佬团队,小红书前脚刚在顶会CIKM'24上发表了AlignRec框架,以解决多模态推荐系统中的对齐问题。国科大紧跟着也提出了Math-PUMA,一种三阶段的专注于渐进向上的多模态对齐方法,性能比肩GPT-4V!

另外还有大幅减少GPU内存使用和推理时间的AlignMamba、在零样本分类任务中表现突出的轻量级框架OneEncoder...都是近期最新的多模态对齐方法,非常值得我们研读。

如果有想发论文的同学需要这些优秀成果参考,可以直接看我整理好的 11篇 多模态对齐最新论文 (包含以上),基本都有开源代码, 这样节省找资料的时间提高论文效率。

扫码添加小享, 回复“ 多模态对齐

免费获取 全部论文+开源代码

AlignRec: Aligning and Training in Multimodal Recommendations

方法: 论文提出AlignRec框架研究多模态推荐中的对齐问题,聚焦于内容内对齐、内容与类别ID对齐、以及用户与物品对齐,以解决多模态内容与ID特征之间的语义差距,采用预训练策略获取统一的多模态特征,随后联合训练后续对齐任务,从而在长尾物品推荐中优于现有方法。

创新点:

  • 对齐内容内的多模态信息(视觉和文本),通过基于注意力的跨模态编码器实现,为每个物品输出统一的模态表示。
  • 首先预训练内容内对齐任务以获得统一的多模态特征,然后结合内容-类别对齐和用户-物品对齐任务进行推荐目标的训练。
  • 提出零样本、项目-CF和屏蔽模态推荐等三个中间评估协议,直接评估多模态特征对推荐的有效性。

Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning

方法: 论文提出了Math-PUMA方法,通过渐进式多模态对齐来提高多模态大语言模型(MLLMs)的数学推理能力。作者通过构建多模态数据集和利用Kullback-Leibler(KL)散度实现视觉与文本模态对齐,并通过多模态指令微调,显著提升模型在不同模态下的数学问题解决能力。

创新点:

  • 引入了一个创新的三阶段方法来提高多模态大语言模型 (MLLMs) 的数学推理能力。
  • 通过构建一个包含996K高质量多模态问题求解数据的数据集,进一步微调模型,显著提高了模型在多模态数学问题求解任务中的性能。

扫码添加小享, 回复“







请到「今天看啥」查看全文