专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
科技美学  ·  全球最薄折叠旗舰!OPPO Find ... ·  2 天前  
科技美学  ·  全球最薄折叠旗舰!OPPO Find ... ·  2 天前  
51好读  ›  专栏  ›  深度之眼

多模态生成发文量大涨!最新成果统一Transformer和Diffusion,含金量超高

深度之眼  · 公众号  ·  · 2024-09-12 20:10

正文

最近多模态生成领域也在“神仙打架”,比如Meta的全新训练方法Transfusion,用单个模型就能同时生成文本和图像!

还有之前华为、清华提出的个性化多模态内容生成技术PMG,生成的内容可“量身定制”,更能满足偏好。

这些效果炸裂的新成果证明了 多模态生成一直是研究热门 ,更实际点的证明还有:

  • 从学术角度来看,今年CVPR等顶会的收录论文中,多模态生成是最热门的研究主题之一。
  • 从就业角度来看,多模态生成的人才需求也比较大,很多公司都有相应的岗位,比较好拿offer。

因此多模态生成依旧是我们非常好的选择,想抓紧投中顶会给自己加码的同学可以考虑。这里为了帮助各位快速了解这个方向目前的最新动态,我整理好了 10篇 多模态生成今年最新的论文 给各位作参考,代码基本都有。

扫码添加小享, 回复“ 多模态生成

免费获取 全部论文+开源代码

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

方法: 论文一个多模态模型训练的配方Transfusion,可以处理离散数据(如文本或代码)和连续数据(例如图像、音频和视频数据)。Transfusion结合了语言建模损失函数(下一个词预测)和扩散模型,通过单一的transformer来训练混合模态序列,使其能够无缝地生成离散和连续的模态,例如同时生成文本和图像。

创新点:

  • Transfusion是一个统一的多模态模型,可以同时生成文本和图像,不需要信息的丢失。
  • 在文本到图像生成和图像到文本生成任务中,Transfusion模型在FID和CLIP得分方面表现优于Chameleon模型,且在相同的计算复杂度下,Transfusion模型的FID得分约为Chameleon模型的一半。
  • Transfusion模型在学习文本到文本预测任务上的效率也更高,达到了Chameleon模型计算复杂度的50%到60%的困惑度。

PMG: Personalized Multimodal Generation with Large Language Models

方法: 论文提出了一种基于大语言模型(LLMs)的个性化多模态生成方法(PMG),首先将用户行为转化为自然语言,以便LLM能够理解并提取用户的偏好。然后,将用户偏好输入生成器(如多模态LLM或扩散模型)以生成个性化内容。

创新点:

  • 提出了一种个性化多模态生成方法(PMG),首次将LLMs应用于个性化多模态生成任务,实现了一系列应用场景的个性化生成。
  • 引入了基于用户行为的用户偏好表示方法,结合显式关键词和隐式嵌入,有效地捕捉用户的偏好信息,用于生成过程的条件。
  • 使用加权求和的方式平衡准确性得分和个性化得分,实现了生成内容在准确性和个性化之间的良好平衡。

扫码添加小享, 回复“ 多模态生成

免费获取 全部论文+开源代码

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

方法: ANOLE是一个开源的多模态模型,专注于交错图像-文本生成。它基于Meta AI的Chameleon模型,通过高效微调少量参数来增强图像和多模态生成能力,而无需依赖扩散模型。

创新点:

  • ANOLE采用自回归方法进行图像和文本的生成,这使得它能够产生连贯且高质量的交错图像-文本序列。
  • ANOLE通过微调不到40M的参数,使用大约6000个样本,有效地实现了视觉和多模态生成能力,体现了它在大型多模态模型中引入复杂功能时的高数据和参数效率。
  • 提供了一个用于自回归多模态模型的训练和推理的统一框架,降低了开发和实验的门槛。

Generative Multimodal Models are In-Context Learners

方法: 论文介绍了一个名为 Emu2 的大型多模态生成模型,它通过大规模多模态序列的训练,具备了强大的多模态上下文学习能力。Emu2 能够处理包括文本、图像-文本对和交错的图像-文本-视频等在内的多种数据类型,并且在少量样本或简单指令的情况下解决多模态任务。







请到「今天看啥」查看全文