介绍《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》
大家好,今天为大家分享一篇关于多模态生成模型的研究论文——《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》。该论文提出了一种新方法,能够在
。这一方法通过联合语言建模和扩散模型的目标,展示了多模态生成任务在性能和计算效率上的突破,为构建统一多模态生成框架提供了重要启发。
1. 基本信息
标题
: Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
作者
: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy
研究机构
: Meta, Waymo, University of Southern California