【[59星]ThinkDiff:让扩散模型具备多模态上下文推理能力,彻底改变生成图像的方式!亮点:1. 将视觉语言模型与大型语言模型解码器对齐,而非直接对齐扩散解码器,大大简化了训练过程;2. 在CoBSAT基准测试中,将最佳准确率从19.2%提升至46.3%,仅需5小时训练;3. 仅用普通图像-文本对训练,无需复杂多模态数据集】
'I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models'
GitHub: github.com/MiZhenxing/ThinkDiff
#多模态推理# #扩散模型# #AI生成# #AI创造营#
'I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models'
GitHub: github.com/MiZhenxing/ThinkDiff
#多模态推理# #扩散模型# #AI生成# #AI创造营#