点击下方
卡片
,关注“
自动驾驶之心
”公众号
>>
点击进入→
自动驾驶之心
『
图像生成
』
技术交流群
本文只做学术分享,如有侵权,联系删文
Paper link:https://arxiv.org/pdf/2501.13926
Project link:https://github.com/ZiyuGuo99/Image-Generation-CoT
Author:
Ziyu Guo,
Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao,
Peng Gao, Hongsheng Li, Pheng-Ann Heng
随着OpenAI o1展示了思维链Chain-of-Thought(CoT)对于大模型推理能力的强大提升,各种基于强化学习RL和Test Time Scaling的方案已经在大模型理解领域取得了很大的进展。然而,在图像生成(Image Generation)领域,如文生图(Text-to-Image)及文生视频(Text-to-Video),是否也可以借鉴CoT相关的策略,来提升图片或视频的质量和文本一致性?
来自香港中文大学、北京大学、和上海AI Lab的研究者们通过Verify和Reinforce的方案,系统地探索了“CoT推理+文生图”的结合与潜力。
研究结果表明,这些方法能够有效提升自回归(Autoregressive)图像生成的质量,
作者也提出了两种专门针对该任务的新型奖励模型——
潜力评估奖励模型(Potential Assessment Reward Model,PARM) 及其增强版本 PARM++,后者引入了反思机制(Reflection Mechanism),进一步优化了图像生成质量。
第一作者是香港中文大学Muliar Lab的博士生,本科毕业于北京大学,曾在Amazon、Roblox、上海人工智能实验室、腾讯等机构实习,研究多模态大模型和3D视觉,一作代表作有Point-LLM、PointCLIP、SAM2Point等。
Z Highlights:
-
首次将OpenAI o1的“CoT思维链推理”应用到文生图的场景中,开启“图像生成+推理”的新方向。
-
全面探索各种推理策略在文生图上的潜力,例如Inference Computation Scaling和DPO Preference Alignment。
-
提出PARM和PARM++,两个专门针对于文生图场景的奖励模型reward model,极大提升了图片生成的质量。
01 自回归图像生成具有与大
模型类似的推理架构
目前,CoT推理已广泛应用于大语言模型(LLM)和多模态大模型(LMM),尤其在数学推理、科学计算等任务上展现出卓越的能力。然而,在
自回归图像生成
任务中,如何有效地验证(Verify)和强化(Reinforce)图像生成过程,仍是一个尚未解决的问题。
左图展示了目前领域使用“CoT推理+解数学题”的方案,右图展示了本研究对于“CoT推理+文生图”的全面探索。
研究团队观察到,自回归图像生成与LLM/LMM具有类似的推理架构,即:
1.离散化Token表示
:无论是语言还是图像数据,自回归模型都将其量化为
离散Token
,并通过逐步预测的方式进行生成。
2.逐步解码(Step-by-Step Decoding)
:类似于 CoT 在数学问题上的逐步推理,自回归图像生成也可以逐步生成中间图像,并在生成过程中进行验证与优化。
02 CoT如何应用于图像生成?
考虑到Autoregressive图像生成和LLM在数据表征和推理架构的相似性,研究团队调研了包括使用ORM和PRM的Test-time Verification、构造Preference Ranking Data、和通过DPO进行偏好对齐等方案,首次证明了“CoT+文生图”的可行性。同时也提出了两种新型的reward model——
PARM和PARM++
,用来优化图像生成质量。如下图所示,通过本研究探索的推理策略,大幅度提升了Autoregressive Image Generation的效果。
本研究的探索以“文生图”为任务场景,并使用Show-o作为baseline模型,主要分为3个部分:
测试时验证(Test-time Verification)
首先,论文探索如何使用Reward Model进行Test-time Verification,实现了Outcome Reward Model(ORM)和Process Reward Model(PRM)方案,并
在两者的基础上提出了两种全新的针对于图像生成任务的Potential Assessment Reward Model(PARM)和PARM++
。
结果奖励模型(Outcome Reward Model,ORM)
论文提出了2种方案,均使用Best-of-N的方式进行验证,即进行多次完整路径的生成,并从中选择出质量最高的最终图片。
过程奖励模型(Process Reward Model,PRM)
作者使用了类似ORM的方案,同样尝试了Zero-shot和Fine-tuned两种方案,并对每个step进行Best-of-N的方案,即逐步选择出质量最高的中间阶段的生成图片。然而,作者发现这种naive的PRM无法对图像生成有显著的提升。通过可视化,作者发现:PRM 在早期生成阶段由于图像模糊而难以评估,而在后期生成阶段不同路径的图片趋于相似,导致辨别能力受限。
潜力评估奖励模型(Potential Assessment Reward Model,PARM)
为了同时结合ORM的简洁和有效性,以及PRM细粒度逐个step验证的思想,作者提出了一个专门针对Autoregressive图像生成任务的reward model:Potential Assessment Reward Model(PARM)。PARM 通过以下三步提升图像生成质量:
-
清晰度判断(Clarity Judgment):识别哪些中间步骤的图像已经足够清晰,可用于后续评估。
-
潜力性评估(Potential Assessment):分析当前步骤是否有潜力生成高质量的最终图像。
-
最佳选择(Best-of-N' Selection):在高潜力路径中选择最佳的最终图像。
潜力评估奖励模型++(Potential Assessment Reward Model++,PARM++)
如下图所示,在PARM的基础上,作者提出了PARM++,使模型能够在生成错误时进行自我修正。具体来说,基于PARM选出的最终图片,作者首先使用PARM++评估生成图片是否符合文本描述;若图片不符合要求,会要求RM提供详细的错误描述,并根据该描述,要求生成模型进行
自我修正(Self-correction)
,即模型接收反馈,并参考错误信息重新生成结果。结果表明,
PARM++进一步提升GenEval+1
7
%。
如下图所示,生成结果在
物体数量、颜色、空间关系
等方面更加准确。
直接偏好优化(DPO)Alignment
作者进一步引入DPO偏好对齐,即使用大规模排名数据训练模型,使其生成结果更符合人类偏好。研究团队构建了
288K 条图文排名数据(Text-to-Image Ranking Data)
用于训练。具体来说,训练过程是采用最大似然优化,调整模型输出,使其更偏向人类偏好。同时,论文也进一步使用
迭代 DPO(Iterative DPO)
,在模型优化后重新生成新数据进行再次训练。结果表明,初次DPO训练使模型在GenEval 性能提升
+9%
,而迭代DPO进一步提高至
+12%
,超越Fine-tuned ORM。
Test-time Verification + DPO Alignment
在前述两种方法的基础上,作者探索了
将Test-time Verification与DPO 对齐相结合
的策略,以实现端到端的优化。在DPO训练的模型基础上,进一步应用Test-time Verification进行筛选,使生成图像质量更高,文本一致性更强。实验结果表明,结合DPO和Test-time Verification后,模型在GenEval指标上的整体提升达