专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

图像生成迎来CoT时刻，港中文首次提出文生图o1推理新范式

自动驾驶之心 · 公众号 · · 2025-02-06 07:30

正文

作者 | Ziyu Guo等

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>> 点击进入→ 自动驾驶之心 『图像生成』 技术交流群

本文只做学术分享，如有侵权，联系删文

Paper link：https://arxiv.org/pdf/2501.13926

Project link：https://github.com/ZiyuGuo99/Image-Generation-CoT

Author： Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng

随着OpenAI o1展示了思维链Chain-of-Thought（CoT）对于大模型推理能力的强大提升，各种基于强化学习RL和Test Time Scaling的方案已经在大模型理解领域取得了很大的进展。然而，在图像生成（Image Generation）领域，如文生图（Text-to-Image）及文生视频（Text-to-Video），是否也可以借鉴CoT相关的策略，来提升图片或视频的质量和文本一致性？

来自香港中文大学、北京大学、和上海AI Lab的研究者们通过Verify和Reinforce的方案，系统地探索了“CoT推理+文生图”的结合与潜力。 研究结果表明，这些方法能够有效提升自回归（Autoregressive）图像生成的质量， 作者也提出了两种专门针对该任务的新型奖励模型—— 潜力评估奖励模型（Potential Assessment Reward Model，PARM）及其增强版本 PARM++，后者引入了反思机制（Reflection Mechanism），进一步优化了图像生成质量。

第一作者是香港中文大学Muliar Lab的博士生，本科毕业于北京大学，曾在Amazon、Roblox、上海人工智能实验室、腾讯等机构实习，研究多模态大模型和3D视觉，一作代表作有Point-LLM、PointCLIP、SAM2Point等。

Z Highlights：

首次将OpenAI o1的“CoT思维链推理”应用到文生图的场景中，开启“图像生成+推理”的新方向。
全面探索各种推理策略在文生图上的潜力，例如Inference Computation Scaling和DPO Preference Alignment。
提出PARM和PARM++，两个专门针对于文生图场景的奖励模型reward model，极大提升了图片生成的质量。

01 自回归图像生成具有与大模型类似的推理架构

目前，CoT推理已广泛应用于大语言模型（LLM）和多模态大模型（LMM），尤其在数学推理、科学计算等任务上展现出卓越的能力。然而，在 自回归图像生成 任务中，如何有效地验证（Verify）和强化（Reinforce）图像生成过程，仍是一个尚未解决的问题。

左图展示了目前领域使用“CoT推理+解数学题”的方案，右图展示了本研究对于“CoT推理+文生图”的全面探索。

研究团队观察到，自回归图像生成与LLM/LMM具有类似的推理架构，即：

1.离散化Token表示 ：无论是语言还是图像数据，自回归模型都将其量化为 离散Token ，并通过逐步预测的方式进行生成。

2.逐步解码（Step-by-Step Decoding） ：类似于 CoT 在数学问题上的逐步推理，自回归图像生成也可以逐步生成中间图像，并在生成过程中进行验证与优化。

02 CoT如何应用于图像生成？

考虑到Autoregressive图像生成和LLM在数据表征和推理架构的相似性，研究团队调研了包括使用ORM和PRM的Test-time Verification、构造Preference Ranking Data、和通过DPO进行偏好对齐等方案，首次证明了“CoT+文生图”的可行性。同时也提出了两种新型的reward model—— PARM和PARM++ ，用来优化图像生成质量。如下图所示，通过本研究探索的推理策略，大幅度提升了Autoregressive Image Generation的效果。

本研究的探索以“文生图”为任务场景，并使用Show-o作为baseline模型，主要分为3个部分：

测试时验证（Test-time Verification）

首先，论文探索如何使用Reward Model进行Test-time Verification，实现了Outcome Reward Model（ORM）和Process Reward Model（PRM）方案，并 在两者的基础上提出了两种全新的针对于图像生成任务的Potential Assessment Reward Model（PARM）和PARM++ 。

结果奖励模型（Outcome Reward Model，ORM）

论文提出了2种方案，均使用Best-of-N的方式进行验证，即进行多次完整路径的生成，并从中选择出质量最高的最终图片。

Zero-shot ORM：基于LLaVA-OneVision强大的图像理解能力，作者使用了其7B模型，直接作为zero-shot ORM使用，并通过下面的prompt来激发其作为文生图质量评估的能力：

Fine-tuned ORM：为了进一步增强ORM的专业性能，作者也构建了大规模的图文reward data来得到fine-tuned ORM，数据形式如下图所示：

过程奖励模型（Process Reward Model，PRM）

作者使用了类似ORM的方案，同样尝试了Zero-shot和Fine-tuned两种方案，并对每个step进行Best-of-N的方案，即逐步选择出质量最高的中间阶段的生成图片。然而，作者发现这种naive的PRM无法对图像生成有显著的提升。通过可视化，作者发现：PRM 在早期生成阶段由于图像模糊而难以评估，而在后期生成阶段不同路径的图片趋于相似，导致辨别能力受限。

潜力评估奖励模型（Potential Assessment Reward Model，PARM）

为了同时结合ORM的简洁和有效性，以及PRM细粒度逐个step验证的思想，作者提出了一个专门针对Autoregressive图像生成任务的reward model：Potential Assessment Reward Model（PARM）。PARM 通过以下三步提升图像生成质量：

清晰度判断（Clarity Judgment）：识别哪些中间步骤的图像已经足够清晰，可用于后续评估。
潜力性评估（Potential Assessment）：分析当前步骤是否有潜力生成高质量的最终图像。
最佳选择（Best-of-N' Selection）：在高潜力路径中选择最佳的最终图像。

潜力评估奖励模型++（Potential Assessment Reward Model++，PARM++）

如下图所示，在PARM的基础上，作者提出了PARM++，使模型能够在生成错误时进行自我修正。具体来说，基于PARM选出的最终图片，作者首先使用PARM++评估生成图片是否符合文本描述；若图片不符合要求，会要求RM提供详细的错误描述，并根据该描述，要求生成模型进行 自我修正（Self-correction） ，即模型接收反馈，并参考错误信息重新生成结果。结果表明， PARM++进一步提升GenEval+1 7 %。如下图所示，生成结果在 物体数量、颜色、空间关系 等方面更加准确。

直接偏好优化（DPO）Alignment

作者进一步引入DPO偏好对齐，即使用大规模排名数据训练模型，使其生成结果更符合人类偏好。研究团队构建了 288K 条图文排名数据（Text-to-Image Ranking Data） 用于训练。具体来说，训练过程是采用最大似然优化，调整模型输出，使其更偏向人类偏好。同时，论文也进一步使用 迭代 DPO（Iterative DPO） ，在模型优化后重新生成新数据进行再次训练。结果表明，初次DPO训练使模型在GenEval 性能提升 +9% ，而迭代DPO进一步提高至 +12% ，超越Fine-tuned ORM。

Test-time Verification + DPO Alignment

在前述两种方法的基础上，作者探索了 将Test-time Verification与DPO 对齐相结合 的策略，以实现端到端的优化。在DPO训练的模型基础上，进一步应用Test-time Verification进行筛选，使生成图像质量更高，文本一致性更强。实验结果表明，结合DPO和Test-time Verification后，模型在GenEval指标上的整体提升达