作者 |
Yibin Wang
编辑 |
AIGC Studio
点击下方
卡片
,关注“
3D视觉之心
”公众号
>>
点击进入→
3D视觉之心技术交流群
本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。
论文介绍
近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。现有的奖励模型往往过于专门化,难以跨任务泛化,限制了视觉模型在不同场景下的适应性。
为此,该工作提出——UnifiedReward,首个统一的视觉奖励模型,能够同时评估图像/视频的生成与理解,支持成对排序(pairwise ranking)和单样本评分(pointwise scoring),并通过
直接偏好优化(DPO)
对齐视觉模型的输出,使其更符合人类审美与认知!
🔥 为什么需要 UnifiedReward?
✅ 缺乏通用的视觉奖励模型:现有方法多为特定任务设计,难以适应多样化的视觉场景。我们希望打造一个通用模型,同时覆盖多模态生成与理解任务。
✅ 多任务学习的协同增强效应: 提升图像理解,有助于更精准地评估图像生成质量; 更细粒度的图像评估能力,有助于视频评估,提升帧级质量判断。
🏗 UnifiedReward 是如何工作的?
该方法包含三个关键阶段:
-
统一奖励模型训练 通过构建大规模的统一偏好数据集来训练一个通用的视觉奖励模型,采用成对排序和单样本评分策略,统一学习评估图像/视频的生成与理解任务。
-
高质量偏好数据构建 利用训练好的奖励模型,通过以下三步筛选偏好数据:
-
生成候选数据:使用VLM/Diffusion 生成N 份数据;
-
成对排序:将N 份数据两两成对,由奖励模型筛选优选样本和被拒样本;
-
逐点评分:在优选组中选最高分,在被拒组中选最低分,构建最终的高质量偏好数据对。
生成/理解模型偏好对齐 利用构建的偏好数据,通过直接偏好优化(DPO)微调VLM/Diffusion模型,对齐其输出,使其更加符合人类偏好。