这个项目的codebase是基于Open-R1-Multimodel(
网页链接
),而Open-R1-Multimodel又是基于Huggingface的Open-R1(
网页链接
),其基于Open-R1做了三件事情:
(1)基于huggingface/open-r1和deepseek-ai/DeepSeek-R1实现了多模式 R1 。
集成的 Qwen2-VL 系列、Aria-MoE 和其他可用的 VLM transformers。
(2)开源首批8k专注于数学推理的多模态强化学习训练示例。数据由 GPT4o 创建,具有推理路径和可验证答案,基于Math360K和Geo170K。
(3)使用 GRPO 训练的开源模型。
(1)基于huggingface/open-r1和deepseek-ai/DeepSeek-R1实现了多模式 R1 。
集成的 Qwen2-VL 系列、Aria-MoE 和其他可用的 VLM transformers。
(2)开源首批8k专注于数学推理的多模态强化学习训练示例。数据由 GPT4o 创建,具有推理路径和可验证答案,基于Math360K和Geo170K。
(3)使用 GRPO 训练的开源模型。
这个开源的 R1-V 厉害了!2B模型仅用 100 个训练步就超越了 72B,成本不到 3 美元。
项目使用具有可验证奖励的 RL 来激励 VLM 学习一般计数能力。
——
R1-V:以不到 3 美元的成本增强视觉语言模型的超泛化能力
1. 我们首先揭示,对于视觉语言模型,可验证奖励的强化学习 (RLVR)在有效性和分布外 (OOD)稳健性方面均优于思路链监督微调 (CoT-SFT) 。
2. 在我们的实验中,我们激励VLM 学习可泛化的视觉计数能力,而不是过度拟合训练集。
3. 仅用100 个训练步骤,2B 模型在 OOD 测试中就优于 72B 模型。
项目使用具有可验证奖励的 RL 来激励 VLM 学习一般计数能力。
——
R1-V:以不到 3 美元的成本增强视觉语言模型的超泛化能力
1. 我们首先揭示,对于视觉语言模型,可验证奖励的强化学习 (RLVR)在有效性和分布外 (OOD)稳健性方面均优于思路链监督微调 (CoT-SFT) 。
2. 在我们的实验中,我们激励VLM 学习可泛化的视觉计数能力,而不是过度拟合训练集。
3. 仅用100 个训练步骤,2B 模型在 OOD 测试中就优于 72B 模型。