专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
北京本地宝  ·  跨越3区、设5站!北京市郊铁路线+1!还有京 ... ·  3 天前  
北京本地宝  ·  北京长期有效的免费福利! ·  4 天前  
北京吃货小分队  ·  庆丰包子铺出自助了!但... ·  3 天前  
51好读  ›  专栏  ›  AI算法与图像处理

R1-Omni开源!全模态模型+RLVR,让各模态作用清晰可见

AI算法与图像处理  · 公众号  ·  · 2025-03-11 20:28

正文

随着DeepSeek R1的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR都展现出了显著优于传统监督微调(SFT)的效果。

然而,现有研究多聚焦于Image-Text多模态任务,尚未涉足更复杂的全模态场景。基于此,通义实验室团队探索了RLVR与视频全模态模型的结合,并提出了 R1-Omni模型。

论文: https://arxiv.org/abs/2503.05379

Github: https://github.com/HumanMLLM/R1-Omni

模型: https://www.modelscope.cn/models/iic/R1-Omni-0.5B


模型介绍


模型训练的两个阶段

冷启动阶段:奠定基础推理能力


为了保证RLVR阶段训练的平稳性,该团队使用一个组合数据集进行微调,使其初步 掌握多模态情感识别任务中的推理能力 。该组合数据集是一个由 580 条视频数据组成的组合数据集,其中包括来自 Explainable Multimodal Emotion Reasoning (EMER) 数据集的 232 条样本,以及来自 HumanOmni 数据集的 348 条样本。


EMER数据集的数据格式如下:


图片


这一阶段确保了模型在进入 RLVR 阶段前已具备一定基础能力,从而提升后续训练的效率与稳定性。


RLVR阶段:推理与泛化能力双重提升


基于冷启动阶段初始化的模型,通过RLVR的方式训练,同时利用视频和音频的多模态数据优化情感识别任务。该阶段通过强化学习与可验证奖励机制, 进一步优化了模型的推理能力和泛化性能。


RLVR的第一个关键组件是策略模型(policy model),该模型处理由视频帧和相应音频流组成的多模态输入数据,并生成一组候选响应。每个响应都附带详细的推理,展示了模型如何整合视觉和听觉信息从而得出预测的详细过程。


第二个关键组件是奖励函数,策略模型生成的这些候选响应使用可验证的奖励函数(reward function)进行评估。RLVR训练框架中用到的奖励函数受DeepSeekR1的启发,将奖励分成了两个部分,精确率奖励(accuracy reward)和格式奖励(format reward),这两部分共同形成最终的奖励R:


图片


通过联合两部分奖励,该奖励函数不仅鼓励模型生成正确的预测,同时保证输出是结构化的,并且和我们预设的格式一致。


实验表明,RLVR 不仅让音频和视频信息的作用更加透明,还显著提升了模型在情绪识别任务中的关键指标。此外,R1-Omni 在分布外测试中表现出色,充分展现了其在复杂场景下的强大泛化能力。








请到「今天看啥」查看全文