专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
机器之心  ·  ICLR 2025 ... ·  3 小时前  
爱可可-爱生活  ·  //@爱可可-爱生活:后天开奖,欢迎参与!- ... ·  13 小时前  
爱可可-爱生活  ·  ϕ-Decoding: ... ·  昨天  
宝玉xp  ·  //@grafiks:自己不提,任何事都不会 ... ·  昨天  
爱可可-爱生活  ·  今晚八点!演员已就位~ ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

机器之心  · 公众号  · AI  · 2025-03-18 15:35

正文

机器之心报道

编辑:杜伟、泽南


DeepSeek-R1 问世后,我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。如果能在视觉等各领域复刻强化学习(RL)在文本上的突破,AI 应用势必会将更多领域推入新的范式。


毫无疑问,这也是众多科技公司正在探索的方向。


3 月 18 号,昆仑万维正式发布 Skywork R1V(以下简称 R1V)系列模型,实现了 SOTA 级别的视觉推理和强大的通用推理能力。随着新模型的到来,昆仑万维成为了 国内第一家开源多模态思维链推理模型的企业


目前,昆仑万维已经开源了 R1V 的模型权重和技术报告。


  • Hugging Face 地址:https://huggingface.co/Skywork/Skywork-R1V-38B

  • Github 地址:https://github.com/SkyworkAI/Skywork-R1V

  • 技术报告地址:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf


具体表现如何呢?从多项基准测试来看,R1V-38B 相比较文本推理模型,已经在数学推理、代码生成等任务中达到了领先水平,在部分任务上接近了更大尺寸的闭源模型。相比较传统多模态模型(如 OpenAI 4o、Claude 3.5 Sonnet),R1V 的推理能力更是遥遥领先,相比多模态开源大模型 DeepSeek V3 也有所提升。


在推理能力方面,R1V-38B 同样可以达到顶尖水平。在权威的 MATH500 和 AIME 数学推理基准测试中,R1V 分别取得了 94.0 和 72.0 的高分,并在逻辑推理和数学问题求解上展现出了人类专家级水准,从而在行业内众多主流模型中脱颖而出。


而在视觉能力方面,R1V 成功实现了强文本推理能力的多模态迁移,在视觉推理任务上表现出色,凭借着创新的跨模态迁移技术与优化框架,R1V 在 MMMU 与 MathVista 等视觉推理基准中分别取得了 69 和 67.5 的成绩,不仅超越了多个开源竞品模型,更达到了与更大规模闭源模型媲美的水准。


更值得关注的是, R1V 成为全球范围内首个在数学推理能力上接近 OpenAI o1 的开源多模态模型


最近一段时间,DeepSeek 的突破让我们看到了在大模型上引入强化学习的潜力。现在,昆仑万维的实践似乎也已经给多模态打开了方向。


多模态喜获「强推理」

AI 应用格局打开


昆仑万维表示,R1V 视觉推理模型可以同时处理文本与视觉信息,拥有强大的跨模态推理能力,可轻松应对复杂的逻辑推理、数学问题、科学分析以及医学影像诊断等场景。


因为多模态 + 强推理的能力,大模型「睁开了眼睛」,因此也拓展了一大堆新的应用方向。


我们搜罗了一些不同学科(包括数学、化学、医学等)的题目,对 R1V 的解题推理能力来了一波考察。


先来一道 2025 考研数学题目:



很快,R1V 的完整解题思路和正确答案就展现了在我们面前:



接着让 R1V 分析下图化学分子式描述的是哪种立体几何构型:



这类题目要求多模态推理模型熟练、准确地判断、区分各类化学分子图,经过了抽丝剥茧的推理过程,R1V 给出了正确答案。



R1V 的知识面还不止于此,它甚至还略懂医学影像,看看它是如何诊断这张 CT 图片的。当然,分析结果仅供参考,最终的诊断和治疗还是要交给医生,由他们根据实际情况来做出。



最后,我们还测试了 R1V 的其他视觉推理能力,比如柱状图的数值分析:



可见,无论是数学等不同学科的一般性问题,还是一些更需要「眼力见」的视觉场景,R1V 都可以应付自如。


三大核心技术创新

让开源视觉思考模型成功「上位」


为什么到了 R1V 的程度,多模态上的强推理就能跑通了?在 R1V 发布的技术报告中,我们可以了解到其中的技术创新。


视觉多模态的特殊性决定了其推理与数学、逻辑等自然语言推理的不同,前者要解决跨模态对齐等一系列挑战。尽管当前的视觉语言模型(VLM)在描述性任务(比如为图像生成连贯且上下文相关的文本描述)方面表现出色,但它们在几何证明、科学问答等涉及深度逻辑的多模态任务中仍然不如单模态系统。


图片来自英伟达博客:https://developer.nvidia.com/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/


对此,学界提出将具有推理能力的语言模型集成到 VLM 中来增强后者的推理能力。虽然这一方案很有潜力,但实现过程中也面临挑战。比如,推理任务的独特性要求在训练时使用专门的推理格式的数据,然而当前的 VLM 数据集主要由非推理内容组成,即使是一些包含 VLM 思维链的示例,往往缺乏高级推理任务所需的复杂性。


此外,VLM 的推理能力提升也依赖多模态表征学习、知识增强、模块化架构设计等技术层面的协同进步。显然,昆仑万维的 R1V 在这些方面做出了突破。







请到「今天看啥」查看全文