专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  //@爱可可-爱生活:后天开奖,欢迎参与!- ... ·  15 小时前  
爱可可-爱生活  ·  [LG]《Tiled Flash ... ·  17 小时前  
爱可可-爱生活  ·  目标导向型机器人:如何让AI学习更聪明 ... ·  昨天  
爱可可-爱生活  ·  【NVIDIA Isaac GR00T ... ·  昨天  
爱可可-爱生活  ·  今晚八点!演员已就位~ ... ·  2 天前  
51好读  ›  专栏  ›  新智元

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

新智元  · 公众号  · AI  · 2025-03-18 15:30

正文



新智元报道

编辑:编辑部 HYZ
【新智元导读】 全球首个开源多模态推理大模型来了!38B参数模型性能直逼DeepSeek-R1,同尺寸上横扫多项SOTA。而这家中国公司之所以选择无偿将技术思路开源,正是希望同DeepSeek一样,打造开源界的技术影响力。

刚刚,昆仑万维正式开源了全球首个工业界多模态推理模型Skywork R1V(以下简称「R1V」)!
R1V高效地将DeepSeek-R1这种强大的文本推理能力无缝scaling到了视觉模态,实现了多模态领域的领先表现,并以开源方式推动了技术进步。
由此,多模态推理的新时代即将开启。
R1V的实力,究竟有多强?
在视觉问答任务中,R1V直接对标Claude 3.5 Sonnet、GPT-4o等闭源模型,同时还保留了顶级文本推理能力。
在MMMU基准测试中,R1V以69分创下同等规模新高,在MathVista上拿下67.5分,达到领先的开源模型水平。
无论是复杂的数学推理,还是图像中的逻辑分析等,R1V都能轻松驾驭,堪称多模态领域的「全能战士」。
总结来说,R1V有以下三大亮点。

1. 全球第一个工业界开源多模态+推理模型
2. 性能接近甚至超越了规模大两倍的开源模型
3. 通过开源让技术可以惠及到更多人


这背后的缔造者,就是中国的AI科技公司——昆仑万维。
R1V的问世,更以开放的姿态为全球AI开源社区注入了全新活力。
即日起,模型权重、推理代码、技术报告全盘开源。

GitHub:https://github.com/SkyworkAI/Skywork-R1V

Hugging Face:https://huggingface.co/Skywork/Skywork-R1V-38B

技术报告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
这标志着,昆仑万维成为全球首家开源多模态思考模型的公司,朝着AGI落地迈出重要的一步。
而选择开源R1V视觉思考模型,也正是昆仑万维为了更坚定地贯彻AGI的梦想,推动开源社区的技术进步。

R1V:全球首款开源多模态推理模型

此前,OpenAI o1和DeepSeek-R1在全球带来了长思考模型的热潮,让大模型领域进入了全新的技术范式。
而不同于长思考模型专注于多步推理的特点,视觉思考模型则专注于从图像或视频中提取信息、进行逻辑推理。
如果要给它下个定义的话,什么是视觉思考模型?
简单来说,视觉思考模型是一种,能在文本、视觉复杂任务中,展现惊人推理能力的AI。
它不仅能「读懂」文字,还能「看懂」图像,并基于此进行深度分析和逻辑推理。
首先来一道数学题:「用圆心角为120°,半径为6cm的扇形纸片卷成一个圆锥形无底纸帽,则这个纸帽的高是?」
R1V经过短暂纠错后,给出了清晰完整的解题过程,并得出正确答案,表现出了较强的逻辑推理能力。
接下来再来一道更难一些的:「函数f(x)=∣2x−3∣+1在x=2和x=5处的导数关系是?」
可以看到,R1V先找到了绝对值部分∣2x−3∣的零点:令2x-3=0得x=1.5。
然后得出,当x≥1.5时,f(x)=2x-3+1=2x-2,导数f '(x)=2;当x<1.5时,f(x)=-(2x-3)+1=-2x+4,导数f '(x)=-2。
由于题目中的x=2和x=5均大于1.5,所以都属于f(x)=2x-2部分。因此,f '(2)=2,f '(5)=2,即两点处的导数相等。
最后,R1V给出了答案:(B)等于。
以上案例中不难看出,R1V在视觉+推理上表现惊艳,所以,它是如何逆袭成功的?

炼丹之道,细节全公开

最新公开的技术报告中,揭秘了三大杀招。

跨模态迁移学习

昆仑万维的研究者,首次发现了跨模态的迁移学习。
R1V首次实现了将大模型的文本推理能力高效迁移至视觉模态,通过Skywork-VL视觉投影器的有效训练,显著保留了原有的推理能力。
整个过程无需从头重新训练基座语言模型和视觉编码器,且有效保留了原有的文本推理能力。
具体来说,研究者提出了一种高效的多模态迁移方法,通过MLP结构,有效地将具有推理能力的语言模型与视觉骨干对齐。
这样,就大幅减少了对大量多模态推理数据的需求。
这种方法背后的关键洞察,就在于将视觉-语言表示的对齐与推理能力的保留解耦。
直接将具有推理能力的语言模型(f l )连接到视觉骨干(f v ),会需要大量的 R1风格格式的多模态推理数据,以同时实现这两个目标。
然而这种做法成本太高,不切实际。因此,研究者采用了一种相反的分阶段策略。
首先,他们训练一个MLP适配器,将fv与具有相同架构但无推理能力的替代语言模型( )对齐; 随后,他们利用 和f l 之间的潜在相似性,将预训练的MLP转移,以使f v 与原始的推理能力模型f l 对齐。






请到「今天看啥」查看全文