北大开源多模态版DeepSeek-R1：评测表现超GPT-4o！

自动驾驶之心 · 公众号 · · 2025-02-07 07:30

正文

作者 | 量子位编辑 | 量子位

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

本文只做学术分享，如有侵权，联系删文

如果把DeepSeek-R1震撼硅谷的深度推理表现，运用到多模态场景，那会怎样？

此前DeepSeek自家的Janus-Pro-7B没有结合推理能力，但现在，国内有研究团队先做到了——

基于自研全模态框架Align-Anything， 北大联合港科大团队 推出多模态版DeepSeek-R1 ：

Align-DS-V，它在部分视觉理解表现评测集上超越GPT-4o。

当图文结合地询问它减肥时更适合喝哪一款饮品时，Align-DS-V精确地指出图中饮品的款数、饮品名称，以及减脂时最适合饮用的是“低糖原味豆奶”。

不仅如此，它还额外指出，图中的原味豆奶同样适合减脂期饮用。

更重要的是，在让DeepSeek-R1“长眼睛”的过程中，研究人员还发现了 模态穿透对于模型文本模态推理能力的提升效果 。

具体来说，团队在DeepSeek-R1的全模态化尝试中发现，多模态训练之后，模型不仅在文本模态任务上的表现有所提升，在科学任务、复杂推理、数学代码等方面的表现亦均有提升。

尤为显著的是，在ARC-Challenge （5-shot）上，成绩从单模态的21.4提升到了多模态的40.5。

基于此，团队认为 当下多模态大模型已具备强大的跨模态穿透与融合的感知能力 ，能够通过结合世界知识与上下文学习能力，实现多种模态（如图像、文本、音频、视频等）的高效推理与协同输出。

通过深度融合世界知识，模型在文本模态下的推理边界得以拓展。

人类在日常生活中接收到的信息往往是全模态的， 如何将“强推理慢思考”从单文本模态进一步推广到更多模态甚至是全模态场景，不可否认是大势所趋 。

在此基础上，如何将全模态大模型与人类的意图相对齐，也是一个极具前瞻性且至关重要的挑战。

在单一文本模态场景下，许多复杂推理任务可以通过基于规则的奖励提供监督信号，作为人类意图和偏好的载体。

而当从文本模态扩展到多模态甚至全模态场景下时， 许多问题会随之浮现 ：

输入输出空间的分布更加广泛，幻觉现象加剧，这都使得全模态对齐变得更加复杂。

为进一步促进多模态对齐研究，研究团队提出了 Align-Anything框架， 致力于使全模态大模型与人类意图和价值观对齐。

这里的全模态包括文生文、文生图、文图生文、文生视频等任意到任意的输入与输出模态。

总体而言，框架设计了具备高度的模块化、扩展性以及易用性的对齐训练框架，支持由文本、图片、视频、音频四大基本模态衍生出的任意模态模型对齐微调，并验证了框架对齐算法的实现正确性。

该框架具有以下特点：

高度模块化 ：对不同算法类型的抽象化和精心设计的API，用户能够为不同的任务修改和定制代码，以及定制化模型与数据集注册等高级扩展用法；
支持跨任意模态模型的微调 ：包含对如LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion等跨越多种模态生成与理解的大模型的微调能力；
支持不同的对齐方法 ：支持任意模态上的多种对齐算法，既包括SFT、DPO、PPO等经典算法，也包括ORPO, SimPO和KTO等新算法；
支持多种开、闭源对齐评估 ：支持了30多个多模态评测基准，包括如MMBench、VideoMME等多模态理解评测，以及如FID、HPSv2等多模态生成评测。