专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  【[183星]Kokoro ... ·  20 小时前  
爱可可-爱生活  ·  //@爱可可-爱生活:今日开奖,欢迎参与!/ ... ·  昨天  
白日梦想家大A  ·  历史重演?机会来了!准备吧!! ·  昨天  
白日梦想家大A  ·  历史重演?机会来了!准备吧!! ·  昨天  
黄建同学  ·  Figure机器人制造工厂:BotQ。1. ... ·  昨天  
爱可可-爱生活  ·  [LG]《Ideas in ... ·  2 天前  
51好读  ›  专栏  ›  量子位

迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单

量子位  · 公众号  · AI  · 2025-03-17 10:21

正文

允中 发自 凹非寺
量子位 | 公众号 QbitAI

7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主?

受到DeepSeek-R1中强化学习算法的启发 ,小米大模型团队对阿里的Qwen2-Audio-7B模型进行了微调。

结果模型在MMAU上的准确率从49.2%提升到了64.5% (涨幅31%) ,比以前霸榜的GPT-4o还高出近10个百分点。

MMAU是一个由一万条涵盖语音、环境声和音乐的音频样本构成的评测基准,难度非常高,人类专家的成绩为82.2%。

来自阿里的 Qwen2-Audio-7B 模型在此评测集上的准确率为49.2%,经小米大模型团队用清华大学发布的AVQA数据集,使用SFT微调后提升到了51.8%。

这样的提升并不明显,而当小米团队选择改用DeepSeek-R1的GRPO算法时,发现获得了巨大的性能提升,一举达到了MMAU的新SOTA。

目前,小米大模型团队已经把训练代码、模型参数开源,并提供了技术报告、在线Demo。

7B小模型拿下MMAU榜单SOTA

如前所述,小米大模型团队通过SFT,使用清华AVQA数据集对选择了来自阿里的Qwen2-Audio-7B进行了微调,成绩提升了2.6个百分点。

直到DeepSeek-R1的发布,为小米在该项任务上的研究带来了启发。

DeepSeek-R1的Group Relative Policy Optimization( GRPO )方法,让模型仅通过”试错-奖励”机制就能使自主进化,涌现出类似人类的反思、多步验证等推理能力。

在同一时间,卡内基梅隆大学发布的预印本论文 (arxiv:2503.01067) ,通过精巧的实验得出了一个有趣的论断:

当任务存在 明显的生成-验证差距 (Generation-Verification Gap) ,即任务生成结果的难度远大于验证结果正确性的难度时, 强化学习比起有监督微调具有独特优势

而AQA任务,恰好是完美的生成-验证差距显著的任务。

离线微调方法,如SFT,有点像背题库,你只能根据已有的题目和答案训练,但遇到新题可能不会做;

而强化学习方法,如GRPO,像老师在要求你多想几个答案,然后老师告诉你哪一个答案好,让你主动思考,激发出自身的能力,而不是被“填鸭式”教学。

当然,如果训练量足够,比如有学生愿意花很多年的时间来死记硬背题库,也许最终也能达到不错的效果,但效率太低,浪费太多时间。

而主动思考,更容易快速地达到举一反三的效果。强化学习的实时反馈可能会帮助模型更快锁定高质量答案的分布区域,而离线方法需要遍历整个可能性空间,效率要低得多。

基于上述洞察,小米 尝试将DeepSeek-R1的GRPO算法迁移到Qwen2-Audio-7B模型上

令人惊喜的是,在仅使用AVQA的3.8万条训练样本的情况下,强化学习微调后的模型在MMAU评测集上实现了64.5%的准确率,这一成绩比目前榜单上第一名的商业闭源模型GPT-4o有近10个百分点的优势。

有趣的是,如果在训练中强制要求模型输出包含thinking标签的推理过程时,准确率反而下降至61.1%。这说明 显式的思维链结果输出可能并不利于模型的训练

小米大模型团队的实验揭示了几个和传统认知不同的结论:

  • 关于 微调方法







请到「今天看啥」查看全文


推荐文章
白日梦想家大A  ·  历史重演?机会来了!准备吧!!
昨天
白日梦想家大A  ·  历史重演?机会来了!准备吧!!
昨天
爱可可-爱生活  ·  [LG]《Ideas in Inference-time Sca-20250316053546
2 天前
奔波儿灞与灞波儿奔  ·  这就是你第一天谈恋爱的样子,别不承认!
8 年前
观海解局  ·  同事获刑2年后,这只大老虎也栽了
7 年前
药圈网  ·  秋季润燥多吃四种花
7 年前
金羊毛工作坊  ·  网联会带来什么
7 年前