来源 | 奇偶工作室
撰文 | 一个基哥
DeepSeek R1 引爆了全球科技界,全球不少AI研究团队,都在尝试复现DeepSeek的奇迹。
这不,又一个成果来了。
李飞飞等斯坦福大学和华盛顿大学的研究人员,站在开源模型Qwen2.5的肩膀上,训练成本仅花了不到50美元,就成功训练出了s1的AI推理模型,性能媲美OpenAI!
在数学和编程能力测试中,s1的表现与OpenAI的o1模型和DeepSeek R1模型相当!
s1的代码和数据已在GitHub上开源,共其他人使用。
训练成本不到50美元
s1模型论文的作者,斯坦福大学在读博士 Niklas Muennighoff在论文中表示,训练过程使用了16个英伟达 H100 GPU,耗时 26 分钟。
以不到50美元的云计算费用,约合人民币约362元,就训练了一个名叫s1的人工智能推理模型。
特别值得一提,这位大佬还是北京大学本科毕业的。
还拿了北大的全额奖学金,北大出人才。
少即是多,开源的胜利
s1也采用了DeekSeek类似的蒸馏技术。
在现有的阿里巴巴Qwen2.5-32B-Instruct的基础开始,然后使用谷歌最新的Gemini 2.0 Flash Experimental进行微调。
为了微调模型,他们使用了监督微调(SFT),这种方法比DeepSeek的强化学习(RL)更快,耗时更少。
作者Niklas Muennighoff,他还特别感谢了Meta。
Meta AI提出了一种新的大语言模型训练方法LIMA,“Less Is More for Alignment”,即“少即是多的对齐”。
通过使用少量(如1000个)精心挑选的问题,从少数示例中学习并泛化到未见过的问题。
s1大模型,就是用1000个高质量、多样化和困难的问题来训练。
此外,研究团队还采用了一个技巧,在推理过程中添加“等待”一词,从而提高答案的准确性。
延长了小模型的思考时间,就实现了对大模型的精细化模仿!
结果来看,s1-32B在竞赛数学问题上,性能比o1-preview提升了高达27%(MATH和AIME24)。
相比于DeepSeek R1:在MATH 500中,二者相差并不大(DS R1:97.3%);(S1-32B:93.0%)。
模型、数据和代码在github上都能找到。
大神李飞飞
作为s1论文作者之一的李飞飞,在1976年出生于中国北京,是家中的独女,16岁时赴美求学。
原本主修物理,后来转系攻读电气工程,立志要让机器拥有视觉能力。2005年获得电子工程博士学位。