专栏名称: 深蓝财经
为财经记者、投资者服务!
目录
相关文章推荐
刀法研究所  ·  “年味”淡了?品牌如何用三招在春节破局? ·  昨天  
跟宇宙结婚  ·  节目更新:跟宇宙结婚悄悄话 vol.243 ... ·  昨天  
刀法研究所  ·  OpenAI开放ChatGPT搜索功能;无印 ... ·  昨天  
玩物志  ·  2 万一件!大批「黄牛奶奶」爆炒始祖鸟 ·  3 天前  
51好读  ›  专栏  ›  深蓝财经

北大才女李飞飞,花了363元,做出媲美DeepSeek的AI模型

深蓝财经  · 公众号  ·  · 2025-02-07 18:11

正文

销量大跌50%!华为系“宠儿”赛力斯,突然失速

重磅!万科管理层大洗牌,国资团队全面登场!


来源 | 奇偶工作室

撰文 | 一个基哥




DeepSeek R1 引爆了全球科技界,全球不少AI研究团队,都在尝试复现DeepSeek的奇迹。

这不,又一个成果来了。

李飞飞等斯坦福大学和华盛顿大学的研究人员,站在开源模型Qwen2.5的肩膀上,训练成本仅花了不到50美元,就成功训练出了s1的AI推理模型,性能媲美OpenAI!

图片

在数学和编程能力测试中,s1的表现与OpenAI的o1模型和DeepSeek R1模型相当!

s1的代码和数据已在GitHub上开源,共其他人使用。

图片


1


训练成本不到50美元


s1模型论文的作者,斯坦福大学在读博士 Niklas Muennighoff在论文中表示,训练过程使用了16个英伟达 H100 GPU,耗时 26 分钟。

图片

以不到50美元的云计算费用,约合人民币约362元,就训练了一个名叫s1的人工智能推理模型。

图片

特别值得一提,这位大佬还是北京大学本科毕业的。

图片

还拿了北大的全额奖学金,北大出人才。

图片


2


少即是多,开源的胜利


s1也采用了DeekSeek类似的蒸馏技术。

在现有的阿里巴巴Qwen2.5-32B-Instruct的基础开始,然后使用谷歌最新的Gemini 2.0 Flash Experimental进行微调。

图片

为了微调模型,他们使用了监督微调(SFT),这种方法比DeepSeek的强化学习(RL)更快,耗时更少。

作者Niklas Muennighoff,他还特别感谢了Meta。

图片

Meta AI提出了一种新的大语言模型训练方法LIMA,“Less Is More for Alignment”,即“少即是多的对齐”。

通过使用少量(如1000个)精心挑选的问题,从少数示例中学习并泛化到未见过的问题。

s1大模型,就是用1000个高质量、多样化和困难的问题来训练。

图片

此外,研究团队还采用了一个技巧,在推理过程中添加“等待”一词,从而提高答案的准确性。

延长了小模型的思考时间,就实现了对大模型的精细化模仿!

结果来看,s1-32B在竞赛数学问题上,性能比o1-preview提升了高达27%(MATH和AIME24)。

图片

相比于DeepSeek R1:在MATH 500中,二者相差并不大(DS R1:97.3%);(S1-32B:93.0%)。

图片

模型、数据和代码在github上都能找到。


3


大神李飞飞


作为s1论文作者之一的李飞飞,在1976年出生于中国北京,是家中的独女,16岁时赴美求学。

原本主修物理,后来转系攻读电气工程,立志要让机器拥有视觉能力。2005年获得电子工程博士学位。







请到「今天看啥」查看全文