专栏名称: 上海证券报
《上海证券报》1991年7月1日伴随着新中国证券市场的建立而创刊,是我国第一张提供权威金融证券专业资讯的全国性财经日报。《上海证券报》是新华社重点报刊,中国证监会、保监会、银监会指定信息披露报纸。
目录
相关文章推荐
上海证券报  ·  阿里否认! ·  11 小时前  
天风研究  ·  天风2025年度策略 | ... ·  2 天前  
上海证券报  ·  腾讯力挺,古茗即将上市 ·  2 天前  
上海证券报  ·  600837,告别A股 ·  2 天前  
上海证券报  ·  热搜!DeepSeek百万年薪招人,实习生日薪千元 ·  2 天前  
51好读  ›  专栏  ›  上海证券报

50美元、26分钟!AI模型训练大突破?

上海证券报  · 公众号  · 证券  · 2025-02-07 09:11

主要观点总结

本文介绍了DeepSeek通过降低AI大模型的训练和推理成本引起市场关注的同时,出现了一种更低训练成本的AI模型s1。s1模型在云计算费用成本极低的条件下,其表现与尖端推理模型相近。文章还介绍了s1模型背后的研发团队成员李飞飞女士的行业地位和成就,以及她创立的空间智能AI公司World Labs的相关情况。

关键观点总结

关键观点1: DeepSeek引起市场关注

近日,DeepSeek因其降低AI大模型的训练和推理成本而受到广泛关注。

关键观点2: 更低训练成本的s1模型出现

有一种新的AI模型s1,使用较少的计算资源和时间进行训练,其表现与尖端推理模型相近。

关键观点3: s1模型的训练方法和原理

s1模型通过蒸馏和监督微调(SFT)的方法进行训练,模仿数据集中的行为以获取逻辑推理能力。

关键观点4: 关于s1模型研发团队的介绍

斯坦福大学和华盛顿大学的人工智能研究人员参与了s1模型的研发,其中斯坦福大学研究员Niklas Muennighoff介绍了项目的相关情况。

关键观点5: 李飞飞及其公司World Labs的介绍

李飞飞在AI领域的地位和成就,以及她创立的空间智能AI公司World Labs的相关情况,包括其估值、产品预期应用领域等。


正文

近日,DeepSeek通过显著降低AI大模型的训练和推理成本,引起了市场的广泛关注。 就在市场各方蜂拥追捧DeepSeek之际,有一个训练成本更低的模型似乎正在浮出水面。


2月6日,记者综合外媒报道和李飞飞等学者论文获悉, 斯坦福大学和华盛顿大学的人工智能研究人员仅使用了16张英伟达H100 GPU和26分钟就训练出了一个AI推理模型,其云计算费用成本还不到50美元。




公开信息显示,这个名为s1的模型在数学和编码能力的测试中表现与 OpenAI的o1和DeepSeek的R1等尖端推理模型相近。目前,s1模型以及用于训练它的数据和代码已在GitHub上发布。


s1的研发团队表示,他们从一个现成的基础模型开始,通过蒸馏(distillation)对其进行微调,即通过学习别的AI模型的回答来获取其逻辑推理能力。


论文显示,推理模型可以通过相对较小的数据集和一种叫做监督微调(SFT)的过程进行蒸馏。在这一过程中,模型被要求模仿数据集中的某些行为。


而SFT往往比DeepSeek用于训练R1模型的大规模强化学习方法更便宜。参与该项目的斯坦福大学研究员Niklas Muennighoff表示,如今,只要约20美元就能租到所需的计算资源。


s1模型项目中的李飞飞 业内被称为“AI教母”( godmother of A I ),是斯坦福大学计算机科学系首任红杉讲 教授,曾于 2013 2018 年担任斯坦福大学人工智能实验室主任。 李飞飞还 曾在2 017年1月至201 8年9月担任谷歌副总裁兼谷歌云人工智能、机器学习首席科学家。



据悉,李飞飞在2024年创立了World Labs公司,融资金额达2.3亿美元。该公司是一家空间智能AI公司,致力于构建能够感知、生成和与3D世界交互的大世界模型(LWM 。其目标是将AI模型从2D像素平面提升到完整的 3D虚拟和现实世界,赋予AI与人类一样丰富的空间智力。World Labs的估值已超过10亿美元,并预计将在2025年推出首批产品,或将应用于机器人、游戏等行业。









请到「今天看啥」查看全文


推荐文章
上海证券报  ·  阿里否认!
11 小时前
上海证券报  ·  腾讯力挺,古茗即将上市
2 天前
上海证券报  ·  600837,告别A股
2 天前
香港凤凰周刊  ·  冬霾调查
7 年前
诸海滨科新先声  ·  【安信研究】月度金股点兵:六月篇
7 年前