作 者丨白杨,见习记者 杨娜娜
编 辑丨张伟贤,姜诗蔷,江佩佩
2月8日晚,又有多家知名巨头宣布接入DeepSeek大模型。
工信部:三家基础电信企业均全面接入DeepSeek开源大模型
京东云发布DeepSeek大模型一体机
商汤大装置上架DeepSeek系列模型
此外,
多家汽车企业纷纷宣布完成与DeepSeek模型的深度融合。
其中,
吉利汽车
宣布,其自研的星睿大模型与DeepSeek-R1已完成深度融合;
岚图汽车
宣布,岚图汽车的智能座舱已与DeepSeek完成深度融合;
东风汽车
也宣布,已完成DeepSeek全系列大语言模型的接入工作。
据21数据新闻实验室统计,随着DeepSeek热度飙升,其“朋友圈”亦在加速扩容,多家公司宣布接入DeepSeek模型,各行业正掀起智能化升级的浪潮。
目前都有哪些公司已经接入了DeepSeek?21数据新闻实验室带你一图速看>>
2月6日晚,DeepSeek发文强调:近期注意到部分与 DeepSeek 有关的仿冒账号和不实信息对公众造成了误导和困扰。目前,DeepSeek 仅在以下社交媒体平台拥有唯一官方账号:
不到50美元就能训练出媲美DeepSeek R1的模型?
当DeepSeek对AI行业的震撼仍在持续发酵时,又一则“炸裂”的AI新闻引发全球关注。
近日斯坦福大学和华盛顿大学的研究人员发表的一篇研究论文显示,
他们以不到50美元的云计算费用,训练出一款名为S1的推理模型。该模型在数学和编码能力测试中,与OpenAI的o1和DeepSeek的R1表现不相上下
。
要知道,DeepSeek之所以惊艳世界,正是因为它以远低于OpenAI的训练成本,做出了与其水平相当的产品。如今,若真的能将这一成本降至不到50美元(约364元),那无疑是AI领域的又一次重大突破。
然而,事实并非如此。
根据研究论文,S1模型并不是从零开始训练,而是以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,然后在16块H100 GPU上进行了26分钟的监督微调(STF),最终训练出新模型S1-32B。
在推理能力方面,研究人员则通过蒸馏技术,从谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental中提取了推理能力。
某大模型厂商的研发人员告诉21世纪经济报道记者,S1模型本质上是在前人研究的基础上复制了推理能力,而非真正创新。
他进一步指出,蒸馏技术虽然可以大幅降低模型训练成本,但它并不能创造出全新、更强大的推理模型。“这意味着,蒸馏出来的模型永远无法超过被蒸馏的模型”。
准确来说,S1模型的核心在于“模仿”。研究团队通过蒸馏技术,将谷歌模型的推理过程和能力迁移到S1模型上,并通过监督微调进一步优化其表现。
因此,S1模型的训练过程相对简单,成本也更低。它使用的数据集仅包含1000个问题及其推理过程。
此外,研究团队还开发了一种名为“预算强制(budget forcing)”的技术,通过在模型尝试结束生成时强行终止其思考过程,或通过多次附加“等待”来延长思考时间。这种方法可以使模型重新检查其答案,从而提高推理的准确性。
然而,
无论是从训练方法、成本,还是模型数据来源和优化策略上,S1与DeepSeek R1都有着本质的区别。
DeepSeek R1是通过强化学习训练的,它在训练过程中能够不断自我调整,并通过奖励机制强化正确的推理路径,最终达到较高的推理能力。
R1的优势在于它能够在动态环境中进行调整和优化,因此具有更强的适应性和处理复杂情境的能力。而S1只是复制已有模型的能力。
截至2月7日,DeepSeek指数的26只成分股中,按自由流通市值排序,前五分别为金山办公、科大讯飞、传音控股、中科曙光、三六零。前四大个股流通市值均破1000亿元。
截至2月7日收盘数据
从机构持仓情况来看,
不少ETF和明星基金经理管理的主动权益基金早已布局了DeepSeek相关概念股。
节后的三个交易日(2月5日—7日),每日互动等多只DeepSeek概念股涨停。
截至2024年三季度末,
每日互动
十大流通股东中,香港中央结算有限公司位居第六大流动股东。
优刻得
-W的前十大流通股东中,南方中证1000ETF和华夏中证1000ETF在列。上述两只ETF同时也出现在万兴科技、拓尔思的前十大流通股东名单中。
拓尔思
的前十大流通股东中,还有易方达中证人工智能ETF和广发中证1000ETF两只ETF。
卫宁健康
的前十大流通股东中,华宝中证医疗ETF、易方达创业板ETF以及南方中证500ETF三只ETF分别位列第三大、第五大、第七大流通股东。此外,招商基金投资老将朱红裕管理的招商核心竞争力A也位列第四大流通股东。
安恒信息
的前十大流通股东中,则有两位公募明星基金经理管理的3只基金出现。这三只基金分别是万家基金黄兴亮管理的万家行业优选和万家自主创新A,以及汇丰晋信基金陆彬管理的汇丰晋信动态策略A,分别位列安恒信息的第三大、第六大以及第九大流通股东。
截至2024年三季末,
金山办公
的前十大流通股东中,还出现了华夏上证科创板50ETF、华夏上证50ETF、易方达上证科创板50ETF以及目前(截至2月5日)规模达3500多亿的华泰柏瑞沪深300ETF。
截至2024年末,持有金山办公数量最多的前15只基金中,多只基金为去年四季度新进买入金山办公为前十大重仓股。
万家基金莫海波管理的万家品质生活、万家新兴蓝筹、万家甄选在2024年四季度新进金山办公为前十大重仓股,分别买入145万股、90万股、86万股;大成基金王帅管理的大成互联网思维新买入95万股,中欧基金周蔚文参与管理的中欧新蓝筹也新进金山办公为重仓股,买入67万股。
东吴基金权益投资总监刘元海表示,DeepSeek的模型推理成本较同类产品大幅降低,且无需依赖最先进芯片,这将引发市场对于海外龙头芯片公司GPU需求可持续性的担忧。2025年对科技行业充满信心,将重点关注AI硬件、汽车智能化、AI人形机器人以及AI算力等细分方向。
另有私募香橙资本创始人何潇在最新的投资观点中透露,自己已经“全力挥出2025年的重要一杆,目前的组合是满仓状态,投资方向是港股科技股”。香橙资本向21世纪经济报道记者表示,目前香橙资本的国内基金规模在14亿左右,计划将在20亿元规模附近关闭募资窗口。
何潇进一步解释,1月初加仓时,虽然DeepSeek还未“横空出世”,但自己对中国整体工程师红利及大厂们在应用端的能力是自信的,并看好AI重估的机会。他认为,中美科技股价值重估是必然事件,即使没有DeepSeek的催化,也会有下一个现象级应用端在国内诞生。
更多精彩内容↓↓
聚焦丨DeepSeek冲击波