当然,上述特征只是让DeepSeek有了用户自发传播的基础,DeepSeek之所以火爆,一定程度上是因为它让海外AI巨头“破防”,出现了“掀桌子”的行为。
面对不少人士“DeepSeek是否有创新”的质疑,DeepSeek在其披露的V3和R1的技术论文中已经有过回应:1、V3模型采用多项自研技术进行架构创新,包括DeepSeekMoE+DeepSeekMLA架构、MTP多Token预测技术,使低成本训练成为可能;2、R1模型放弃了传统RLHF(人类反馈强化学习)中的HF部分,通过纯强化学习(RL)直接训练,验证了RL的优先级和有效性,进一步优化了训练效率。
这也意味着,DeepSeek证明了自己的确可以做到“以不到600万美元的训练成本(可以理解为净算力成本),完成一个性能接近巨头的模型”。
不过,半导体市场分析和预测公司SemiAnalysis指出,557.6万美元这个数字主要指的是模型预训练的GPU成本,考虑到服务器资本支出、运营成本等因素,DeepSeek的总成本在4年内可能达到25.73亿美元。
不可忽略的是,创新成本下降的趋势早已开始,DeepSeek只是加速了这一进程。方舟投资管理公司的创始人兼CEO“木头姐”指出,在DeepSeek之前,人工智能训练成本每年下降75%,推理成本甚至下降85%到90%。
英诺天使基金合伙人王晟也有相同看法,比如年初发布的模型,到年底再发布同样的模型,成本都会有大幅度下降,甚至有可能降至1/10。而且OpenAI作为闭源模型,对外披露的算力成本也有虚高的可能性,因为要留部分利润空间,也要不断对资本市场强化成本很贵的故事,以此得到更高的投资。
不过,DeepSeek的可贵性并不仅仅在于“便宜”,更在于它是一个“屠龙少年”的故事。
在ChatGPT横空出世之前,在中国面临算力管制之前,DeepSeek就已经拥有了超万张的GPU储备。这关联到DeepSeek的创始人梁文峰从2008年开始探索的量化交易,因为要将深度学习模型应用于实盘交易,必须储备大量算力,2019年至2021年间,梁文峰的另一家公司幻方相继自主研发了“萤火一号”与“萤火二号”AI集群,囤积大量芯片和技术人才。
幻方为梁文峰提供了很多东西,足够的卡、对AI的sense以及模型层面的工程化能力,梁文峰也为DeepSeek提供了很多东西,不以盈利为导向,对AGI纯粹的好奇心和探索欲,以及足够开放的心态。有参与者表示,幻方曾用很低的价格将卡提供给算法研究机构使用。
这样的故事具有不可复制性和美感,这也使得DeepSeek聚集了全民性的热度。